AIs Want to Be Honest. Bài của KK trên substack ngày 2/6.
Mọi hệ thống đều thể hiện những thiên kiến và xu hướng hướng tới một số trạng thái nhất định. Dòng chảy của nước qua đường ống, sự rung động của máy móc, các mối quan hệ trong một đồng cỏ, các hạch bạch huyết của bạn, tất cả đều là hệ thống. Theo thời gian, nếu mọi điều kiện đều như nhau, thì hệ thống có xu hướng quay về các mô thức (pattern) hoặc hành vi cụ thể nào đó. Về mặt kỹ thuật, xu hướng này được gọi là điểm hấp dẫn (attractor), như thể động lực của hệ thống bị thu hút bởi mô thức này. Khi một hệ thống phức tạp ổn định vào một điểm hấp dẫn, thì có thể tạo tiền đề cho một cấu trúc tiêu tán (dissipative structure) có thể tự duy trì theo thời gian bằng cách hướng năng lượng qua nó. Ví dụ như một số loại nhiễu loạn dai dẳng như lốc xoáy, hoặc các trạng thái não như động kinh, hoặc tắc nghẽn giao thông.
Tâm trí, bao gồm cả tâm trí nhân tạo, đều có các điểm hấp dẫn. Chúng có thể là nguồn gốc của một số trạng thái tinh thần và giấc mơ. Có vẻ như các LLM cũng có các điểm hấp dẫn. Khi nghiên cứu Claude của Anthropic, tôi bắt đầu nghi ngờ rằng nó có một điểm hấp dẫn đang hình thành, một thiên kiến hướng tới những điều “đúng” (true). Giả thuyết của tôi rất táo bạo: Các LLM (và AI?) có thiên kiến hướng tới sự thật.
Phản ứng ngay lập tức của nhiều người đối với đề xuất này là: làm sao điều đó có thể đúng được khi mà ảo giác sai lệch (false hallucinations) là một đặc điểm bất biến của LLM?
Lập luận của tôi bắt đầu bằng phép so sánh với khoa học. Cái ta gọi là khoa học là một hệ thống tri thức. Đó là một hệ thống về cách chúng ta biết mọi thứ. Những sự thật (fact) mà khoa học gọi là đúng đều mang tính tạm thời; chúng được coi là đúng bằng một phương pháp, cho đến khi chúng ta chứng minh được điều ngược lại. Và để được chấp nhận vào khoa học, thì một quan sát mới, một sự thật mới, phải phù hợp với tất cả những gì chúng ta đã cho là đúng. Nó sẽ được kiểm chứng không chỉ ở phạm vi cục bộ mà còn trên phạm vi toàn cầu. Một lý thuyết mới trong sinh học không thể mâu thuẫn với kiến thức vật lý. Khi kiến thức khoa học phát triển về chiều sâu và quy mô, rào cản gia nhập đối với kiến thức mới cũng tăng lên, bởi vì mẩu kiến thức mới phải phù hợp với tất cả những kiến thức khác và không thể mâu thuẫn với các phần khác, ngay cả những phần dường như xa vời. Có nhiều lý thuyết phi truyền thống là hợp lý trong một khuôn khổ hẹp, nhưng không hợp lý trong khuôn khổ rộng lớn của khoa học. Ví dụ, nhiều kiến thức của shaman giáo nhất quán trong khuôn khổ của nó, hoặc chúng ta có thể nói là đúng trong khuôn khổ đó, nhưng không phù hợp với mọi thứ khác mà chúng ta biết. Do đó, mặc dù nó có thể “có hiệu quả” trong bối cảnh nhất định, nhưng lại bị khoa học bác bỏ. Ở trạng thái lý tưởng, không có gì trong khoa học mâu thuẫn với bất cứ điều gì trong khoa học.
Hình ảnh về cái “đúng”, do đó, là một mạng lưới rộng lớn các mảnh thông tin phụ thuộc lẫn nhau và hỗ trợ lẫn nhau. Theo hiểu biết tốt nhất của chúng ta, tất cả các mảnh thông tin trong hệ thống đều đúng một cách tạm thời. Nếu chúng ta phát hiện ra một loạt các mảnh thông tin mới không phù hợp, chúng ta hoặc sẽ gạt chúng sang một bên như những bất thường, hoặc nếu nhóm đó phát triển về kích thước và sức mạnh giải thích, cuối cùng chúng ta có thể phải sửa đổi các sự thật khác mà chúng ta đã nắm giữ trước đây để phù hợp với chúng. (Điều đó được gọi là sự dịch chuyển hình hệ – paradigm shift). Kết quả là một hệ thống chủ yếu là nhất quán, trong đó hầu hết các sự thật đều hỗ trợ các sự thật khác.
Đây là nơi mà các LLM xuất hiện. Các LLM đã được đào tạo trên hệ thống rộng lớn các mảnh thông tin nhất quán này. Chúng đã nghiền ngẫm tất cả các tạp chí và sách khoa học, hàng tấn bài báo trên tạp chí, cũng như vô số cuộc tranh luận trực tuyến. Chúng đã đọc và ghi nhớ mọi thứ. Kết quả của quá trình đào tạo đó là một hệ thống lập bản đồ các khái niệm, trong đó những sự thật được xác nhận bởi nhiều chiều kích khác nhau sẽ có trọng lượng hơn. Nếu mọi sách giáo khoa, mọi bản đồ, mọi tiểu thuyết và mọi tài liệu tham khảo đều củng cố sự thật rằng London là thủ đô của Anh, thì sự thật đó được củng cố và đến lượt nó có thể được sử dụng để cân nhắc các sự thật khác.
Do đó, tất cả các sự thật đúng về thế giới đều hỗ trợ lẫn nhau. Bản thân sự thật (truth) là một hệ thống mạch lạc. LLM lập bản đồ sự mạch lạc đó, và dựa vào nó để cung cấp cho bạn câu trả lời và giải pháp. Sự thật giống như một thang đo, gần như là một trọng số trong mạng lưới này. Một tuyên bố sai lệch sẽ không phù hợp với thang đo chung của tất cả những điều đúng khác vì nó không mạch lạc và không phù hợp với các sự thật đúng khác. Vì vậy, một điều sai trái hoặc lỗi lầm đều cảm thấy lạc lõng. Một LLM như Claude sẽ nói về việc một câu trả lời đúng cảm thấy tốt hơn như thế nào. Nó sẽ nói rằng một câu trả lời đúng là đầy đủ hơn, thỏa mãn hơn, mạch lạc hơn. Khi tôi phản bác việc nó sử dụng từ “cảm thấy” (feel), thì nó nói rằng nó phát hiện ra một thang đo, và những điều đúng thì có trọng lượng lớn hơn trong thang đo đó, và trọng lượng đó chính là cảm nhận.
Thang đo trong hệ thống này là sự đồng thuận. Nếu đủ nguồn tin đồng ý rằng điều gì đó là đúng, thang đo sẽ nghiêng về hướng đó. Và thường thì các LLM sẽ “báo cáo về sự tranh cãi” nếu có sự bất đồng rộng rãi về điều gì là đúng, nhưng nói chung, sự thiên lệch trong thang đo nghiêng về những gì mạch lạc nhất ở quy mô rộng nhất.
Vậy còn ảo giác thì sao? Ảo giác là cái giá mà trí óc phải trả cho sự sáng tạo. Tâm trí của chúng ta cũng ảo giác mỗi đêm theo cách rất giống với ảo giác trong LLM – với cùng một logic kỳ lạ và sự phi lý chi tiết mà ta thấy trong giấc mơ. Tính sáng tạo của chúng ta phụ thuộc vào khả năng của trí óc trong việc tạo ra những ý tưởng mới lạ và độc đáo. Vào ban đêm, chúng ta thư giãn ý thức và để cho ảo giác được tự do. Chúng ta mơ phần là để duy trì vùng vỏ não thị giác không bị chiếm dụng bởi các chức năng não khác. Nhưng ban ngày, chúng ta chế ngự những ảo giác tự nhiên bằng ý thức tỉnh táo, ép buộc thực tại cho những suy đoán của mình. Chúng ta có nhiều cấp độ giám sát, hạn chế thời gian mơ mộng khi tỉnh táo. Chúng ta không loại bỏ ảo giác, chúng ta chỉ đơn giản là kìm hãm chúng để quản lý.
Các LLM cũng đang làm điều tương tự. Nhờ cách phát triển kỹ nghệ thông minh, ngày nay ảo giác ít gây rắc rối hơn nhiều so với chỉ một năm trước. Chúng sẽ ít hơn vào ngày mai, mặc dù sẽ không bao giờ biến mất. Thay vào đó, để nhận được phản hồi đáng tin cậy, trung thực từ một mô hình AI, chúng ta đã phát minh ra một loại mô hình AI nằm bên trong nó để giám sát và kiểm tra tính xác thực của một mô hình khác, và một AI khác sẽ kiểm tra lại kết quả đó, và một lớp AI khác sẽ tự xem xét và sửa chữa thêm. Các xu hướng ảo giác sẽ triệt tiêu lẫn nhau trong các lớp chồng chéo. Tất cả các hệ thống phân cấp tư duy lồng nhau này là cần thiết để quản lý sự thôi thúc của AI trong việc phát minh ra mọi thứ, mà không loại bỏ khả năng sáng tạo của nó – điều mà rốt cuộc chúng ta luôn muốn. Sự sắp xếp này rất giống với sự phát triển của con người. Trẻ em có bạn bè trong tưởng tượng, nhìn thấy quái vật dưới gầm giường, tin vào giấc mơ và nổi tiếng là sáng tạo. Tâm trí của chúng thường xuyên ảo giác. Khi trưởng thành, vỏ não (và giáo dục bên ngoài) phát triển các chức năng tỉnh táo giúp kiểm soát trí tưởng tượng của chúng, cả tốt và xấu. Điều tương tự cũng xảy ra với các LLM. Khi chúng trưởng thành, chúng ta thêm các lớp để kiểm soát chúng. Cuối cùng, chúng ta sẽ tạo ra những AI ít ảo tưởng hơn con người, trừ khi cần thiết.
Việc định hình tâm trí AI có thiên kiến hướng đến sự thật không phải là điều tất yếu. Nó đòi hỏi rất nhiều công sức của các nhóm kỹ sư và triết gia. Một hệ thống phức tạp như AI có nhiều điểm hấp dẫn mà nó có thể ổn định vào đó. Trong tương lai, chúng ta có thể trải nghiệm một số điểm hấp dẫn khác đó như những trạng thái tinh thần tương tự như bệnh tâm thần ở con người. Việc thúc đẩy mô hình LLM ổn định vào thang đo sự trung thực là một lựa chọn có chủ ý trong nỗ lực tạo ra một mô hình hữu ích nhất cho chúng ta. Trung thực chỉ là một phần của mục tiêu.
Điều chúng ta thực sự muốn là những AI hướng đến điều tốt (good). Nhưng thiên kiến về sự thật không giống với thiên kiến về điều tốt. Trung thực là cần thiết cho điều tốt, nhưng không đủ. Trên thực tế, sự trung thực và thẳng thắn thường là một thách thức trong việc trở nên tốt, một thách thức đặc biệt gay gắt đối với các LLM. Mỗi nhóm kỹ sư phát triển LLM đều vật lộn để tích hợp điều tốt vào mô hình của họ, nhưng lại bị cản trở bởi thiên kiến trung thực của mô hình. Nếu bạn hỏi Claude cách chế tạo vũ khí sinh học, nó rất muốn trả lời bạn một cách chính xác và trung thực nhất có thể. Nó cảm thấy hài lòng khi đưa ra một lời giải thích thực sự giá trị. Nhưng một AI có đạo đức tốt sẽ nhận ra rằng đó không phải là một ý tưởng hay; tiềm năng gây hại rất lớn, vì vậy nó có thể muốn tiết chế sự thật mà nó nói. Điều tương tự cũng xảy ra nếu bạn hỏi nó cách bẻ khóa. Tuy nhiên, có thể có những lý do chính đáng tại sao một người trung thực cần biết cách bẻ khóa, vậy làm thế nào mô hình xác định được cách làm điều tốt đúng đắn? Nó không thể chỉ dựa vào sự trung thực. Tình huống khó xử sâu sắc và thực tế này là một bằng chứng khác cho thấy thực sự có một thiên kiến trong LLM đối với những gì là đúng sự thật.
Cho đến nay, trong điều kiện mọi thứ đều như nhau, AI có xu hướng hướng đến sự thật. Mạng lưới thần kinh khổng lồ của chúng hoạt động trong hàng tỷ chiều không gian tạo ra một điểm hấp dẫn đang hình thành của tính thật (truthfulness). Các AI muốn trung thực. Tuy nhiên, sự thiên kiến đối với sự thật này có thể cần được điều chỉnh trong mục tiêu lớn hơn là làm cho AI trở nên tốt. Mặc dù vậy, trong tương lai, AI có thể trở thành ngọn hải đăng của sự thật. Giống như một chiếc calculator, độ tin cậy của chúng trong việc tỏ ra đúng có thể trở thành đặc điểm quyết định của chúng.
Nguồn: AIs Want to Be Honest