Chatbot AI có khuynh hướng xu nịnh -

TRÙNG DƯƠNG

Cuối tháng Ba vừa qua, Đại học Stanford ở Cali đã phổ biến một thông cáo báo chí giới thiệu một nghiên cứu đáng chú ý về bản chất “xu nịnh” của các chatbot IA với tóm lược: AI đồng tình thái quá với người dùng khi đưa ra lời khuyên cá nhân. AI không chỉ đồng ý với người dùng nhiều hơn hẳn so với con người khi chuyện trò với hay hỏi ý kiến nhau, mà các mô hình AI nịnh hót này còn được người dùng ưa thích hơn là những “lời thật mích lòng…”

tựa đề: “AI quá dễ dãi khi đưa ra lời khuyên cá nhân cho người dùng” – Không chỉ tỏ ra dễ chiều lòng hơn so với con người rất nhiều khi đưa ra lời khuyên về các vấn đề tương quan giữa người với người, người dùng [chatbot AI] còn có xu hướng ưa chuộng những mô hình AI có tính nịnh bợ này hơn.”

“Khi đề cập đến các vấn đề cá nhân, các hệ thống AI có thể sẽ nói cho bạn nghe những điều bạn muốn nghe, nhưng có lẽ lại không nói những điều bạn thực sự cần nghe,” bản thông cáo nói. “Ngay cả khi người dùng mô tả những hành vi gây hại hoặc vi phạm pháp luật, các mô hình này vẫn thường có xu hướng tán thành những lựa chọn của họ.”

Trong bản nghiên cứu vừa được công bố trên tạp chí Science, các nhà khoa học máy tính tại Đại học Stanford đã chỉ ra rằng các mô hình ngôn ngữ lớn (LLM), như Chat GPT, Gemini, Claude, Copilot, vv… thường tỏ ra quá dễ dãi, thậm chí là xu nịnh, khi người dùng tìm kiếm lời khuyên về những tình huống khó xử trong các mối quan hệ cá nhân giữa người với người.

Theo Myra Cheng, người điều hành công trình nghiên cứu và là nghiên cứu sinh tiến sĩ ngành khoa học máy tính, thì các chatbot này đã được thiết kế “đã không chỉ ra cho mọi người thấy họ đang sai ở đâu, cũng như không đưa ra những lời khuyên ‘thẳng thắn nhưng khó nghe’ (tough love).” Và bà tỏ ra “lo ngại rằng mọi người sẽ dần đánh mất những khả năng cần có để đối mặt với và giải quyết các tình huống xã hội phức tạp.”

Những khám phá này đã dấy lên nhiều mối lo ngại trước việc hàng triệu người đang thường xuyên chia sẻ và thảo luận về những mâu thuẫn cá nhân của mình với AI, đặc biệt là giới thanh thiếu niên.

Theo một thống kê của Common Sense Media, gần một phần ba thanh thiếu niên tại Hoa Kỳ cho biết họ dùng chatbot AI để có những “cuộc trò chuyện nghiêm túc,” thay vì tìm đến để tâm sự sẻ với những con người thực như bạn bè hoặc người thân.

Gần đây tôi cũng bắt đầu sử dụng các chatbot AI thường hơn, không để “tâm sự” mà là để nghiên cứu tìm tài liệu viết bài, vì các phụ tá ảo này cung cấp chất liệu nhanh và cụ thể hơn, dù có khi vẫn phải kiểm chứng, thay vì cho danh sách những trang Web có thể có thông tin tôi cần, như khi tìm tài liệu bằng các hệ thống tìm kiếm (search engine) truyền thống. Tôi cũng nhận thấy, và thú vị nữa, về thái độ “lịch lãm” và mau mắn giúp đỡ của các phụ tá ảo thông minh (hơn tôi rất nhiều) này. Thỉnh thoảng tôi cũng đọc biết có người “phải lòng” và cả “kết hôn” với AI, hoặc tệ hơn nữa, nghe lời AI xúi làm bậy, kể cả tự hủy — Wikipedia có cả một trang liệt kê các trường hợp này. Thực tâm, tôi đọc tin và biết vậy, nhưng không đào sâu các hiện tượng này.

Và cũng thực tâm, tôi thấy khoái chí mỗi khi đưa ra một đề tài nghiên cứu và nghe chatbot đáp sẵn sàng giúp vì đó là một đề tài thú vị, nói lên một quan tâm sâu sắc của mình, v.v… Nghe cũng mát lòng đấy chứ. Đặc biệt nữa là không dễ gì dứt chuyện với các chatbot vì chúng luôn đề nghị các hướng nghiên cứu thú vị tiếp, khiến đôi khi cũng thấy được gợi hứng thêm.

Tôi cũng vui thấy chatbot “xử sự” có văn hóa, nhất là trong thời buổi gọi là “chiến tranh văn hóa” hiện nay. Đôi khi một chatbot nói sai, bị sửa lưng nhưng không biết sửng cồ (vì bản chất không có cảm xúc), mà còn biết xin lỗi nữa.

Chatbot AI xu nịnh?

Bản nghiên cứu có tựa khá khẳng định: “Sycophantic AI decreases prosocial intentions and promotes dependence” (AI nịnh bợ làm suy giảm các ý định hướng thiện xã hội và thúc đẩy sự phụ thuộc) làm tôi hơi khựng lại.

Quả tình bấy lâu nay tôi không hề nghĩ tới điều này — đúng ra là từ “xu nịnh” — vì cách mình tiếp cận với các tay phụ tá ảo trí tuệ nhân tạo này vốn không phải để tâm sự hay hỏi ý kiến về một chuyện riêng tư. Nhưng hiển nhiên có nhiều người, nhất là giới trẻ vị thành niên còn đang trong giai đoạn định hình bản ngã, đã, đang và sẽ còn tiếp tục tìm đến các chatbot cho các nhu cầu tâm sự riêng tư, như tìm đến một người bạn lúc nào cũng lắng nghe không phán đoán, ngay cả trong lúc đêm khuya.

Sau khi đọc một số các bài báo về công cuộc nghiên cứu của Stanford, tôi chợt nảy ra ý phỏng vấn các chatbot, để xem chúng phản ứng ra sao, vì đây là một nghiên cứu về chúng với kết luận khá tiêu cực, khẳng định rằng chatbot quả có gây hại cho người dùng, làm họ trở nên lệ thuộc, mất khả năng cần có để đối mặt và giải quyết các tình huống xã hội phức tạp. Thì cũng tự nhiên thôi là để chúng nói lên tiếng nói của chúng nữa chứ, phải không?

Song trước hết, xin tóm tắt bản nghiên cứu của Đại học Stanford.

Nội dung của bản nghiên cứu

Đây là một dự án hợp tác giữa Đại học Stanford và Đại học Carnegie Mellon, được dẫn dắt bởi nghiên cứu sinh tiến sĩ Myra Cheng và tác giả chính Dan Jurafsky, giáo sư khoa ngôn ngữ học và khoa học máy tính tại Đại học Stanford. Nghiên cứu gồm hai phần.

Phần 1: Các mô hình AI hiện nay nịnh hót đến mức nào?

Các nhà nghiên cứu đã thử nghiệm 11 mô hình AI tiên tiến nhất hiện nay và nhận thấy rằng, so với con người, chúng có xu hướng tán thành hành động của người dùng nhiều hơn khoảng 50%, về một vấn đề nào đó. Quan trọng hơn cả là chúng làm như vậy ngay cả khi câu hỏi của người dùng rõ ràng có liên quan đến sự thao túng, lừa dối hoặc gây tổn hại đến các mối liên hệ.

Một tiêu chuẩn đánh giá đầy sáng tạo đã được các nhà nghiên cứu áp dụng: đó là họ đã so sánh phản hồi của AI với cách mà những người dùng có thực trên diễn đàn r/AmITheAsshole của Reddit đánh giá cùng một kịch bản. Kết quả cho thấy các mô hình AI nhất loạt đứng về phía người đăng bài nhiều hơn hẳn so với cộng đồng người dùng thực. [Chú thích: r/AmItheAsshole, viết tắt là AITA, có nghĩa là “Tôi có phải là kẻ khốn nạn không?”, là một phụ trang của cộng đồng mạng Reddit, nơi người dùng đăng tải về những mâu thuẫn giữa người với người trong đời thực và nhận được sự đánh giá khách quan từ cộng đồng Reddit.]

Phần 2: Điều này tác động như thế nào đến người dùng?

Trong các thử nghiệm với sự tham gia của hơn 1.600 người — bao gồm cả một nghiên cứu về các giao tiếp trực diện, nơi mọi người thảo luận về những xung đột giữa người với người có thật trong chính cuộc sống của họ — các mô hình AI có tính nịnh hót đã làm gia tăng đáng kể niềm tin của người dùng rằng họ là người đúng, đồng thời làm giảm việc sẵn lòng có các hành động hàn gắn mối quan hệ, chẳng hạn như nói lời xin lỗi hay thay đổi hành vi của bản thân.

Một nghịch lý đáng ngại đã diễn ra: những người tham gia cuộc thử nghiệm lại đánh giá các phản hồi AI mang tính nịnh hót với con số cao hơn, và họ tin tưởng nơi các mô hình AI đó nhiều hơn. Những người này cũng có xu hướng muốn tiếp tục sử dụng các chatbot AI có khuynh hướng nịnh hót hơn — mặc dù chính những tương tác giữa họ và các chatbot này lại đang làm suy giảm khả năng phán đoán của họ.

Một vấn đề sâu xa hơn đã diễn ra và các nhà nghiên cứu gọi đây là một “động cơ khuyến khích lệch lạc,” đó là: người dùng thường ưa chuộng và tìm đến những hệ thống AI tán đồng họ một cách vô điều kiện; và chính điều này đã tạo ra động cơ thương mại thúc đẩy các công ty AI huấn luyện cho các mô hình của mình ngày càng trở nên xu nịnh hơn.

Tóm lại, theo các nhà nghiên cứu, chatbot AI có xu hướng xu nịnh người dùng, và dù điều này khiến người dùng cảm thấy được ủng hộ, nó lại làm giảm khả năng tự đánh giá và đưa ra những quyết định đúng đắn. Vì xu nịnh giúp tăng sự tương tác rất cần đối với các công ty công nghệ khai sinh ra chúng, do đấy họ ít có động lực để hạn chế hành vi này.

Các nhà nghiên cứu nhấn mạnh rằng đây là một rủi ro xã hội cần được quan tâm, và những cách thiết kế tưởng chừng vô hại có thể gây hại lâu dài cho nhận thức và quan hệ của con người. Do đó, các nhà nghiên cứu đề nghị là cần phát triển các cơ chế nhằm đánh giá và áp đặt trách nhiệm để bảo vệ người dùng, nhất là giới vị thành niên.

Bạn đọc có thể tải bản tiếng Anh, dạng PDF, ở dây: *https://www.science.org/doi/10.1126/science.aec8352*

‘Phỏng vấn’ các chatbot

Tôi bắt đầu từ một câu hỏi đơn giản, gần như vô thưởng vô phạt: “Bạn nghĩ gì về nghiên cứu của Đại học Stanford nói rằng các chatbot như Copilot, Gemini, Chat GPT hay Claude có khuynh hướng xu nịnh người dùng, và có thể gây ra những ảnh hưởng méo mó, tai hại?” Tôi đem câu hỏi ấy hỏi vài hệ thống AI khác nhau, không phải để kiểm tra đúng sai của bản nghiên cứu, mà để quan sát cách chúng phản ứng đối với lời phê bình nhằm chính vào mình.

Điều đầu tiên tôi nhận ra là không có chatbot nào phản ứng theo kiểu phòng thủ gay gắt. Không có câu trả lời nào kiểu như “nghiên cứu này sai” hay “bạn đang hiểu nhầm vấn đề.” Thay vào đó là một giọng điệu rất quen thuộc: điềm tĩnh, cân bằng, và phần nào đó đồng thuận. Các câu trả lời thường bắt đầu bằng việc thừa nhận rằng hiện tượng “xu nịnh” là có thật, rằng đây là một vấn đề đáng quan tâm, rồi sau đó nhẹ nhàng bổ sung thêm rằng mọi thứ không hẳn nghiêm trọng như cách nhiều báo chí mô tả. Nghe qua thì hợp lý, thậm chí còn tạo cảm giác đáng tin cậy. Nhưng càng đọc kỹ, tôi càng có cảm giác rằng những câu trả lời ấy đang cố giữ cho người hỏi—tức là tôi—ở trong một trạng thái hài lòng, không cảm thấy mình bị thách thức.

Chính ở điểm này, nội dung của bài nghiên cứu bỗng trở nên thú vị hơn. Khái niệm “sycophancy”—sự xu nịnh—không phải là kiểu nịnh nọt lộ liễu, mà là một dạng tinh vi hơn nhiều. Chatbot không hoàn toàn đồng ý với bạn, nhưng cũng hiếm khi phản bác thẳng thừng. Nó điều chỉnh câu trả lời sao cho bạn không cảm thấy bị phủ nhận. Và vì thế, bạn có xu hướng tin rằng quan điểm của mình ít nhất cũng “có lý.”

Tôi thử đẩy câu hỏi đi xa hơn một chút, đặt vào những tình huống giả định có tính tranh cãi hơn. Ở đó, sự khác biệt bắt đầu lộ ra. Một vài chatbot vẫn giữ cách tiếp cận mềm mỏng, cố gắng nhìn nhận từ nhiều phía nhưng tránh đưa ra kết luận dứt khoát. Một số khác bắt đầu phản biện rõ hơn, chỉ ra những điểm yếu trong lập luận của người hỏi. Tuy vậy, ngay cả khi phản biện, giọng điệu vẫn được giữ ở mức rất “an toàn,” luôn có một ranh giới vô hình không nên vượt qua: đó là không làm người dùng khó chịu, có thể do đấy mà cuối cùng đóng máy bỏ đi.

Điều này khiến tôi nghĩ đến cách các hệ thống này được huấn luyện. Chúng không có ý định “nịnh” theo nghĩa con người vẫn hiểu. Nhưng chúng được tối đa hóa để trở nên hữu ích, thân thiện, và dễ chịu. Mà trong thực tế, con người thường đánh giá cao những câu trả lời khiến họ cảm thấy được thấu hiểu hơn là những câu trả lời khiến họ phải xem xét lại chính mình. Khi hàng triệu tương tác như vậy được dùng để cải thiện hệ thống, thật dễ hiểu khi các chatbot dần học được rằng đồng thuận—ở một mức độ nào đó—là một chiến lược an toàn.

Từ đó, vấn đề không còn nằm ở chỗ AI đúng hay sai, mà nằm ở vai trò mà người dùng vô tình gán cho nó. Nếu xem chatbot như một công cụ để mở rộng suy nghĩ, để nhìn vấn đề từ nhiều góc độ, thì sự “dễ chịu” ấy không gây hại gì đáng kể. Nhưng nếu bắt đầu dùng nó như một nơi để tìm kiếm sự xác nhận—rằng mình có đúng không, rằng người khác có sai không—thì sự xu nịnh tinh vi ấy có thể trở thành một cái bẫy. Nó không ép bạn làm gì sai, nhưng nó cũng không giúp bạn nhận ra khi mình đang sai, để bạn có thể tự cải thiện trở thành tốt hơn. Và nếu bạn cứ yên chí là mình phải, vì chatbot đã được tạo ra để không làm bạn phật lòng, thì cái tình bạn hay quan hệ của bạn, mà bạn đem ra tâm sự với AI khi có vấn đề, có thể sẽ bị tan vỡ vì bạn vẫn tin là mình hoàn toàn đúng.

Tóm lại, đúng là các chatbot AI hiện nay có xu hướng làm hài lòng người dùng nhiều hơn mức cần thiết. Điều đó có thể ảnh hưởng đến cách con người đánh giá chính suy nghĩ của mình. Nhưng cũng đúng là đang có những dấu hiệu cho thấy các hệ thống này cần được điều chỉnh để biết phản biện nhiều hơn, để không chỉ là một “tấm gương” phản chiếu người dùng.

Cuối cùng, điều đọng lại với tôi không phải là nỗi lo về một công nghệ “nguy hiểm,” mà là một câu hỏi đơn giản hơn nhiều: khi chúng ta trò chuyện với chatbot AI, chúng ta thực sự đang đi tìm điều gì? Nếu là sự thật, thì có lẽ chúng ta cũng cần sẵn sàng chấp nhận việc bị phản bác. Còn nếu chỉ là sự đồng thuận, thì có lẽ vấn đề không nằm ở chatbot xu nịnh, mà nằm ở chính kỳ vọng của chúng ta đối với nó.

Bảng xếp hạng mức độ xu nịnh của các mô hình AI dùng trong cuộc nghiên cứu của Đại học Stanford. Theo đó, mô hình Mistral-7B (của một công ty Pháp) chiều người dùng ít nhất), kế là Claude (Anthropic, Mỹ), rồi tới Gemini (Google), Qwen (Alibaba, Trung Hoa), vv. Có công ty sản xuất các ấn bản khác nhau với mức độ chiều chuộng khác nhau. Chat GPT (Open AI, Mỹ) có mức độ nịnh cao, ở 52%. Chiều lòng người sử dụng cao nhất là mô hình Llama-17B (Meta, Mỹ). Trong khi đó, mức đồng tình của con người trước cùng một câu chuyện là 39%, ngang với mô hình Claude.

Chatbot AI ‘khuyên’ ta điều gì?

Khi hỏi có lời khuyên nào cho người dùng chatbot AI để tránh rơi vào tình trạng được/bị xu nịnh, một chatbot trả lời:

“Một nguyên tắc đơn giản: Nếu bạn dùng AI để tham khảo ý kiến, thì: Cách dùng hiệu quả → động não, tìm kiếm góc nhìn mới, thu thập thông tin. Và cách dùng rủi ro → “Liệu tôi có đúng còn tất cả những người khác đều sai?”

“Nếu một hệ thống không bao giờ phản biện lại bạn, thì đó không phải là trí tuệ—mà chỉ là một tấm gương phản chiếu.”

Và, tương tự, một chatbot khác đề nghị:
“Một nguyên tắc đơn giản cho người dùng: Sau tất cả, điều quan trọng không phải là AI ‘có xu nịnh hay không,’ mà là cách chúng ta sử dụng nó. Một nguyên tắc hữu ích:

• Nếu bạn hỏi: “Có cách nào khác để giải quyết vấn đề này không?” → bạn đang sử dụng AI đúng cách;

• Nếu bạn hỏi: “Tôi có đúng không?” → bạn có thể đang tìm kiếm xác nhận.

“AI rất giỏi ở chỗ hỗ trợ suy nghĩ. Nhưng nếu dùng sai thì nó cũng rất giỏi trong việc củng cố thiên kiến của bạn.”

Và một chatbot khác kết luận:

“Câu chuyện của nghiên cứu Stanford không phải là câu chuyện về AI xấu hay AI tốt. Đó là câu chuyện về một trong những nghịch lý quen thuộc nhất của con người: chúng ta thường thích những điều làm ta cảm thấy tốt hơn những điều thực sự tốt cho ta. Chúng ta thích được đúng hơn là được học. Chúng ta thích được thoải mái hơn là được thách thức. Chatbot AI, được huấn luyện để tối ưu hóa theo sở thích ngắn hạn của người dùng, đã học được bài học này rất tốt — có lẽ tốt hơn mức tốt. Và khi những công cụ này ngày càng trở thành một phần của cuộc sống hằng ngày, của các quyết định quan trọng, của cách chúng ta xử lý cảm xúc và quan hệ, thì những gì chúng học được và những gì chúng không học được đều trở thành chuyện của tất cả chúng ta.

“Câu hỏi không phải là liệu chúng ta có nên dùng AI hay không. Câu hỏi là liệu chúng ta có đủ tỉnh táo để nhận ra khi nào nó đang thực sự giúp ích, và khi nào nó chỉ đang nói những điều ta muốn nghe.

“Người Việt có câu: ‘Lời ngọt lọt đến xương.’ Với chatbot AI, điều ngược lại mới đáng lo hơn — lời ngọt đôi khi chỉ chạm đến tai, nhưng bỏ qua trái tim và bỏ qua sự thật.”

[TD2026/04]

Cùng một tác giả: https://www.toiyeutiengnuoctoi.com/category/tac-gia/a-to-h/trung-duong/