Nguyên tác: The Human Skill That Eludes AI: Why can’t language models write well?
Tác giả: Jasmine Sun
Chuyển ngữ: PHAN THỊ SÓNG BIỂN
Nghĩ cũng lạ, Trí tuệ Nhân tạo sinh xuất (Generative AI) dường như đã đạt đến tới thời kỳ cực thịnh từ hồi hãng OpenAI tung ra GPT-2 cách đây bảy năm. Hồi đó, ngoài giới chuyên môn thì chẳng mấy ai biết đến, nhưng GPT-2 lại rất giỏi đưa ra những câu trả lời bất ngờ. Nó có cái duyên sáng tạo riêng.
Cô Katy Gero, một thi sĩ kiêm nhà nghiên cứu điện toán đã mày mò với các mô hình ngôn ngữ lớn (Large Language Model – LLM) này từ năm 2017, nhận định: “Nếu mình biểu nó: ‘Viết tiếp đoạn này coi: Người đàn ông quyết định đi tắm,’ thì GPT-2 có khi sẽ đáp lại là: ‘Và trong lúc tắm, ông ta thong dong ăn một trái chanh và nhớ về người vợ.’ Những mô hình tân thời bây giờ, tiếc thay, chẳng còn làm được cái điều ngẫu hứng đó nữa.”
Lãnh đạo trong làng Trí tuệ Nhân tạo thường hay khoe khoang về những khả năng siêu việt của máy móc. Nào là máy có thể đoán biết cấu trúc chất đạm, làm ra những đoạn phim y như thật, hay tự thiết kế ứng dụng chỉ từ một lời yêu cầu. Thế nhưng, chính các ông giám đốc và giới nghiên cứu này cũng phải nhìn nhận một thực tế là: cho tới giờ, họ vẫn chưa thể cho ra đời được một mô hình nào biết viết văn cho thật hay.
Ông Sam Altman, Tổng Giám đốc của OpenAI, từng tiên liệu rằng các mô hình ngôn ngữ lớn trong tương lai gần sẽ có khả năng “vãn hồi khí hậu, thiết lập các thuộc địa ngoài không gian, và phát kiến mọi định luật vật lý.” Thế nhưng, trong một cuộc đàm thoại vào tháng Mười với kinh tế gia Tyler Cowen, chính ông cũng dự đoán rằng ngay cả những mô hình hậu duệ — như GPT-6 hay GPT-7 mai sau — họa chăng cũng chỉ có thể tuôn ra được thứ gì đó tương đương với “một bài thơ tạm được của một thi sĩ thực thụ.”
Lối văn chương do Trí tuệ Nhân tạo viết ra ngày nay đầy rẫy những lỗi vụng về. Các chatbots thường đưa ra những cách ví von vô nghĩa, những kiểu câu “chẳng phải thế này, mà là thế kia” cứ lặp đi lặp lại hoài không dứt, cùng một giọng điệu nịnh đầm nghe đến phát ngán — và dĩ nhiên, chúng lạm dụng quá mức dấu gạch ngang (em dash—) mà tôi vốn hằng yêu chuộng. (Mãi cho tới dòng GPT-5.1 ra mắt hồi tháng Mười Một vừa qua, ChatGPT mới có thể đáp ứng được các yêu cầu của người dùng là phải né tránh cái dấu ngắt câu đang bị “hành hạ” tơi bời này.)
Tôi muốn thấu triệt lý do tại sao những mô hình ngôn ngữ lớn, vốn dĩ đã thuộc nằm lòng kho tàng văn chương vĩ đại của nhân loại được viết ra trong bao nhiêu thế kỷ qua, đã có thể biểu lộ những khả năng tân kỳ đến kinh ngạc nhưng hoàn toàn thất bại trong việc viết ra được một bài tiểu luận nào khiến tôi đọc mà thấy xuôi mắt.
Thế nên, tôi tìm đến trò chuyện với những người am tường sự việc: từ nhân viên tại các công ty chuyên về mô-hình ngôn ngữ, các hãng cung ứng dữ kiện cho trí tuệ nhân tạo, đến giới giáo sư tại các phân khoa điện toán và cả những hãng mới thành lập trong kỹ thuật viết văn bằng máy. (Nhiều người chỉ chấp thuận phát biểu với điều kiện ẩn danh, vì chủ nhân của họ nghiêm cấm việc tiết lộ công việc).
Những gì tôi ghi nhận được là: các mô-hình ngôn ngữ hiện nay được thiết lập theo một phương cách hoàn toàn đi ngược lại với cách viết những áng văn hay; chúng được rèn giũa để trở thành những “trò ngoan” luôn vâng lời thầy cô, lúc nào cũng thủ sẵn trong tay những câu đáp lời lẽ chuẩn xác. Xét trên nhiều phương diện, chúng đã tiến một bước dài kể từ thời GPT-2, nhưng đồng thời cũng đánh mất đi một điều gì đó — một thứ vốn dĩ làm chúng trở nên phóng khoáng uyển chuyển và có sức lôi cuốn hơn.
Các mô-hình ngôn ngữ lớn khởi đầu “vòng đời” của chúng như những độc giả đọc ngấu nghiến bất kể thứ gì mà không hề chọn lọc. Trong bước luyện ban đầu, chúng thu nạp gần như toàn bộ mạng lưới điện toán toàn cầu — từ những bài đăng trên diễn đàn Reddit, các bản ghi chép từ YouTube, cho đến những mớ hỗn tạp từ các công cụ tối ưu hóa tìm kiếm — rồi cô đọng tất cả thành những khuôn mẫu.
Phần lớn các bài viết nằm sẵn trên mạng lưới điện toán vốn chẳng có gì hay ho. Thế nhưng, điều quan trọng ở đây là số lượng chứ không phải phẩm chất của các bài viết. Bước luyện này dạy cho trí tuệ nhân tạo các quy luật văn phạm cùng sự liên đới giữa các từ ngữ, từ đó tạo điều kiện cho cái gọi là “đoán định từ kế tiếp:” một tiến trình mà qua đó, các mô hình sẽ định đoạt xem phần nào của một từ sẽ nối tiếp phần kia, cứ thế lặp đi lặp lại mãi không thôi.
Những góc cạnh thô ráp sau đó sẽ được mài giũa lại trong giai đoạn rèn luyện bổ túc. Đây là lúc các công ty LLM thiết lập nên “tính cách” lý tưởng cho một mô hình trí tuệ nhân tạo (chẳng hạn như phải “biết giúp ích, chân thực và vô hại,”) đưa ra những đoạn đối thoại mẫu để máy học tập, và áp dụng các bộ lọc an toàn nhằm ngăn chặn những yêu cầu phạm pháp của người dùng. Thông qua các tiến trình như “củng cố việc học từ góp ý của con người” — vốn dĩ đến từ việc thuê mướn người thật để chấm điểm các câu trả lời của máy dựa trên những tiêu chuẩn đã được thiết lập — các mô hình này sẽ được uốn nắn để đưa ra những lời đáp hội đủ các đức tính mà con người mong muốn.
Nghiên cứu về Trí tuệ Nhân tạo vốn là một ngành khoa học thực nghiệm — người ta có thể kiểm chứng khi một thứ gì đó vận hành tốt và điều chỉnh khi nó gặp trục trặc. Thế nhưng, nghệ thuật lại khước từ mọi quy tắc và sự đong đếm. Chúng ta chẳng có một thước đo khách quan nào để chứng minh xem thơ của Pablo Neruda hay hơn hay kém thơ của Gabriela Mistral. Những người mới tập viết văn thì học theo các quy ước; còn những cây bút lớn thì tự mình sáng tạo ra cách viết.
Một mô hình ngôn ngữ lớn được rèn luyện để bắt chước lối viết dù có giỏi đến đâu cũng chỉ tiến đến được một giới hạn nhất định. Ở một góc độ nào đó, giới kỹ sư và những người nghiên cứu AI chắc hẳn phải hiểu rõ điều này. Ngay cả khi họ đang cố gắng (và đang thất bại) trong việc biến công việc viết lách thành một quy trình tự động, nhiều người mà tôi từng trò chuyện vẫn hết sức trân trọng những bài viết có hồn.
Ông James Yu, người đồng sáng lập Sudowrite — một phần mềm hỗ trợ viết văn bằng máy — nói với tôi rằng: “Viết tiểu thuyết là một trong những việc tốn nhiều tâm trí nhất mà một con người có thể làm.”
Những người tôi hỏi chuyện đều rạng rỡ hẳn lên khi được hỏi về cuốn sách gối đầu giường của mình — ba người trong số đó nhắc đến nhà văn khoa học viễn tưởng Ted Chiang, dù họ cũng có vẻ buồn lòng khi biết ông đang trở thành một người phê bình rất gay gắt về dòng Trí tuệ Nhân tạo Sinh xuất.
Dẫu việc đánh giá một bài viết hay là chuyện chẳng dễ tí nào, nhưng điều đó cũng không ngăn được các phòng thí nghiệm điện toán ngưng tìm cách thực hiện. Họ bị thôi thúc bởi một câu hỏi cứ được lặp đi lặp lại trong các cuộc trò chuyện của tôi: Nếu các mô hình ngôn ngữ lớn không thể viết nổi một bài tiểu luận sâu sắc hay một bài thơ gây xúc động, thì liệu chúng có thực sự thông minh hay không?
Các phòng thí nghiệm hiện vẫn đang tìm đủ mọi cách để đánh giá lối viết của máy móc qua nhiều tiêu chuẩn khác nhau. Những nhóm phụ trách rèn luyện bổ túc thường tự mình thẩm định các bài viết của máy dựa trên cảm nhận và gu riêng; đồng thời, các công ty cũng ký hợp đồng với những người có chuyên môn để nhận sự góp ý của họ. Chẳng hạn, một mẩu tin tuyển dụng vị trí “chuyên viên viết văn sáng tạo” tại hãng xAI đưa ra các yêu cầu như: “đã từng xuất bản tiểu thuyết với số lượng bán ra trên 50.000 cuốn” và “được các tạp chí phê bình uy tín như Kirkus đánh giá cao” (với mức thù lao khởi điểm từ 40 Mỹ kim một giờ).
Tôi đã tìm gặp hai nhân vật từng đảm trách việc chấm điểm bài viết cho các phòng thí nghiệm trí tuệ nhân tạo lớn. Người đầu tiên, một cộng tác viên tại hãng Scale AI, đã thuật lại những điều hết sức vô lý trong công việc: Cụ thể hóa một thứ mơ hồ như “giọng văn” thành những tiêu chuẩn rạch ròi, người ta đã đưa ra những quy tắc như: “Bài viết chỉ được dùng tối đa hai dấu chấm than.”
Người này kể lại rằng: “Có rất nhiều trường hợp, mặc dù thâm tâm tôi cảm thấy bài B viết hay hơn hẳn, nhưng cuối cùng tôi vẫn phải chọn bài A chỉ vì bài kia lỡ dùng tới ba dấu chấm than.” Anh còn cho biết thêm, có lần mình bị yêu cầu phải chấm điểm một bài văn do người hâm mộ viết dựa theo truyện có sẵn về tính “xác thực của dữ kiện.”
Người thứ hai mà tôi trò chuyện là một nhà văn từng làm việc trực tiếp với nhóm nghiên cứu kỹ thuật của một phòng thí nghiệm hàng đầu. Công ty này thường xuyên yêu cầu ông phải chẻ nhỏ những yếu tố đặc thù làm nên một tác phẩm văn chương hay. Ông tâm sự với tôi rằng: “Lối tư duy rạch ròi kiểu phải viết thành công thức đó hoàn toàn không thể áp dụng được cho văn chương.”
Ông đơn cử những bài thơ sonnet của Anh quốc: Xét về mặt kỹ thuật, đây là một trong những thể thơ có quy cách chặt chẽ nhất; thế nhưng, không phải cứ hễ một bài thơ có đúng 14 câu và theo được đúng vần luật khắt khe là sẽ trở nên hay. Ông nói tiếp: “Ngay cả khi Shakespeare viết trong một khuôn khổ gò bó, ông vẫn luôn tìm cách để không phải rập khuôn, hoặc là phá cách, hay thậm chí là tạo ra một lối đi hoàn toàn mới. Tôi cũng chẳng rõ điều gì đã tạo nên sự khác biệt giữa một người thợ làm thơ theo công thức và bậc thầy Shakespeare. Tôi chỉ biết một điều chắc chắn là: hai loại người này chẳng bao giờ có thể là một được.”
Vậy chẳng lẽ các mô hình ngôn ngữ lớn cứ mãi bị sa lầy vào lối viết văn chương non nớt như vậy hay sao? Có một giả thuyết cho rằng đây đơn giản chỉ là chuyện chọn ưu tiên. Xét trên nhiều phương diện, sự sáng tạo vốn dĩ luôn đối chọi với những mục tiêu khác của các công ty trí tuệ nhân tạo. Nhìn chung, Chatbots được rèn luyện để né tránh tin giả, các định kiến chính trị, những nội dung độc hại hay vi phạm bản quyền, cùng nhiều thứ khác nữa.
Chúng còn được chấm điểm dựa trên những bài kiểm tra năng lực về viết mã điện toán hay khoa học tự nhiên; chính kết quả này đã nhào nặn nên cái nhìn của công chúng về việc công ty nào đang dẫn đầu cuộc đua. Hơn nữa, nếu phần lớn người dùng chỉ cần ChatGPT để soạn thảo thư từ cho công việc, thì lối viết dùng chữ in đậm và các gạch đầu dòng ngắn gọn lại chính là thứ họ đang cần. Ông Nathan Lambert, một người phụ trách việc rèn luyện bổ túc tại Viện Trí tuệ Nhân tạo Allen, nói: “Anh càng kiểm soát chặt chẽ các đặc tính này bao nhiêu, thì anh lại càng bóp nghẹt sự sáng tạo bấy nhiêu.”
Khi bạn đòi hỏi một mô hình ngôn ngữ vừa phải là một cây bút với văn phong lỗi lạc, vừa phải là một nhà toán học tầm cỡ tiến sĩ, lại còn phải giữ kề kề cái khuôn phép “thích hợp cho trẻ nhỏ dưới 13 tuổi,” nó sẽ trở nên cứng nhắc và dè dặt từng lời. Nó giống hệt như một người đi xin việc đang lo sốt vó, sợ rằng chỉ cần sẩy chân một bước là hỏng việc ngay. Cái vẻ hóm hỉnh, ngẫu hứng vốn làm nên nét tươi mới trong giọng văn của GPT-2 ngày trước, cũng chính là thứ khiến nó dễ nảy sinh những hành vi khó lường khác.
Nhà thơ Katy Gero nhận xét: “Nếu bạn là một tập đoàn khổng lồ như Google hay OpenAI, bạn sẽ muốn một cái máy biết cách hái ra tiền. Còn cái loại máy cứ gàn dở, kỳ cục thì chắc chắn chẳng giúp gì được cho túi tiền của bạn.”
Tôi bắt đầu nảy ra giả thuyết rằng: có lẽ trí tuệ nhân tạo sẽ viết được những áng văn chương đạt giải thưởng, nếu ta biết cách tháo gỡ những xiềng xích gò bó của giai đoạn rèn luyện bổ túc và tạo ra những dòng máy chuyên về viết lách. Thế nhưng, khi ngẫm lại về những tác giả mà mình hằng yêu mến, tôi thấy cách nghĩ đó có vẻ cũng chưa ổn.
Khi một người cầm bút lão luyện chọn dùng một cách diễn đạt riêng, họ không hề nhắm tới một khuôn mẫu chung nào về cái gọi là văn chương hay. Thay vào đó, những cách ví von đắt giá nhất thường nảy sinh từ chính kinh nghiệm sống và sự am tường riêng của người cầm bút. Từ cách dùng chữ, những điển tích được dẫn ra, cho đến những câu chuyện mà họ kể, thảy thảy đều phản chiếu một nhãn quan độc nhất vô nhị, chẳng thể nào sao chép được. Giọng văn của một tác giả chính là sự kết tinh từ những nét riêng của một cuộc đời.
Những mô hình ngôn ngữ— dẫu về mặt kỹ thuật thì cực kỳ điêu luyện, văn phạm chuẩn xác không tì vết — nhưng chúng lại không hề biết sống, biết cảm, biết ngửi, biết nếm hay biết rung động. Chúng chẳng thể nào trút những nỗi niềm ngồn ngộn lên trang giấy, cũng không biết cách đặt những ý niệm trừu tượng vào một khung cảnh đời thực sống động. Ai đọc kỹ văn chương của trí tuệ nhân tạo sẽ thấy những cách ví von của chúng nghe cứ “sai sai”: AI dám gán cho các thứ trong tuần những mùi vị riêng, hay bảo rằng tấm gương soi cũng có những đường chỉ nối hai mảnh lại làm một. Nhìn chung, chúng dường như rất sợ những gì thuộc về bản năng con người: chúng né tránh nói về máu mủ, ái ân hay cái chết, ngay cả khi chỉ là mượn hình ảnh để ví von. Nói theo cách của một thầy dạy viết văn, thì những gì chúng tuôn ra hoàn toàn thiếu đi cái “hồn,” thiếu đi cách dùng chữ đặc thù của từng người cầm bút.
Dù cho ông James Yu có trầm trồ trước những bước tiến dài về kỹ thuật của các mô hình ngôn ngữ lớn từ thời GPT-2, chính ông cũng chẳng mảy may muốn đọc những câu chuyện hoàn toàn do máy móc viết ra. Tôi hỏi ông rằng, trí tuệ nhân tạo còn thiếu sót điều gì để có thể tự thân viết nên một cuốn tiểu thuyết để đời. Ông lặng đi một giây, rồi mới đáp: “Phần lớn những tác phẩm đầu tay xuất sắc của con người đều mang bóng dáng cuộc đời của chính họ. Có lẽ, ta cần một cái máy thực sự biết sống, và biết cả cái cảm giác cận kề cửa tử nữa.”
Có thể những mô hình ngôn ngữ lớn chẳng bao giờ tự mình viết nên được những áng văn hay. Thế nhưng, điều đó không có nghĩa là chúng chẳng giúp ích gì được cho con người. Gần đây, tôi dùng trí tuệ nhân tạo như một biên tập viên cho mình. Không phải cho bài viết này — vì các biên tập viên ở tờ The Atlantic tất cả đều là người — mà là cho vài bài tiểu luận tôi viết trên trang Substack cá nhân. Quan điểm của tôi là: bản thân mình phải là người đưa ra câu chữ và nhãn quan, còn máy móc chỉ đóng vai trò góp ý — để giúp tôi viết lách sao cho ra đúng cái “chất” riêng của mình nhất.
Đầu tiên, tôi nạp vào chatbots của Claude một kho tư liệu các bài viết cũ, kèm theo những ghi chú về những chỗ được và chưa được trong từng bài. Từ đó, tôi tự soạn ra một bộ quy tắc biên tập riêng dựa trên giọng văn của chính mình. Có những tiêu chuẩn rất chung, nhưng cũng có những điều hết sức riêng tư: Chẳng hạn như câu hỏi “Bài này đã lột tả được cái vị thế người trong cuộc của bạn tại Silicon Valley hay chưa?” Hay một câu khác hỏi xem ý tưởng chính có xuất hiện ngay trong 500 chữ đầu tiên hay không.
Tôi đưa tất cả những chỉ dẫn này vào một dự án trên Claude, kèm theo lời nhắc nhở về vai trò của nó: “Bạn không phải là người cùng viết với tôi. Bạn không biết cảm nhận. Việc của bạn là giúp Jasmine viết lách sao cho ra được cái phần tinh túy nhất của chính mình.” Tôi cũng không quên nhắc nhở Claude rằng: Tôi không muốn kỹ năng của mình bị thui chột. Việc duy nhất của bạn là giúp cho đầu óc của tôi thêm minh mẫn mà thôi.
Biên tập viên ‘người máy’ này dần trở thành một phần không thể thiếu trong công việc của tôi. Cũng như bất kỳ người đọc nào khác, không phải lúc nào Claude cũng đúng. Tôi luôn cẩn trọng để không bị nó gò mình vào một khuôn mẫu cứng nhắc nào đó. Thế nhưng, Claude lại thúc đẩy tôi mài giũa và chỉnh sửa bài vở nhanh hơn nhiều so với khi tôi làm việc một mình; nó chỉ ra được những chỗ mà lối viết của tôi chưa đạt tới chuẩn mực mà chính tôi mong muốn.
“Đừng cố viết đoạn kết theo kiểu tóm tắt ý chính nữa, hãy viết nó như một phân cảnh phim đi,” nó đã bảo tôi như vậy khi đang sửa một bài viết gần đây. Thú thật, cảm giác bị một cái máy từ chối những gì mình dày công viết ra cũng hơi chạm tự ái, nhưng tôi phải thừa nhận là nó nhận xét rất xác đáng. Tôi đã phải viết đi viết lại đoạn kết tới bốn lần. Và rồi, cuối cùng thì Claude cũng chịu gật đầu.
Jasmine Sun là tác giả của một chuyên mục định kỳ trên Substack, chuyên viết về Trí tuệ Nhân tạo và nếp sống tại Silicon Valley.

