'Đột phá' trong lĩnh vực trí tuệ nhân tạo: Mạng thần kinh có khả năng tổng quát hóa ngôn ngữ giống con người

Đoàn Thúy Hà · 26/10/2023

Tóm tắt nội dung:
Một đột phá trong lĩnh vực trí tuệ nhân tạo, với việc tạo ra một mạng thần kinh có khả năng tổng quát hóa ngôn ngữ giống con người. Mạng thần kinh này có khả năng nhanh chóng học từ ngôn ngữ mới và sử dụng chúng trong ngữ cảnh mới, điều quan trọng trong quá trình tổng quát hóa như con người.
Nghiên cứu đã so sánh mạng thần kinh này với mô hình AI dựa trên ChatGPT và thấy rằng mạng thần kinh này thực hiện tốt hơn cả ChatGPT và con người trong việc áp dụng từ mới học vào các tình huống mới.
Điều này có thể dẫn đến sự tương tác tự nhiên hơn giữa máy móc và con người, giải quyết những hạn chế của các hệ thống trí tuệ nhân tạo hiện tại. Nghiên cứu này đã đào tạo mạng thần kinh bằng cách cho phép nó học từ sai lầm, tạo nên khả năng tương tự con người trong việc tổng quát hóa ngôn ngữ.
Các nhà khoa học đã tạo ra một mạng thần kinh có khả năng giống con người trong việc tổng quát hóa về ngôn ngữ. Hệ thống trí tuệ nhân tạo (AI) này thực hiện tương tự như con người trong việc đưa từ mới học vào từ vựng hiện tại và sử dụng chúng trong ngữ cảnh mới, đó là một khía cạnh quan trọng của tri thức con người được biết đến với tên gọi tổng quát hóa hệ thống.

'Đột phá' trong lĩnh vực trí tuệ nhân tạo: Mạng thần kinh có khả năng tổng quát hóa ngôn ngữ giống con người

Các nhà nghiên cứu đã đưa ra cùng nhiệm vụ cho mô hình AI mà ChatGPT dựa trên, và họ đã phát hiện rằng nó thực hiện kém hơn nhiều so với cả mạng thần kinh mới và con người trong một bài kiểm tra như vậy, mặc dù khả năng kỳ diệu của chatbot trong việc trò chuyện giống con người.
Công việc này, được công bố vào ngày 25 tháng 10 trên tạp chí Nature, có thể dẫn đến việc tạo ra các máy móc tương tác với con người một cách tự nhiên hơn so với ngay cả những hệ thống trí tuệ nhân tạo tốt nhất hiện nay. Mặc dù các hệ thống dựa trên các mô hình ngôn ngữ lớn, như ChatGPT, có khả năng trò chuyện trong nhiều ngữ cảnh, nhưng chúng vẫn thể hiện những khoảng trống và không nhất quán đáng chú ý trong các trường hợp khác.
Hiệu suất giống con người của mạng thần kinh này cho thấy đã có một "đột phá trong khả năng đào tạo mạng thần kinh để tổng quát hóa", theo lời của Paul Smolensky, một nhà khoa học tâm lý chuyên về ngôn ngữ tại Đại học Johns Hopkins ở Baltimore, Maryland.

Bài học về ngôn ngữ

Tính tổng quát hóa hệ thống được thể hiện thông qua khả năng của con người sử dụng một cách dễ dàng các từ mới học được trong các tình huống mới. Ví dụ, khi ai đó đã hiểu được nghĩa của từ 'photobomb', họ sẽ có thể sử dụng nó trong nhiều tình huống, như 'photobomb hai lần' hoặc 'photobomb trong cuộc gọi Zoom'. Tương tự, người hiểu câu 'con mèo đuổi theo con chó' cũng sẽ hiểu câu 'con chó đuổi theo con mèo' mà không cần nhiều suy nghĩ thêm.
Tuy nhiên, khả năng này không tự nhiên đối với mạng thần kinh, một phương pháp mô phỏng tri thức con người đã thống trị trong nghiên cứu trí tuệ nhân tạo, theo Brenden Lake, một nhà khoa học tính toán tâm lý tại Đại học New York và là tác giả chung của nghiên cứu. Khác với con người, mạng thần kinh gặp khó khăn trong việc sử dụng một từ mới cho đến khi nó được đào tạo trên nhiều mẫu văn bản mà sử dụng từ đó. Các nhà nghiên cứu trí tuệ nhân tạo đã tranh cãi trong gần 40 năm về việc liệu mạng thần kinh có thể bao giờ là một mô hình hợp lý của tri thức con người nếu họ không thể thể hiện loại tổng quát hóa này. Để cố gắng giải quyết cuộc tranh luận này, các tác giả đã đầu tiên thử nghiệm 25 người về khả năng họ sử dụng từ mới học được trong các tình huống khác nhau. Các nhà nghiên cứu đảm bảo rằng người tham gia sẽ học từ mới lần đầu bằng cách kiểm tra họ trên một ngôn ngữ giả tạo bao gồm hai loại từ vô nghĩa. Từ 'nguyên thủy' như 'dax,' 'wif' và 'lug' đại diện cho các hành động cơ bản, như 'nhảy' và 'bước'. Các từ 'chức năng' trừu tượng hơn như 'blicket', 'kiki' và 'fep' xác định các quy tắc sử dụng và kết hợp các nguyên thủy, tạo ra các chuỗi như 'nhảy ba lần' hoặc 'bước ngược'.
Người tham gia được đào tạo để kết nối mỗi từ nguyên thủy với một vòng tròn có màu cụ thể, vòng tròn màu đỏ đại diện cho 'dax', và vòng tròn màu xanh đại diện cho 'lug'. Các nhà nghiên cứu sau đó hiển thị các kết hợp từ nguyên thủy và từ chức năng cùng với các mẫu vòng tròn sẽ xuất hiện khi các chức năng được áp dụng cho các từ nguyên thủy. Ví dụ, cụm từ 'dax fep' được hiển thị với ba vòng tròn màu đỏ, và 'lug fep' với ba vòng tròn màu xanh, cho thấy rằng fep biểu thị một quy tắc trừu tượng để lặp lại một từ nguyên thủy ba lần.
Cuối cùng, các nhà nghiên cứu kiểm tra khả năng của người tham gia áp dụng các quy tắc trừu tượng này bằng cách đưa ra các kết hợp phức tạp của các từ nguyên thủy và từ chức năng. Sau đó, họ phải chọn các vòng tròn màu đúng và số lượng và đặt chúng theo thứ tự thích hợp.

Tiêu chuẩn trí tuệ

Như dự đoán, con người đã xuất sắc trong nhiệm vụ này; họ chọn đúng sự kết hợp của các vòng tròn màu khoảng 80% trong trường hợp trung bình. Khi họ mắc lỗi, các nhà nghiên cứu nhận thấy rằng những lỗi này tuân theo một mẫu phản ánh các đặc tính đặc trưng của con người.
Tiếp theo, các nhà nghiên cứu đã đào tạo một mạng thần kinh để thực hiện một nhiệm vụ tương tự với người tham gia, bằng cách lập trình nó học từ những sai lầm của mình. Phương pháp này cho phép trí tuệ nhân tạo học trong quá trình hoàn thành mỗi nhiệm vụ thay vì sử dụng một bộ dữ liệu tĩnh, đó là phương pháp tiêu chuẩn trong đào tạo mạng thần kinh. Để biến mạng thần kinh trở nên giống con người, các tác giả đã đào tạo nó để tái tạo các mẫu sai lầm mà họ quan sát được trong kết quả kiểm tra của con người. Khi mạng thần kinh sau đó được kiểm tra trên các câu đố mới, các câu trả lời của nó tương tự với hầu hết các tình nguyên con người và trong một số trường hợp còn vượt qua khả năng biểu diễn của họ. Ngược lại, GPT-4 gặp khó khăn với nhiệm vụ tương tự, thất bại, trung bình, từ 42 đến 86% thời gian, tùy thuộc vào cách các nhà nghiên cứu trình bày nhiệm vụ. "Đó không phải là ma thuật, đó là thực hành," Lake nói. "Giống như một đứa trẻ cũng có cơ hội để rèn luyện khi họ học ngôn ngữ bản địa của họ, các mô hình cải thiện kỹ năng sáng tạo của họ thông qua một loạt các nhiệm vụ học cấu thành".
Melanie Mitchell, một nhà khoa học máy tính và tâm lý tại Viện Santa Fe ở New Mexico, nói rằng nghiên cứu này là một minh chứng thú vị, nhưng vẫn cần xem xét liệu phương pháp đào tạo này có thể mở rộng để tổng quát hóa trên một tập dữ liệu lớn hơn hoặc thậm chí đối với hình ảnh. Lake hy vọng sẽ giải quyết vấn đề này bằng cách nghiên cứu cách con người phát triển khả năng tổng quát hóa hệ thống từ khi còn nhỏ, và tích hợp những kết quả này để xây dựng một mạng thần kinh mạnh mẽ hơn.
Elia Bruni, một chuyên gia về xử lý ngôn ngữ tự nhiên tại Đại học Osnabrück ở Đức, nói rằng nghiên cứu này có thể giúp các mạng thần kinh học hiệu quả hơn. Điều này sẽ giảm lượng dữ liệu khổng lồ cần thiết để đào tạo các hệ thống như ChatGPT và giảm thiểu 'ảo tưởng', xuất hiện khi trí tuệ nhân tạo nhận biết các mẫu không tồn tại và tạo ra kết quả không chính xác. "Đưa tính hệ thống vào các mạng thần kinh là một việc quan trọng," Bruni nói. "Nó có thể giải quyết cả hai vấn đề này cùng một lúc".