VNR Content
Pearl
Nếu trí tuệ nhân tạo (AI) được xem như một bản sao của não bộ, với những mạng lưới nơ-ron nhân tạo thay thế cho các tế bào thực thụ, thì điều gì sẽ xảy ra nếu bạn so sánh hoạt động trong các thuật toán học sâu với hoạt động diễn ra trong một bộ não người? Tuần trước, các nhà nghiên cứu từ Meta AI đã công bố rằng họ sẽ hợp tác với trung tâm dựng ảnh thần kinh Neurospin (CEA) và INRIA để tìm hiểu điều đó.
Theo đó, Meta dự định phân tích hoạt động não người và các thuật toán học sâu được huấn luyện bằng các tác vụ ngôn ngữ hoặc giọng nói để đưa ra phản hồi đối với cùng những đoạn văn bản viết hoặc nói. Về lý thuyết, họ sẽ có thể giải mã cả cách não người và não nhân tạo tìm ra ý nghĩa của ngôn ngữ nghe được.
Bằng cách so sánh các bản quét não người trong khi một người đang đọc, nói, hoặc nghe, với các thuật toán học sâu được cung cấp cùng một tập hợp từ và câu để giải mã, các nhà nghiên cứu hi vọng có thể tìm ra những điểm tương đồng cũng như những khác biệt quan trọng về cấu trúc và hành vi giữa bộ não sinh học và các mạng lưới nhân tạo. Nghiên cứu có thể giúp giải thích tại sao con người xử lý ngôn ngữ hiệu quả hơn nhiều so với máy móc.
“Điều chúng tôi đang cố làm là thử so sánh hoạt động não người với các thuật toán học sâu để hiểu cách bộ não vận hành, và để tìm cách cải thiện học máy” - theo Jean-Remi King, một nhà khoa học nghiên cứu tại Meta AI. “Trong thập kỷ trước, đã có những tiến bộ vượt bậc về khả năng xử lý của AI với một loạt những tác vụ đa dạng, từ nhận biết vật thể đến phiên dịch tự động. Nhưng khi nói đến những tác vụ không cụ thể hoặc cần một lượng lớn kiến thức, dường như các hệ thống AI ngày nay vẫn khá chật vật, ít nhất là khi so sánh với con người”
Để thực hiện so sánh, các nhà nghiên cứu đã sử dụng các kỹ thuật chụp ảnh não như fMRI và ghi từ não (MEG, một kỹ thuật sử dụng để xác định hoạt động não khi phản ứng với những từ và câu riêng rẽ trong thời gian tính băng milli-giây). Nhờ đó, họ có thể theo dõi phản ứng của não đối với các từ trong quá trình nó hoạt động. Quan sát não một cách chi tiết như vậy sẽ cho phép các nhà nghiên cứu thấy những vùng não đang hoạt động khi họ nghe một từ như “chó” hay “cái bàn” (ví dụ, vùng não được gọi là “hồi nếp cong”, tiếng anh là angular gyrus, được cho là có chức năng giúp con người hiểu được những phép ẩn dụ, hoặc vùng Wernicke giúp xử lý ý nghĩa của âm thanh). Sau đó, họ có thể nghiên cứu thuật toán để xem liệu nó có hoạt động tương tự như vùng não đang phân tích hay không. Ví dụ, những đặc điểm mà AI thu nhận từ từ mà nó nghe được? Liệu nó có liên kết từ đó với cách phát âm, hoặc từ đó đã được dùng trước đó như thế nào?
Trong nghiên cứu trước đây, các nhà nghiên cứu đã quan sát được các vùng nào có hành vi tương tự như cách hoạt động của các thuật toán đối với các nội dung thị giác, các word embeddings (một khái niệm trong học máy), và các transformer ngôn ngữ (transformer là một mô hình học máy). Ví dụ, King ghi nhận rằng các thuật toán được huấn luyện để nhận biết nhân vật, hoặc dịch các điểm ảnh ra thành các ký tự, tạo ra những hoạt hóa tương quan với khu vực thị giác trong não bộ.
Trong một nghiên cứu xuất bản trên tạp chí Communications Biology vào tháng 2 vừa qua, các nhà nghiên cứu của Meta AI đã phát hiện ra rằng các thuật toán học máy được huấn luyện để dự báo một từ bị xóa khỏi bối cảnh của câu có cách hành xử giống với não người nhất so với các thuật toán khác không có tính năng này.
“Với chúng tôi, đây là một dấu hiệu đáng chú ý - nó cho thấy việc dự đoán tương lai khi được cho dữ liệu về quá khứ có lẽ là thứ giống với điều mà não người đang cố gắng làm” - King nói.
Những mô hình học máy còn có thể thực hiện tốt một loạt các tác vụ khác ngoài việc dự đoán từ bị thiếu dựa trên bối cảnh. “Và do đó đây là con đường mà chúng ta nên đi để phát triển các thuật toán học máy” - King nói. Nhưng vẫn còn một số câu hỏi đọng lại. Cụ thể, để học ngôn ngữ một cách hiệu quả thì chúng ta cần các cấu trúc bẩm sinh trong não đến mức nào, so với việc dựa vào những ảnh hưởng về mặt văn hóa lên chúng ta trong quá trình trưởng thành? Và bạn thực sự cần bao nhiêu dữ liệu và tham số để tạo ra một mô hình ngôn ngữ hoạt động được?
“Trẻ nhỏ học nói trong vài năm, và số lượng câu chúng học được là rất nhỏ so với dữ liệu mà các hệ thống AI thường được huấn luyện” - King nói. “Nó cho thấy chúng ta có các kiến trúc bên trong não, cho phép chúng ta hiệu quả hơn trong việc trích xuất cấu trúc của thế giới từ dữ liệu ngôn ngữ - tức ý nghĩa của những thứ mà con người tìm cách truyền đạt”
Ngược lại, các hệ thống AI rất giỏi trong các tác vụ chuyên sâu, thay vì các tác vụ đại trà. Tuy nhiên, khi một tác vụ trở nên quá phức tạp, kể cả khi nó vẫn chuyên sâu, hoặc “đòi hỏi phải được trình bày ở những cấp độ khác để hiểu cách thế giới vận hành và những thứ tạo động lực cho con người suy nghĩ theo cách này hay cách khác”, chúng thường gặp khó khăn - King nói. Ví dụ, ông cho biết một số mô hình xử lý ngôn ngữ tự nhiên vẫn bị đánh lừa bởi cú pháp. “Chúng nhận ra nhiều cú pháp, nhưng đôi lúc không thể kết hợp chủ ngữ và động từ khi bạn sử dụng các cấu trúc cú pháp lồng ghép ở giữa. Con người không gặp vấn đề với điều này”
“Mật độ thông tin cùng với chiều sâu nó có thể mang lại là một đặc tính đáng chú ý của ngôn ngữ” - King nói thêm. Đây là thứ mà AI ngày nay còn yếu và có thể giải thích tại sao chúng không thể luôn hiểu được thứ chúng tìm cách để dung nạp. Bên cạnh việc hiểu được cảm xúc hoặc tình huống của những từ hay cụm từ nhất định, có được kiến thức đại trà về một vấn đề có lẽ là yếu tố mấu chốt để phát triển được các hệ thống AI với khả năng trò chuyện tự nhiên tốt hơn, mà một ngày nào đó sẽ được ứng dụng vào các trợ lý ảo tương lai.
Đối với bản thân các mô hình xử lý ngôn ngữ tự nhiên - những phần mềm được huấn luyện để tìm cách hiểu được ngôn ngữ - một nhóm nghiên cứu khác tại Meta AI đang xây dựng một bộ các mô hình ngôn ngữ mã nguồn mở dựa trên transformer với hàng triệu, và thậm chí là hàng tỷ, tham số. Các mô hình nhỏ hơn cần ít năng lượng để chạy hơn, nhưng cũng kém thành thục trong việc xử lý các đoạn văn bản phức tạp và có xu hướng kém chính xác. Mô hình lớn nhất, với 175 tỷ tham số, có kích cỡ tương tự các mô hình ngôn ngữ công nghiệp khác, như GPT-3. Nhóm còn tung ra một sổ theo dõi tương ứng, trong đó nêu chi tiết cách họ xây dựng và huấn luyện các mô hình.
Một mô hình dựa trên transformer “sử dụng cả một cơ chế đã được huấn luyện để đưa ra những chuỗi thông tin, và một cơ chế chú ý để xác định nơi nào cần tập trung vào trong dữ liệu. Nó được huấn luyện theo một quy trình học tự giám sát. Tức là bạn giấu đi một mẩu dữ liệu, và bạn dự đoán nó, sau đó bạn mở nó ra để xem bạn đúng hay sai. Nếu sai, bạn thông qua cho mạng lưới biết” để khắc phục lỗi - theo giải thích của Joelle Pineau, giám đốc Meta AI Research Lab. “Nó không cần phân tích bối cảnh bổ sung, không sử dụng biểu đồ kiến thức. Nó nghiên cứu các phân phối từ trong một ngôn ngữ dựa trên bộ dữ liệu mà nó được huấn luyện”.
Có được một mô hình ngôn ngữ tốt là một yếu tố quan trọng để xây dựng các chatbot, những ứng dụng chuyển đổi, các hệ thống dịch máy và phân loại văn bản - những thứ có thể được sử dụng cho nhiều mục đích, ví dụ sắp xếp các câu hỏi của khách hàng. “Tất cả những ứng dụng này có thể tốt hơn nhiều nếu mô hình ngôn ngữ bạn sử dụng cho chúng có nội dung phong phú hơn” - theo Pineau.
Giống Google, Meta AI sẽ mở mã nguồn của các mô hình ngôn ngữ của họ để nhận phản hồi từ các nhà nghiên cứu khác, bao gồm những người nghiên cứu về hành vi và tác động đạo đức của các hệ thống AI quy mô. Pineau hi vọng điều này sẽ cho phép họ biến các hệ thống vốn thường hoạt động như những “hộp đen” trở nên minh bạch hơn.
Tại Meta AI, việc nghiên cứu hoạt động não và xây dựng các mô hình ngôn ngữ là hai trong số nhiều chức năng liên quan AI đang được nghiên cứu. Những dự án đáng chú ý khác tập trung vào các lĩnh vực liên quan hoạt động tiếp nhận, bao gồm thị giác máy tính, robot học, và video. Chưa hết, Meta còn đang dự định xây dựng một siêu máy tính phục vụ nghiên cứu AI. Dù Pineau cho biết ở thời điểm hiện tại, nhiều chủ đề nghiên cứu đang được thực hiện tách biệt nhau, rất có khả năng tất cả chúng cuối cùng cũng sẽ giao thoa nhau và hòa làm một trong metaverse.
Tham khảo: PopSci
Theo đó, Meta dự định phân tích hoạt động não người và các thuật toán học sâu được huấn luyện bằng các tác vụ ngôn ngữ hoặc giọng nói để đưa ra phản hồi đối với cùng những đoạn văn bản viết hoặc nói. Về lý thuyết, họ sẽ có thể giải mã cả cách não người và não nhân tạo tìm ra ý nghĩa của ngôn ngữ nghe được.
Bằng cách so sánh các bản quét não người trong khi một người đang đọc, nói, hoặc nghe, với các thuật toán học sâu được cung cấp cùng một tập hợp từ và câu để giải mã, các nhà nghiên cứu hi vọng có thể tìm ra những điểm tương đồng cũng như những khác biệt quan trọng về cấu trúc và hành vi giữa bộ não sinh học và các mạng lưới nhân tạo. Nghiên cứu có thể giúp giải thích tại sao con người xử lý ngôn ngữ hiệu quả hơn nhiều so với máy móc.
“Điều chúng tôi đang cố làm là thử so sánh hoạt động não người với các thuật toán học sâu để hiểu cách bộ não vận hành, và để tìm cách cải thiện học máy” - theo Jean-Remi King, một nhà khoa học nghiên cứu tại Meta AI. “Trong thập kỷ trước, đã có những tiến bộ vượt bậc về khả năng xử lý của AI với một loạt những tác vụ đa dạng, từ nhận biết vật thể đến phiên dịch tự động. Nhưng khi nói đến những tác vụ không cụ thể hoặc cần một lượng lớn kiến thức, dường như các hệ thống AI ngày nay vẫn khá chật vật, ít nhất là khi so sánh với con người”
Để thực hiện so sánh, các nhà nghiên cứu đã sử dụng các kỹ thuật chụp ảnh não như fMRI và ghi từ não (MEG, một kỹ thuật sử dụng để xác định hoạt động não khi phản ứng với những từ và câu riêng rẽ trong thời gian tính băng milli-giây). Nhờ đó, họ có thể theo dõi phản ứng của não đối với các từ trong quá trình nó hoạt động. Quan sát não một cách chi tiết như vậy sẽ cho phép các nhà nghiên cứu thấy những vùng não đang hoạt động khi họ nghe một từ như “chó” hay “cái bàn” (ví dụ, vùng não được gọi là “hồi nếp cong”, tiếng anh là angular gyrus, được cho là có chức năng giúp con người hiểu được những phép ẩn dụ, hoặc vùng Wernicke giúp xử lý ý nghĩa của âm thanh). Sau đó, họ có thể nghiên cứu thuật toán để xem liệu nó có hoạt động tương tự như vùng não đang phân tích hay không. Ví dụ, những đặc điểm mà AI thu nhận từ từ mà nó nghe được? Liệu nó có liên kết từ đó với cách phát âm, hoặc từ đó đã được dùng trước đó như thế nào?
Trong nghiên cứu trước đây, các nhà nghiên cứu đã quan sát được các vùng nào có hành vi tương tự như cách hoạt động của các thuật toán đối với các nội dung thị giác, các word embeddings (một khái niệm trong học máy), và các transformer ngôn ngữ (transformer là một mô hình học máy). Ví dụ, King ghi nhận rằng các thuật toán được huấn luyện để nhận biết nhân vật, hoặc dịch các điểm ảnh ra thành các ký tự, tạo ra những hoạt hóa tương quan với khu vực thị giác trong não bộ.
Trong một nghiên cứu xuất bản trên tạp chí Communications Biology vào tháng 2 vừa qua, các nhà nghiên cứu của Meta AI đã phát hiện ra rằng các thuật toán học máy được huấn luyện để dự báo một từ bị xóa khỏi bối cảnh của câu có cách hành xử giống với não người nhất so với các thuật toán khác không có tính năng này.
“Với chúng tôi, đây là một dấu hiệu đáng chú ý - nó cho thấy việc dự đoán tương lai khi được cho dữ liệu về quá khứ có lẽ là thứ giống với điều mà não người đang cố gắng làm” - King nói.
Những mô hình học máy còn có thể thực hiện tốt một loạt các tác vụ khác ngoài việc dự đoán từ bị thiếu dựa trên bối cảnh. “Và do đó đây là con đường mà chúng ta nên đi để phát triển các thuật toán học máy” - King nói. Nhưng vẫn còn một số câu hỏi đọng lại. Cụ thể, để học ngôn ngữ một cách hiệu quả thì chúng ta cần các cấu trúc bẩm sinh trong não đến mức nào, so với việc dựa vào những ảnh hưởng về mặt văn hóa lên chúng ta trong quá trình trưởng thành? Và bạn thực sự cần bao nhiêu dữ liệu và tham số để tạo ra một mô hình ngôn ngữ hoạt động được?
“Trẻ nhỏ học nói trong vài năm, và số lượng câu chúng học được là rất nhỏ so với dữ liệu mà các hệ thống AI thường được huấn luyện” - King nói. “Nó cho thấy chúng ta có các kiến trúc bên trong não, cho phép chúng ta hiệu quả hơn trong việc trích xuất cấu trúc của thế giới từ dữ liệu ngôn ngữ - tức ý nghĩa của những thứ mà con người tìm cách truyền đạt”
“Mật độ thông tin cùng với chiều sâu nó có thể mang lại là một đặc tính đáng chú ý của ngôn ngữ” - King nói thêm. Đây là thứ mà AI ngày nay còn yếu và có thể giải thích tại sao chúng không thể luôn hiểu được thứ chúng tìm cách để dung nạp. Bên cạnh việc hiểu được cảm xúc hoặc tình huống của những từ hay cụm từ nhất định, có được kiến thức đại trà về một vấn đề có lẽ là yếu tố mấu chốt để phát triển được các hệ thống AI với khả năng trò chuyện tự nhiên tốt hơn, mà một ngày nào đó sẽ được ứng dụng vào các trợ lý ảo tương lai.
Đối với bản thân các mô hình xử lý ngôn ngữ tự nhiên - những phần mềm được huấn luyện để tìm cách hiểu được ngôn ngữ - một nhóm nghiên cứu khác tại Meta AI đang xây dựng một bộ các mô hình ngôn ngữ mã nguồn mở dựa trên transformer với hàng triệu, và thậm chí là hàng tỷ, tham số. Các mô hình nhỏ hơn cần ít năng lượng để chạy hơn, nhưng cũng kém thành thục trong việc xử lý các đoạn văn bản phức tạp và có xu hướng kém chính xác. Mô hình lớn nhất, với 175 tỷ tham số, có kích cỡ tương tự các mô hình ngôn ngữ công nghiệp khác, như GPT-3. Nhóm còn tung ra một sổ theo dõi tương ứng, trong đó nêu chi tiết cách họ xây dựng và huấn luyện các mô hình.
Một mô hình dựa trên transformer “sử dụng cả một cơ chế đã được huấn luyện để đưa ra những chuỗi thông tin, và một cơ chế chú ý để xác định nơi nào cần tập trung vào trong dữ liệu. Nó được huấn luyện theo một quy trình học tự giám sát. Tức là bạn giấu đi một mẩu dữ liệu, và bạn dự đoán nó, sau đó bạn mở nó ra để xem bạn đúng hay sai. Nếu sai, bạn thông qua cho mạng lưới biết” để khắc phục lỗi - theo giải thích của Joelle Pineau, giám đốc Meta AI Research Lab. “Nó không cần phân tích bối cảnh bổ sung, không sử dụng biểu đồ kiến thức. Nó nghiên cứu các phân phối từ trong một ngôn ngữ dựa trên bộ dữ liệu mà nó được huấn luyện”.
Có được một mô hình ngôn ngữ tốt là một yếu tố quan trọng để xây dựng các chatbot, những ứng dụng chuyển đổi, các hệ thống dịch máy và phân loại văn bản - những thứ có thể được sử dụng cho nhiều mục đích, ví dụ sắp xếp các câu hỏi của khách hàng. “Tất cả những ứng dụng này có thể tốt hơn nhiều nếu mô hình ngôn ngữ bạn sử dụng cho chúng có nội dung phong phú hơn” - theo Pineau.
Giống Google, Meta AI sẽ mở mã nguồn của các mô hình ngôn ngữ của họ để nhận phản hồi từ các nhà nghiên cứu khác, bao gồm những người nghiên cứu về hành vi và tác động đạo đức của các hệ thống AI quy mô. Pineau hi vọng điều này sẽ cho phép họ biến các hệ thống vốn thường hoạt động như những “hộp đen” trở nên minh bạch hơn.
Tại Meta AI, việc nghiên cứu hoạt động não và xây dựng các mô hình ngôn ngữ là hai trong số nhiều chức năng liên quan AI đang được nghiên cứu. Những dự án đáng chú ý khác tập trung vào các lĩnh vực liên quan hoạt động tiếp nhận, bao gồm thị giác máy tính, robot học, và video. Chưa hết, Meta còn đang dự định xây dựng một siêu máy tính phục vụ nghiên cứu AI. Dù Pineau cho biết ở thời điểm hiện tại, nhiều chủ đề nghiên cứu đang được thực hiện tách biệt nhau, rất có khả năng tất cả chúng cuối cùng cũng sẽ giao thoa nhau và hòa làm một trong metaverse.
Tham khảo: PopSci