Trung Đào
Writer
Tờ Atlantic Weekly của Hoa Kỳ ngày 19 tháng 5 đã đăng một bài báo có tiêu đề: ChatGPT đã lỗi thời. Theo bài báo, trí tuệ nhân tạo không chỉ vượt qua ngôn ngữ viết và tích hợp nhiều phương tiện, mà còn đang hướng tới một mục tiêu cao cả hơn. Đó là, một sự hiểu biết toàn diện hơn và thấu đáo hơn về thế giới.
Tuy nhiên, các mô hình ngôn ngữ thuần túy như ChatGPT ban đầu đang bị loại bỏ dần, được thay thế bằng các máy có thể xử lý hình ảnh, âm thanh và thậm chí cả dữ liệu cảm giác. Mô hình mới này, có thể phản ánh cách hiểu nhân văn hơn về trí thông minh, là một nỗ lực ban đầu nhằm mô phỏng cách trẻ học bằng cách quan sát thế giới. Các công ty cũng có thể sử dụng điều này để phát triển AI với khả năng toàn diện hơn, sau đó tích hợp nó vào nhiều sản phẩm hơn. Ngoài GPT-4 và Bard, nhiều chương trình cũng có các chức năng mở rộng do chính họ phát triển. Các quy trình này được gọi là mô hình đa phương thức - trong đó văn bản và hình ảnh là các phương thức - và nhiều nhà nghiên cứu hy vọng chúng có thể đưa AI lên một tầm cao mới.
Về lý thuyết, cách tiếp cận đa phương thức có thể giải quyết khó khăn cốt lõi của các mô hình ngôn ngữ thuần túy - mặc dù các từ có thể được kết nối trôi chảy nhưng chúng không thể được liên kết với các khái niệm, ý tưởng, sự vật hoặc hoạt động. Việc tìm hiểu thêm các loại dữ liệu có thể giúp các mô hình AI tưởng tượng và tương tác với môi trường bên ngoài, đưa ra kết quả sát với thực tế, thậm chí bịa đặt sự thật để giải quyết vấn đề. Nếu mô hình hiểu thế giới, nó sẽ ít có khả năng tự phát minh ra mọi thứ. Việc xây dựng các mô hình đa phương thức không phải là mới, nhưng một số kết quả chính của nghiên cứu AI trong những năm gần đây đã khiến các phương pháp tiếp cận xuyên suốt ngày càng trở nên khả thi.
Sự thay đổi này cũng có những lý do thực tế, bởi vì dù Internet có lớn đến đâu, lượng văn bản mà AI có thể sử dụng để đào tạo là có hạn, quy mô và độ nhạy của các chương trình cũng như sức mạnh tính toán áp dụng đều bị hạn chế. bằng thực tế. So với ChatGPT, việc cải thiện trí tuệ nhân tạo đa phương thức trong việc hiểu thế giới và sự thông thạo ngôn ngữ vẫn đang được thảo luận. Nhiều chương trình đã được chứng minh là có phần thiếu sót, nhưng nghiên cứu vẫn đang ở giai đoạn đầu và sẽ tiếp tục được cải thiện trong vài năm tới.
Chúng ta vẫn còn một chặng đường dài trước khi có thể thực sự làm cho AI mô phỏng suy nghĩ của con người. Việc tăng dữ liệu văn bản được cung cấp không thể giải quyết các vấn đề sai lệch và sai lệch của các mô hình AI và việc mở rộng các loại dữ liệu được cung cấp sẽ không nhất thiết giải quyết được các vấn đề đó. Nếu chương trình kết hợp văn bản và hình ảnh thiên vị, đầu ra vẫn có thể gây hại và lan truyền rộng rãi hơn. So với các mô hình chỉ có thể xử lý ngôn ngữ, AI đa phương thức có thể nhạy cảm hơn với một số thao tác nhất định, chẳng hạn như giả mạo các pixel chính của hình ảnh. Ngoài mức độ thông minh, AI đa phương thức cũng là một đề xuất kinh doanh tốt.
Về lý thuyết, cách tiếp cận đa phương thức có thể giải quyết khó khăn cốt lõi của các mô hình ngôn ngữ thuần túy - mặc dù các từ có thể được kết nối trôi chảy nhưng chúng không thể được liên kết với các khái niệm, ý tưởng, sự vật hoặc hoạt động. Việc tìm hiểu thêm các loại dữ liệu có thể giúp các mô hình AI tưởng tượng và tương tác với môi trường bên ngoài, đưa ra kết quả sát với thực tế, thậm chí bịa đặt sự thật để giải quyết vấn đề. Nếu mô hình hiểu thế giới, nó sẽ ít có khả năng tự phát minh ra mọi thứ. Việc xây dựng các mô hình đa phương thức không phải là mới, nhưng một số kết quả chính của nghiên cứu AI trong những năm gần đây đã khiến các phương pháp tiếp cận xuyên suốt ngày càng trở nên khả thi.
Sự thay đổi này cũng có những lý do thực tế, bởi vì dù Internet có lớn đến đâu, lượng văn bản mà AI có thể sử dụng để đào tạo là có hạn, quy mô và độ nhạy của các chương trình cũng như sức mạnh tính toán áp dụng đều bị hạn chế. bằng thực tế. So với ChatGPT, việc cải thiện trí tuệ nhân tạo đa phương thức trong việc hiểu thế giới và sự thông thạo ngôn ngữ vẫn đang được thảo luận. Nhiều chương trình đã được chứng minh là có phần thiếu sót, nhưng nghiên cứu vẫn đang ở giai đoạn đầu và sẽ tiếp tục được cải thiện trong vài năm tới.
Chúng ta vẫn còn một chặng đường dài trước khi có thể thực sự làm cho AI mô phỏng suy nghĩ của con người. Việc tăng dữ liệu văn bản được cung cấp không thể giải quyết các vấn đề sai lệch và sai lệch của các mô hình AI và việc mở rộng các loại dữ liệu được cung cấp sẽ không nhất thiết giải quyết được các vấn đề đó. Nếu chương trình kết hợp văn bản và hình ảnh thiên vị, đầu ra vẫn có thể gây hại và lan truyền rộng rãi hơn. So với các mô hình chỉ có thể xử lý ngôn ngữ, AI đa phương thức có thể nhạy cảm hơn với một số thao tác nhất định, chẳng hạn như giả mạo các pixel chính của hình ảnh. Ngoài mức độ thông minh, AI đa phương thức cũng là một đề xuất kinh doanh tốt.