Mô hình ngôn ngữ đa phương thức: Tương lai của trí tuệ nhân tạo (AI)

Thoại Viết Hoàng · 20/07/2023

Các mô hình ngôn ngữ lớn (LLM) là các mô hình máy tính có khả năng phân tích và tạo văn bản. Họ được đào tạo về một lượng lớn dữ liệu văn bản để nâng cao hiệu suất của họ trong các tác vụ như tạo văn bản và thậm chí viết mã.

7 công cụ CRM hỗ trợ AI dành cho doanh nghiệp

Hầu hết các LLM hiện tại chỉ ở dạng văn bản, nghĩa là chúng chỉ vượt trội ở các ứng dụng dựa trên văn bản và có khả năng hạn chế để hiểu các loại dữ liệu khác.
Ngược lại, LLM đa phương thức kết hợp các loại dữ liệu khác, chẳng hạn như hình ảnh, video, âm thanh và các đầu vào cảm giác khác, cùng với văn bản. Việc tích hợp đa phương thức vào LLM giải quyết một số hạn chế của các mô hình chỉ có văn bản hiện tại và mở ra khả năng cho các ứng dụng mới mà trước đây không thể thực hiện được.
GPT-4 do Open AI phát hành gần đây là một ví dụ về LLM đa phương thức. Nó có thể chấp nhận đầu vào hình ảnh và văn bản và đã thể hiện hiệu suất ở cấp độ con người trên nhiều điểm chuẩn.
Tăng trưởng trong AI đa phương thức
Với học đại diện, các mô hình có thể phát triển một đại diện được chia sẻ cho tất cả các phương thức, trong khi học chuyển giao cho phép chúng học kiến thức cơ bản trước khi tinh chỉnh trên các miền cụ thể.

Mô hình ngôn ngữ đa phương thức: Tương lai của trí tuệ nhân tạo (AI)

Những kỹ thuật này rất cần thiết để làm cho AI đa phương thức trở nên khả thi và hiệu quả, như những đột phá gần đây như CLIP, giúp căn chỉnh hình ảnh và văn bản, và DALL·E 2 và Khuếch tán ổn định, tạo ra hình ảnh chất lượng cao từ lời nhắc văn bản.
Khi ranh giới giữa các phương thức dữ liệu khác nhau trở nên ít rõ ràng hơn, chúng ta có thể mong đợi nhiều ứng dụng AI hơn sẽ tận dụng mối quan hệ giữa nhiều phương thức, đánh dấu một sự thay đổi mô hình trong lĩnh vực này. Các cách tiếp cận đặc biệt sẽ dần trở nên lỗi thời và tầm quan trọng của việc hiểu được mối liên hệ giữa các phương thức khác nhau sẽ chỉ tiếp tục phát triển.
Hoạt động của các LLM đa phương thức
Mô hình ngôn ngữ chỉ văn bản (LLM) được cung cấp bởi mô hình máy biến áp, giúp chúng hiểu và tạo ngôn ngữ. Mô hình này nhận văn bản đầu vào và chuyển đổi nó thành biểu diễn số được gọi là “nhúng từ”. Những phần nhúng này giúp mô hình hiểu ý nghĩa và ngữ cảnh của văn bản.
Sau đó, mô hình máy biến áp sử dụng một thứ gọi là “các lớp chú ý” để xử lý văn bản và xác định các từ khác nhau trong văn bản đầu vào có liên quan với nhau như thế nào. Thông tin này giúp mô hình dự đoán từ tiếp theo có khả năng nhất trong đầu ra.
Mặt khác, LLM đa phương thức không chỉ hoạt động với văn bản mà còn với các dạng dữ liệu khác, chẳng hạn như hình ảnh, âm thanh và video. Các mô hình này chuyển đổi văn bản và các loại dữ liệu khác thành một không gian mã hóa chung, nghĩa là chúng có thể xử lý tất cả các loại dữ liệu bằng cùng một cơ chế. Điều này cho phép các mô hình tạo phản hồi kết hợp thông tin từ nhiều phương thức, dẫn đến kết quả đầu ra chính xác và theo ngữ cảnh hơn.
Tại sao cần có Mô hình ngôn ngữ đa phương thức
Các LLM chỉ có văn bản như GPT-3 và BERT có nhiều ứng dụng, chẳng hạn như viết bài, soạn email và viết mã. Tuy nhiên, cách tiếp cận chỉ có văn bản này cũng đã làm nổi bật những hạn chế của các mô hình này.
Mặc dù ngôn ngữ là một phần quan trọng của trí thông minh con người, nhưng nó chỉ đại diện cho một khía cạnh của trí thông minh của chúng ta. Khả năng nhận thức của chúng ta chủ yếu dựa vào nhận thức và khả năng vô thức, phần lớn được định hình bởi kinh nghiệm trong quá khứ và sự hiểu biết của chúng ta về cách thế giới vận hành.
Các LLM được đào tạo chỉ dựa trên văn bản vốn đã bị hạn chế về khả năng kết hợp kiến thức chung và kiến thức thế giới, điều này có thể gây ra vấn đề đối với một số nhiệm vụ nhất định. Việc mở rộng tập dữ liệu huấn luyện có thể giúp ích ở một mức độ nào đó, nhưng những mô hình này vẫn có thể gặp phải những lỗ hổng kiến thức không mong muốn. Các cách tiếp cận đa phương thức có thể giải quyết một số thách thức này.

Để hiểu rõ hơn về điều này, hãy xem xét ví dụ về ChatGPT và GPT-4.
Mặc dù ChatGPT là một mô hình ngôn ngữ đáng chú ý đã được chứng minh là vô cùng hữu ích trong nhiều ngữ cảnh, nhưng nó có những hạn chế nhất định trong các lĩnh vực như lập luận phức tạp.
Để giải quyết vấn đề này, phiên bản tiếp theo của GPT, GPT-4, dự kiến sẽ vượt qua khả năng lập luận của ChatGPT. Bằng cách sử dụng các thuật toán nâng cao hơn và kết hợp đa phương thức, GPT-4 sẵn sàng đưa quá trình xử lý ngôn ngữ tự nhiên lên một tầm cao mới, cho phép giải quyết các vấn đề lý luận phức tạp hơn và cải thiện hơn nữa khả năng tạo phản hồi giống như con người.

Một số ví dụ về LLM đa phương thức
OpenAI: GPT-4
GPT-4 là một mô hình lớn, đa phương thức, có thể chấp nhận cả đầu vào hình ảnh và văn bản cũng như tạo đầu ra văn bản. Mặc dù có thể không có khả năng như con người trong một số tình huống nhất định trong thế giới thực, nhưng GPT-4 đã cho thấy hiệu suất ở cấp độ con người trên nhiều tiêu chuẩn chuyên môn và học thuật.
So với người tiền nhiệm của nó, GPT-3.5, sự khác biệt giữa hai kiểu máy có thể không rõ ràng trong cuộc trò chuyện thông thường nhưng sẽ trở nên rõ ràng khi mức độ phức tạp của một tác vụ đạt đến một ngưỡng nhất định. GPT-4 đáng tin cậy và sáng tạo hơn, đồng thời có thể xử lý nhiều hướng dẫn phức tạp hơn GPT-3.5.
Hơn nữa, nó có thể xử lý các lời nhắc liên quan đến văn bản và hình ảnh, cho phép người dùng chỉ định bất kỳ tác vụ ngôn ngữ hoặc hình ảnh nào. GPT-4 đã thể hiện khả năng của mình trong nhiều miền khác nhau, bao gồm tài liệu chứa văn bản, ảnh, sơ đồ hoặc ảnh chụp màn hình và có thể tạo đầu ra văn bản như ngôn ngữ tự nhiên và mã.

Microsoft: Kosmos-1
Kosmos-1 là Mô hình ngôn ngữ lớn đa phương thức (MLLM) có thể nhận biết các phương thức khác nhau, học theo ngữ cảnh (một vài cảnh quay) và làm theo hướng dẫn (không cảnh báo). Kosmos-1 đã được đào tạo từ đầu về dữ liệu web, bao gồm văn bản và hình ảnh, cặp chú thích hình ảnh và dữ liệu văn bản.
Mô hình đã đạt được hiệu suất ấn tượng trong các nhiệm vụ hiểu ngôn ngữ, tạo, nhận thức ngôn ngữ và thị giác. Kosmos-1 vốn hỗ trợ các hoạt động ngôn ngữ, ngôn ngữ nhận thức và thị giác, đồng thời nó có thể xử lý các tác vụ ngôn ngữ tự nhiên và chuyên sâu về nhận thức.
Kosmos-1 đã chứng minh rằng tính đa phương thức cho phép các mô hình ngôn ngữ lớn đạt được nhiều hơn với chi phí ít hơn và cho phép các mô hình nhỏ hơn giải quyết các nhiệm vụ phức tạp.

Google: PaLM-E
PaLM-E là một mô hình rô-bốt mới được phát triển bởi các nhà nghiên cứu tại Google và TU Berlin, sử dụng việc chuyển giao kiến
thức từ các lĩnh vực hình ảnh và ngôn ngữ khác nhau để tăng cường khả năng học tập của rô-bốt. Không giống như những nỗ lực trước đây, PaLM-E đào tạo mô hình ngôn ngữ để kết hợp trực tiếp dữ liệu cảm biến thô từ tác nhân rô-bốt. Điều này dẫn đến một mô hình học tập rô-bốt hiệu quả cao, một mô hình ngôn ngữ hình ảnh đa năng tiên tiến nhất.
Mô hình nhận đầu vào với các loại thông tin khác nhau, chẳng hạn như văn bản, hình ảnh và hiểu biết về môi trường xung quanh rô-bốt. Nó có thể tạo phản hồi ở dạng văn bản thuần túy hoặc một loạt hướng dẫn bằng văn bản có thể được dịch thành lệnh thực thi cho rô-bốt dựa trên nhiều loại thông tin đầu vào, bao gồm văn bản, hình ảnh và dữ liệu môi trường.
PaLM-E thể hiện năng lực trong cả nhiệm vụ hiện thân và không hiện thân, bằng chứng là các thí nghiệm do các nhà nghiên cứu thực hiện. Phát hiện của họ chỉ ra rằng việc đào tạo mô hình trên sự kết hợp của các nhiệm vụ và các phương án sẽ nâng cao hiệu suất của nó đối với từng nhiệm vụ. Ngoài ra, khả năng chuyển giao kiến
thức của mô hình cho phép nó giải quyết các nhiệm vụ bằng rô-bốt ngay cả với các ví dụ đào tạo hạn chế một cách hiệu quả. Điều này đặc biệt quan trọng trong chế tạo robot, nơi mà việc thu thập dữ liệu đào tạo đầy đủ có thể là một thách thức.

Hạn chế của LLM đa phương thức
Con người học hỏi và kết hợp các phương thức và cách hiểu thế giới xung quanh một cách tự nhiên. Mặt khác, LLM đa phương thức cố gắng học đồng thời ngôn ngữ và nhận thức hoặc kết hợp các thành phần được đào tạo trước. Mặc dù cách tiếp cận này có thể dẫn đến sự phát triển nhanh hơn và khả năng mở rộng được cải thiện, nhưng nó cũng có thể dẫn đến sự không tương thích với trí thông minh của con người, điều này có thể được thể hiện thông qua hành vi kỳ lạ hoặc bất thường.
Mặc dù các LLM đa phương thức đang đạt được tiến bộ trong việc giải quyết một số vấn đề quan trọng của các mô hình ngôn ngữ hiện đại và hệ thống học sâu, nhưng vẫn còn những hạn chế cần giải quyết. Những hạn chế này bao gồm sự không phù hợp tiềm ẩn giữa các mô hình và trí thông minh của con người, điều này có thể cản trở khả năng thu hẹp khoảng cách giữa AI và nhận thức của con người.
Kết luận: Tại sao LLM đa phương thức là tương lai?
Chúng tôi hiện đang đi đầu trong kỷ nguyên mới về trí tuệ nhân tạo và bất chấp những hạn chế hiện tại của nó, các mô hình đa phương thức đang sẵn sàng tiếp quản. Các mô hình này kết hợp nhiều loại dữ liệu và phương thức, đồng thời có khả năng biến đổi hoàn toàn cách chúng ta tương tác với máy móc.
Các LLM đa phương thức đã đạt được thành công đáng kể trong thị giác máy tính và xử lý ngôn ngữ tự nhiên. Tuy nhiên, trong tương lai, chúng ta có thể mong đợi các LLM đa phương thức thậm chí còn có tác động đáng kể hơn đến cuộc sống của chúng ta.
Khả năng của các LLM đa phương thức là vô tận và chúng tôi mới chỉ bắt đầu khám phá tiềm năng thực sự của chúng. Với lời hứa to lớn của họ, rõ ràng là các LLM đa phương thức sẽ đóng một vai trò quan trọng trong tương lai của AI.
Tham khảo bài viết gốc tại đây