Các tính năng mới của OpenAI được tiết lộ: sự xuất hiện của kỷ nguyên đa phương thức

Bài viết này trên FastCompany giới thiệu tiến bộ mới nhất của OpenAI, tập trung vào những đột phá của nó trong lĩnh vực công nghệ đa phương thức. Bài viết đầu tiên khám phá việc tối ưu hóa mô hình ChatGPT-4 Turbo và tích hợp các chức năng đa phương thức, chẳng hạn như tạo hình ảnh và chuyển văn bản thành giọng nói. Sau đó, các tác giả đi sâu vào cách các kỹ thuật đa phương thức hoạt động, đặc biệt là quá trình chuyển đổi văn bản thành hình ảnh. Thông qua các ứng dụng thực tế và ví dụ lập trình, nó cho thấy cách sử dụng các công nghệ này để nhận dạng nội dung hình ảnh và video, cũng như chuyển đổi nội dung được công nhận thành giọng nói, phản ánh tiềm năng và ảnh hưởng sâu rộng của công nghệ đa phương thức trong các ứng dụng thực tế.
Các tính năng mới của OpenAI được tiết lộ: sự xuất hiện của kỷ nguyên đa phương thức
OpenAI gần đây đã công bố một loạt các tính năng mới và cải tiến bắt mắt và những cập nhật này được thiết kế để đẩy mạnh hơn nữa ranh giới của AI. Những cập nhật này không chỉ bao gồm mô hình ChatGPT-4 Turbo mới, mạnh hơn và ít tốn kém hơn, mà còn giới thiệu các khả năng đa phương thức, sẽ mở rộng đáng kể không gian cho các nhà phát triển và nhà nghiên cứu đổi mới. Dưới đây là những điểm nổi bật của các bản cập nhật này:
1. ChatGPT-4 Turbo: Mô hình mới này đại diện cho sự tiến bộ mới nhất trong các mô hình ngôn ngữ quy mô lớn. Nó không chỉ mạnh mẽ hơn mà còn có giá cả phải chăng hơn. Mô hình này hỗ trợ các cửa sổ theo ngữ cảnh lên đến 128K, có nghĩa là các cuộc hội thoại và văn bản dài hơn có thể được xử lý. Sự ra đời của ChatGPT-4 Turbo đã cải thiện đáng kể khả năng của các nhà phát triển để khai thác tiềm năng của các mô hình ngôn ngữ lớn, làm cho mô hình trở thành một "toàn diện" thực sự.
2. Khả năng đa phương thức: Những tiến bộ gần đây trong lĩnh vực đa phương thức đặc biệt bắt mắt. Các tính năng mới trên nền tảng OpenAI bao gồm cải thiện khả năng hình ảnh, tạo hình ảnh (DALL-E 3) và công nghệ chuyển văn bản thành giọng nói (TTS). Sự kết hợp của các khả năng đa phương thức này không chỉ mở ra các trường hợp sử dụng mới mà còn cung cấp cho người dùng trải nghiệm phong phú và tương tác hơn.
3. API Trợ lý: API trợ lý mới của OpenAI giúp các nhà phát triển dễ dàng xây dựng các ứng dụng AI được nhắm mục tiêu. API này cung cấp một cách đơn giản để gọi các mô hình và công cụ, giúp phát triển các ứng dụng AI hỗ trợ phức tạp, cho dù để tự động hóa quy trình kinh doanh hay nâng cao trải nghiệm người dùng.
Nhìn thấy việc bổ sung các tính năng này thật thú vị và tôi nóng lòng muốn đăng nhập vào GPT để thử các tính năng này. Đặc biệt, tôi rất ấn tượng bởi chức năng đa phương thức, và sau đây tôi sẽ chia sẻ với các bạn về hoạt động thực tế và phân tích mã.

Một nghiên cứu sơ bộ về đa phương thức​

Công nghệ đa phương thức là một lĩnh vực ngày càng phổ biến kết hợp các loại dữ liệu đầu vào và đầu ra khác nhau, chẳng hạn như văn bản, âm thanh, hình ảnh và video, để tạo ra trải nghiệm người dùng phong phú và trực quan hơn. Dưới đây là một vài khía cạnh chính của công nghệ đa phương thức:
1. Tích hợp đa chế độ nhận thức: Công nghệ đa phương thức tích hợp nhiều chế độ nhận thức như thị giác (hình ảnh, video), thính giác (giọng nói, âm thanh) và xúc giác. Sự tích hợp này cho phép các hệ thống AI hiểu rõ hơn và giải thích các môi trường và tình huống phức tạp.
2. Tăng cường tương tác người dùng: Bằng cách kết hợp văn bản, hình ảnh và âm thanh, công nghệ đa phương thức cung cấp một cách tự nhiên và trực quan hơn để tương tác với người dùng. Ví dụ: người dùng có thể đặt câu hỏi bằng lệnh thoại và nhận câu trả lời ở cả dạng hình ảnh và văn bản.
3. Nhận thức ngữ cảnh: Các hệ thống đa phương thức có thể phân tích và hiểu mối quan hệ giữa các loại dữ liệu khác nhau để cung cấp thông tin và phản hồi chính xác hơn. Ví dụ: khi xử lý các truy vấn ngôn ngữ tự nhiên, hệ thống có thể tính đến nội dung hình ảnh hoặc video có liên quan để cung cấp câu trả lời phong phú hơn.
4. Ứng dụng sáng tạo: Công nghệ đa phương thức có nhiều ứng dụng, bao gồm nhưng không giới hạn ở dịch vụ khách hàng tự động, trợ lý thông minh, sáng tạo nội dung, giáo dục, chăm sóc sức khỏe và bán lẻ. Nó cho phép tạo ra các loại ứng dụng mới có khả năng hiểu và đáp ứng tốt hơn nhu cầu của người dùng.
5. Thách thức kỹ thuật: Mặc dù công nghệ đa phương thức mang lại tiềm năng lớn, nhưng nó cũng mang lại những thách thức như hợp nhất dữ liệu, sự phức tạp của việc xử lý các loại dữ liệu khác nhau và đảm bảo độ chính xác và hiệu quả.
6. Phiên bản đa phương thức của OpenAI: Một ví dụ đáng chú ý về chức năng đa phương thức trong khuôn khổ của OpenAI là DALL-E 3, là một mô hình tạo hình ảnh tiên tiến có thể tạo ra hình ảnh chi tiết và sáng tạo dựa trên mô tả văn bản. Ngoài ra, công nghệ chuyển văn bản thành giọng nói (TTS) chuyển đổi văn bản thành giọng nói tự nhiên, làm phong phú thêm khả năng tương tác giữa người và máy tính.

Phân tích nguyên tắc đa phương thức​

Trước đó, chúng tôi đã đưa ra một mô tả cơ bản về đa phương thức, trong đó đề cập đến công nghệ có thể hiểu và xử lý nhiều loại dữ liệu (như văn bản, hình ảnh, âm thanh, v.v.). Chuyển đổi văn bản-hình ảnh-âm thanh-video. Biến đổi là sự xuất hiện, và bản chất cần phải được hiểu.
Trong lĩnh vực trí tuệ nhân tạo, các phương pháp tiếp cận đa phương thức thường kết hợp xử lý ngôn ngữ tự nhiên (NLP), thị giác máy tính (CV) và các kỹ thuật xử lý tín hiệu khác để đạt được khả năng xử lý và hiểu dữ liệu toàn diện hơn.
Để minh họa cách thức hoạt động của đa phương thức, hãy lấy một ví dụ về chuyển đổi văn bản thành hình ảnh để giúp bạn hiểum hãy tiếp tục theo dõi toàn bộ quá trình như sau:
1. Trích xuất tính năng văn bản:
Đầu tiên, nhập văn bản trích xuất các tính năng văn bản từ mô hình văn bản, chẳng hạn như mô hình ngôn ngữ được đào tạo trước. Quá trình này liên quan đến việc chuyển đổi văn bản thành một vectơ của một không gian chiều cao đại diện cho nội dung ngữ nghĩa của văn bản.
2. Mô hình Fusion:
Trong một số trường hợp, thực sự có một mô hình nhiệt hạch chuyên biệt có nguồn gốc trong giai đoạn đào tạo bằng cách học cách kết hợp dữ liệu từ các phương thức khác nhau. Mô hình nhiệt hạch này sẽ được sử dụng trong giai đoạn suy luận.
Trong các trường hợp khác, mô hình hợp nhất có thể là ẩn. Ví dụ: trong mô hình tạo có điều kiện, vectơ tính năng văn bản được sử dụng trực tiếp làm điều kiện để tạo hình ảnh mà không cần bước hợp nhất rõ ràng.
3. Thế hệ có điều kiện:
Một mô hình hợp nhất (hoặc các vectơ tính năng có nguồn gốc trực tiếp từ mô hình văn bản) được sử dụng để thiết lập các điều kiện cho mô hình tạo hình ảnh. Điều kiện này có thể hiểu là hướng dẫn generative model "hiểu" nội dung văn bản và tạo ra một hình ảnh phù hợp cho phù hợp.
4. Tạo hình ảnh:
Cuối cùng, các mô hình tạo hình ảnh (ví dụ: DALL· E hoặc các mô hình dựa trên mạng đối kháng sinh khác) để nhận vectơ có điều kiện này và tạo ra một hình ảnh phù hợp với nó. Quá trình này thường liên quan đến rất nhiều tính toán nội bộ và mô hình cố gắng tạo ra đầu ra hình ảnh phù hợp nhất với các điều kiện.
Toàn bộ quá trình có thể được đơn giản hóa thành: nhập văn bản → trích xuất tính năng văn bản → hợp nhất tính năng (nếu có) → tạo có điều kiện → đầu ra hình ảnh. Trong quá trình này, Mô hình Fusion có thể là một mô hình độc lập hoặc một phần của mô hình thế hệ có điều kiện. Điểm mấu chốt là sự hợp nhất tính năng trong quá trình suy luận dựa trên kiến thức và thông số đã học trong giai đoạn đào tạo.

Trải nghiệm đa mô hình​

Sau khi đã nắm được nguyên tắc triển khai đa mô hình, chúng ta hãy đăng nhập vào ChatGPT để trải nghiệm, lúc này các chức năng của DALLE 3 đã được tích hợp trong ChatGPT4, và chúng ta chỉ cần nhập hướng dẫn để tạo ra các hình ảnh tương ứng. Như bạn có thể thấy bên dưới, chúng tôi mô tả một con mèo dễ thương thông qua văn bản và ChatGPT có thể giúp tôi tạo ra hình ảnh.
Các tính năng mới của OpenAI được tiết lộ: sự xuất hiện của kỷ nguyên đa phương thức
Không chỉ vậy, OpenAI còn có thể nhận dạng hình ảnh, sau khi bạn cung cấp hình ảnh, OpenAI sẽ mô tả nội dung theo hình ảnh, như thể hiện trong hình dưới đây, chúng ta tìm thấy hình ảnh của một chú mèo con từ Internet, và ném nó cho OpenAI để nó nhận ra.
Các tính năng mới của OpenAI được tiết lộ: sự xuất hiện của kỷ nguyên đa phương thức
Lần này, chúng ta đã đạt được chức năng trên bằng cách gọi API của OpenAI. Rốt cuộc, là một lập trình viên, bạn không cần phải gõ mã, mà bạn chỉ cần sử dụng các công cụ để gõ văn bản.
Mã này sử dụng thư viện Python và OpenAI để tương tác với API GPT-4 của OpenAI. Mục đích là tạo một phiên trò chuyện nơi người dùng có thể gửi địa chỉ hình ảnh đến mô hình. Mã sử dụng địa chỉ URL, đọc hình ảnh, nhận dạng hình ảnh và cuối cùng xuất ra văn bản đã hiểu.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top