OpenAI công bố GPT-4: bổ sung khả năng chèn ảnh để hỏi ChatGPT

TienCM · 07/09/2021

Sau thời gian dài đồn đoán, OpenAI vừa chính thức công bố GPT-4: phiên bản mô hình ngôn ngữ AI mới nhất được dùng làm nền tảng cho các ứng dụng như ChatGPT và máy tìm kiếm Bing mới.
OpenAI cho rằng mô hình ngôn ngữ này “sáng tạo và hợp tác hơn bao giờ hết” và “có thể giải quyết các vấn đề khó khăn với độ chính xác cao hơn”. Nó có thể phân tích cú pháp cả văn bản và hình ảnh đầu vào nhưng nội dung trả lời vẫn là văn bản. OpenAI cũng cảnh báo rằng các hệ thống này vẫn tồn tại nhiều vấn đề giống như các mô hình ngôn ngữ trước đó như thông tin trả về không chính xác, khả năng tạo ra nội dung bạo lực và có hại.

OpenAI công bố GPT-4: bổ sung khả năng chèn ảnh để hỏi ChatGPT

OpenAI cho biết họ đã hợp với một số công ty tích hợp GPT-4 vào sản phẩm của họ như Duolingo, Stripe và Khan Academy. Mô hình ngôn ngữ mới này sẽ được cung cấp tới người dùng qua ChatGPT Plus, dịch vụ ChatGPT thu phí 20 USD mỗi tháng của OpenAI và ứng dụng chatbot trên máy tìm kiếm Bing của Microsoft. Các lập trình viên cũng có thể tiếp cận GPT-4 thông qua API.
Trong một công bố, OpenAI cho rằng sự khác biệt giữa GPT-4 và thế hệ GPT-3.5 cũ là không nhiều trong các cuộc trò chuyện thông thường (ChatGPT 3.5 là mô hình ngôn ngữ được dùng cho ChatGPT). Altman, CEO của OpenAI cũng nói rằng GPT-4 vẫn còn lỗi và hạn chế nhưng nó sẽ gây ấn tượng khi lúc mới sử dụng hơn là dùng lâu về sau.
Theo OpenAI, những cải tiến rõ rệt nhất của GPT-4 là hiệu năng xử lý mạnh mẽ hơn trong các bài đo Uniform Bar Exam, LSAT, SAT Math, và SAT Evidence-Based Reading & Writing. Trong các đo này, GPT-4 đều ghi điểm cao hơn đáng kể so với GPT-3.5.
Nhiều đồn đoán về GPT-4 và các khả năng của nó đã xuất hiện nhiều trong vài tháng qua, với nhiều ý kiến cho rằng đây sẽ là một bước nhảy vọt so với các hệ thống trước đó. Tuy nhiên, thông báo của OpenAI, sự cải tiến sẽ không nhiều như mọi người kỳ vọng.
Tin đồn về năng lực của GPT-4 càng được thổi bùng lên vào tuần trước sau khi một giám đốc điều hành của Microsoft tiết lộ rằng mô hình ngôn ngữ mới sẽ là mô hình đa phương thức, không chỉ tạo văn bản mà cả các dạng nội dung khác như âm thanh, hình ảnh và video.
GPT-4 cũng có thể xem là mô hình đa phương thức nhưng nó hiện chỉ xử lý được văn bản và hình ảnh, ít hơn nhiều so với đồn đoán. OpenAI nói rằng mô hình này có thể chấp nhận xử lý đầu vào cả văn bản và hình ảnh, và đưa ra phản hồi bằng văn bản. Công ty này cho biết GPT-4 có khả năng phân tích đồng thời cả văn bản và hình ảnh cho phép nó diễn giải nội dung đầu vào phức tạp hơn. Trong các ví dụ phía dưới, bạn có thể thấy mô hình giải thích các meme và các hình ảnh bất thường:

Con đường tiến đến GPT-4 của OpenAI và các mô hình ngôn ngữ AI nói chung đã được tạo đà từ nhiều năm trước khi trở thành xu hướng công nghệ nóng hổi trong vài tháng gần đây.
Mô hình GPT đầu tiên ra mắt vào năm 2018, GPT-2 ra mắt năm 2019 và GPT-3 ra vào năm 2020. Những mô hình này được đào tạo dựa trên bộ dữ liệu văn bản lớn, hầu hết được thu thập trên mạng. Bộ dữ liệu lớn đó sẽ được khai thác để tạo ra các mô hình thống kê. Các mô hình thống kê sau đó được dùng để dự đoán từ nào theo sau từ khác. Đó là có chế mô tả nghe có vẻ đơn giản như vậy nhưng thực tế thì hệ thống phức tạp hơn nhiều, nó có thể tạo, tóm tắt và diễn đạt lại cách viết cũng như làm nhiều tác vụ khác dựa trên văn bản như dịch thuật hoặc viết mã phần mềm.
OpenAI ban đầu không ra mắt mô hình GPT vì lo ngại được dùng cho các mục đích xấu như tạo ra tin rác và thông tin sai lệch. Nhưng vào năm 2022, công ty này đã ra mắt ChatGPT, chatbot đàm thoại dựa trên mô hình ngôn ngữ GPT-3.5 mà mọi người có thể sử dụng hiện nay. Sự ra mắt của ChatGPT đã gây ra cơn sốt trong giới công nghệ, Microsoft nhanh chóng đưa vào làm chatbot cho máy tìm kiếm Bing và Google cũng đang cố gắng theo kịp.
Đúng như dự đoán, sự phát triển của các mô hình ngôn ngữ AI đã tạo nhiều vấn đề và các thách thức. Hệ thống giáo dục vẫn đang thích ứng với sự tồn tại của phần mềm có thể viết các bài luận. Các trang web trực tuyến như Stack Overflow và tạp chí khoa học viễn tưởng Clarkesworld đã phải ngừng nhận bài gửi đến do quá nhiều nội dung do AI tạo ra. Việc sử dụng sớm các công cụ viết AI trong báo chí đã gặp nhiều khó khăn. Tuy nhiên, một số chuyên gia cho rằng những tác động có hại vẫn còn ít hơn dự đoán.
Trong thông báo về GPT-4, OpenAI nhấn mạnh rằng hệ thống đã trải qua sáu tháng đào tạo về an toàn và trong các thử nghiệm nội bộ. Theo các thử nghiệm, OpenAI cho biết GPT-4 phản hồi các yêu cầu về nội dung không được phép thấp hơn 82% và khả năng tạo ra thông tin thực tế nhiều hơn 40% so với GPT-3.5.
Tuy nhiên, điều đó không có nghĩa là hệ thống này sẽ không mắc sai lầm và đưa ra các nội dung độc hại. Ví vụ, Microsoft tiết lộ rằng chatbot Bing đã được ứng dụng ChatGPT-4 từ lâu và nhiều người dùng vẫn có thể vượt qua các rào cản của Bing theo nhiều cách để chatbot này đưa ra những lời khuyên nguy hiểm, đe dọa người dùng và bịa đặt thông tin. GPT-4 cũng thiếu kiến thức về các sự kiện thời sự.
>> OpenAI chính thức công bố API cho ChatGPT