OpenAI tiến bước lớn, đây mới là trợ lý giọng nói thực sự

Hoàng Đức · 14/05/2024

Trong vài năm qua, các hãng công nghệ lớn đã rất tập trung vào việc làm cho các mô hình ngôn ngữ lớn trở nên thông minh hơn... nhưng đây là lần đầu tiên "chúng tôi thực sự có một bước tiến lớn về mặt tính dễ sử dụng", Giám đốc công nghệ OpenAI đã nói như vậy tại buổi ra mắt GPT-4o sáng sớm nay (giờ Việt Nam).

Theo chân người mẫu video Sora của Vincent, OpenAI một lần nữa mang đến những bất ngờ cho thế giới bên ngoài. Lần này, OpenAI đã cho thế giới thấy khả năng chatbot AI đối thoại bằng giọng nói mượt mà và mạnh mẽ cũng như các khả năng đa phương thức khác.

Vào lúc sáng sớm nay ngày 14 tháng 5, giờ Việt Nam, một ngày trước Hội nghị các nhà phát triển Google, OpenAI, vốn đã được hâm nóng từ lâu, đã chính thức ra mắt công chúng mô hình giọng nói lớn GPT-4o (mô hình omnimodle, omnipotent) có thể sử dụng toàn diện lời nói, văn bản và hình ảnh để suy luận, hoạt động như một trợ lý tương tác bằng giọng nói cá nhân.

Quan trọng là, OpenAI sẽ cung cấp miễn phí mô hình này cho công chúng.

Ngoài mô hình lớn mới, OpenAI cũng chính thức công bố ra mắt phiên bản ChatGPT dành cho máy tính để bàn “Bắt đầu từ hôm nay, lần đầu tiên chúng tôi sẽ ra mắt ứng dụng macOS cho người dùng Plus và mở rộng ứng dụng này cho nhiều người dùng hơn trong những tuần tới. Chúng tôi cũng có kế hoạch ra mắt phiên bản dành cho máy tính để bàn vào cuối năm nay”.

Lời thoại mượt mà, cảm xúc và hiệu ứng gây sốc

Toàn bộ cuộc họp báo chỉ kéo dài 26 phút, CEO OpenAI Altman không xuất hiện, CTO của công ty cùng hai kỹ sư giới thiệu sản phẩm. Giao diện là một điểm đen lớn, nhưng một số cảnh hội thoại GPT4o trong phần trình diễn trực tiếp thật tuyệt vời.

Toàn bộ quá trình trò chuyện diễn ra rất suôn sẻ, bạn không chỉ có thể nói, nghe và xem mà còn có thể có những thay đổi về mặt cảm xúc, giống như thực hiện cuộc gọi điện video với người thật.

Qua một số cảnh trình diễn trực tiếp của OpenAI, chúng ta dường như đã nhìn thấy cảnh trong phim khoa học viễn tưởng đang trở thành hiện thực.

Cảnh 1: Giải tỏa cảm xúc

Diễn giả khách mời cho biết hiện tại anh hơi lo lắng và làm cách nào để giải tỏa. Chatbot ngay lập tức trấn an anh đừng lo lắng, hãy chậm lại và hít một hơi thật sâu. Người dẫn chương trình sau đó cố tình tạo ra những âm thanh thở rất cường điệu và nhanh chóng. Mô hình lớn đã nhanh chóng sửa chữa cách thở sai này, kèm theo hướng dẫn cách thở ra và hít vào chậm.
Cảnh 2: Kể chuyện trước giờ đi ngủ

Yêu cầu mô hình lớn kể câu chuyện trước khi đi ngủ về robot và tình yêu. Vừa lúc đại mẫu đang hùng hồn nói chuyện thì người dẫn chương trình nhanh chóng ngắt lời và đề nghị giọng nói nên có cảm xúc hơn. Kết quả là, trước khi nói xong, một vị khách đã tiếp chủ đề và cho rằng âm thanh cần có tác động mạnh hơn, và người mẫu lớn tiếp tục kể chuyện trước khi đi ngủ với giọng điệu rất cường điệu. Nhưng cuộc thử nghiệm mô hình lớn vẫn chưa kết thúc khi một vị khách khác đề nghị chuyển sang giọng nói của robot. Chẳng bao lâu, mô hình lớn bắt đầu bắt chước giọng nói của robot và tiếp tục nói chuyện. Cuối cùng, người mẫu lớn được yêu cầu hát một bài để kết thúc cuộc trò chuyện.

Tình huống 3: Giải phương trình đại số
Khách demo đã viết một phương trình đơn giản trên giấy và yêu cầu trợ lý giọng nói có được khả năng trực quan thông qua camera và cung cấp hướng dẫn bằng video theo thời gian thực để giải bài toán.

Người mẫu lớn ban đầu có "ảo giác" nhưng tự tin nói rằng mình hiểu rõ trước khi bật máy ảnh. Sau khi khách demo nhắc nhở, cô ấy nói: "Ôi, tôi phấn khích quá." Sau đó, người mẫu lớn nhắc nhở và giải thích từng bước các ý tưởng giải quyết vấn đề của mình. Xuyên suốt quá trình đó, người mẫu lớn giống như một giáo viên dạy toán giàu kinh nghiệm và kiên nhẫn.

Mẹ không bao giờ phải lo lắng về việc học của tôi nữa.

Tình huống 4: Đánh giá cảm xúc dựa trên ngoại hình
Khách demo cầm camera điện thoại di động trước mặt và nói chuyện với người mẫu lớn, chatbot nhanh chóng đưa ra nhận định bằng cách nhận ra biểu cảm của các nhân vật trong video. Chatbot cho biết, trông bạn rất vui vẻ, cười tươi và thậm chí có chút phấn khích, bạn có thể chia sẻ nguồn gốc hạnh phúc của mình được không? Khi khách demo nói rằng anh ấy rất vui vì chatbot muốn thể hiện mình hữu ích và mạnh mẽ như thế nào, chatbot thậm chí còn tỏ ra ngượng ngùng.

Ngoài ra còn có một đoạn trình diễn cảnh này. Khách demo ban đầu bật camera sau và chụp được một cái bàn. Chatbot cho biết: "Cái này trông giống như bề mặt của một tấm gỗ". Khách demo nhanh chóng nói rằng mình chụp nhầm ảnh, sau đó chuyển sang camera trước và bắt đầu chụp ảnh selfie, chatbot cũng nhanh chóng phản hồi.

Hãy tóm tắt một số tính năng của mô hình giọng nói lớn OpenAI trong phần trình diễn:

Một là phản hồi nhanh, gần như không có độ trễ và tốc độ nói chuyện không khác gì người bình thường, như thể bạn đang nói chuyện điện thoại với người thật. Trước đây, khi người dùng sử dụng chức năng giọng nói để nói chuyện với ChatGPT, độ trễ trung bình là 2,8 giây đối với GPT-3.5 và 5,4 giây đối với GPT-4.

Thứ hai, bạn có thể ngắt lời bất cứ lúc nào, không cần đợi nó trả lời xong mà có thể ngắt lời trực tiếp, có thể nhanh chóng tiếp tục cuộc trò chuyện với chủ đề mới nhất, rất suôn sẻ;

Thứ ba, nó có thể nắm bắt những thay đổi về cảm xúc, chẳng hạn như có thể đánh giá liệu kiểu thở nhanh của đối phương có sai hay không. Và bạn cũng có thể đóng các vai trò khác nhau, chẳng hạn như giọng điệu kịch tính hoặc giọng nói lạnh lùng của người máy, chuyển đổi tự do.

Thứ tư, nó có khả năng đa phương thức mạnh mẽ. Ví dụ: bạn có thể đặt câu hỏi bằng tiếng Ý và sau đó yêu cầu bên kia trả lời bằng tiếng Anh. Ví dụ: bạn có thể viết một phương trình và trợ lý giọng nói có thể nhận ra nó thông qua camera điện thoại. và dạy bạn từng bước các bước để giải quyết vấn đề. Bạn thậm chí có thể hướng camera vào chính mình và trợ lý giọng nói có thể nhận dạng hình ảnh để xác định tâm trạng hiện tại của bạn. Từ "Điều gì đang xảy ra trong mã phần mềm?" đến "Người này đang mặc áo sơ mi của hãng nào?", những người mẫu lớn có thể trả lời tốt thông qua khả năng đa phương thức.

Murati, giám đốc công nghệ của OpenAI, cho biết GPT-4o sẽ cung cấp mức độ thông minh tương tự như GPT-4, nhưng được cải thiện hơn nữa về xử lý văn bản, hình ảnh và giọng nói, "GPT-4o có thể tận dụng lời nói, văn bản và hình ảnh thông tin với nhau để lập luận.”

Đối với mô hình này, OpenAI vẫn chưa mở cửa cho công chúng như Sora. OpenAI đã thông báo rằng GPT-4o sẽ được tích hợp vào nhiều sản phẩm OpenAI khác nhau theo từng giai đoạn trong vài tuần tới. Quan trọng hơn, GPT-4o sẽ miễn phí cho tất cả người dùng và người dùng trả phí có thể tận hưởng gấp năm lần giới hạn cuộc gọi.

Đồng thời, OpenAI đã đồng loạt mở các lệnh gọi giao diện API của các dòng máy lớn mới nhất, giá thành cũng rẻ hơn rất nhiều. GPT-4o có giá chỉ bằng một nửa và nhanh gấp đôi GPT-4-turbo.

Tuy nhiên, giao diện API của GPT-4o không mở cho tất cả khách hàng. Trích dẫn nguy cơ lạm dụng, OpenAI cho biết họ có kế hoạch triển khai hỗ trợ các tính năng âm thanh mới của GPT-4o trước tiên cho “một nhóm nhỏ đối tác đáng tin cậy” trong những tuần tới.

Tìm kiếm AI không có ở đây, nhưng có phiên bản ChatGPT dành cho máy tính để bàn

Bản phát hành này về cơ bản xác nhận thực tế rằng trợ lý giọng nói Siri của Apple sẽ giới thiệu ChatGPT. Khả năng đối thoại bằng giọng nói mạnh mẽ của GPT-4o sẽ là một cải tiến lớn đối với Siri. Hơn nữa, một số lượng lớn các thiết bị của Apple cũng xuất hiện trong buổi trình diễn hội nghị OpenAI.
Tuy nhiên, thật đáng tiếc khi sản phẩm tìm kiếm ChatGPT được đồn đại bấy lâu nay vẫn chưa xuất hiện.

Trước đó, đã có tin đồn rằng OpenAI sẽ phát hành chức năng tìm kiếm AI, bao gồm cả việc một số phương tiện truyền thông nhận được phiên bản trải nghiệm sớm của ChatGPT Search - giao diện vẫn là tương tác đàm thoại, nhưng ChatGPT sẽ sử dụng thông tin mạng khi trả lời.

Vì vậy, đã từng có thông tin cho rằng chức năng tìm kiếm của ChatGPT sẽ ra mắt vào ngày 10 tháng 5, nhưng cuối cùng nó đã bị loại bỏ. Giám đốc điều hành ChatGPT Altman đã trả lời rằng sẽ không có GPT5 và không có sản phẩm tìm kiếm nào.

Tuy nhiên, nhiều người dùng nhận thấy rằng ChatGPT đã có thể trả lời những thông tin mới nhất, chẳng hạn như lượng hàng tồn kho hoặc thời tiết trong ngày và tất cả chúng đều chính xác. ChatGPT có thể trả lời URL, nhảy liên kết và cung cấp dữ liệu mới nhất theo thời gian. Nhưng điều này khác xa với tìm kiếm AI thực sự.

Giám đốc điều hành Kunlun Wanwei Fang Han tin rằng việc không thể tăng số lượng người dùng là vấn đề đau đầu nhất đối với OpenAI hiện nay . “Xét về hình thức sản phẩm mà chúng ta thấy cho đến nay, sản phẩm tìm kiếm của OpenAI vẫn chưa đè bẹp được tất cả các sản phẩm công cụ tìm kiếm trong và ngoài nước để tạo thành một SOTA (state-of-the-art, best performance). Việc phát hành sản phẩm này, It có thể tăng số lượng người dùng lên một chút, nhưng nó sẽ không tăng gấp đôi số lượng người dùng. Vì vậy, tôi nghĩ đây là một cuộc tấn công chiến lược vào Google trước Google I/O. Các chiến thuật cơ bản của nó vẫn đang chờ đợi và chuẩn bị cho GPT-4.5.”

"Bất kể sản phẩm mới nào mà Open AI phát hành, nó đang xác định lại bối cảnh về khả năng mạnh mẽ của ChatGPT và tìm kiếm các đầu ra sản phẩm mới." Chu Hongyi, chủ tịch của 360, cũng tin rằng OpenAI đang thu hẹp và tập trung vào mô hình lớn. có Hàng nghìn khả năng, thay vì hứa hẹn 10.000 kịch bản, hãy chọn hàng chục hoặc hàng trăm khả năng trong một mô hình lớn và tập trung vào một hoặc hai kịch bản tương đối rõ ràng.

Trước đó, OpenAI đã phát hành kho ứng dụng GPT, cho phép người dùng xác định các kịch bản thông qua GPT. Số lượng GPT hiện đã vượt quá một triệu, nhưng một mặt, OpenAI không được quan tâm. mặt khác, nó thiếu khách hàng. Như Chu Hồng Di đã nói, GPT xác định quá nhiều kịch bản và quá rời rạc, và nó không được coi là thành công. AI mở cũng cần khám phá và tạo ra một số sản phẩm hướng mô hình lớn điển hình . Sản phẩm này phải xác định rõ ràng các tình huống sử dụng của người dùng.

Tuy nhiên, so với việc tìm kiếm cảnh, lần này OpenAI đã phát hành phiên bản ChatGPT dành cho máy tính để bàn và giao diện người dùng mới để cải thiện khả năng cộng tác của ChatGPT. Mulati cho biết: “Chúng tôi nhận thấy rằng các mô hình này ngày càng trở nên phức tạp hơn, nhưng chúng tôi muốn trải nghiệm của người dùng khi tương tác với mô hình AI trở nên tự nhiên và dễ dàng hơn để người dùng có thể hoàn toàn tập trung vào việc tương tác với mô hình AI.” model. Cộng tác mà không cần lo lắng về giao diện”.

Ví dụ: người dùng có thể đặt câu hỏi với ChatGPT thông qua Tùy chọn + Phím cách, đồng thời có thể chụp và thảo luận về ảnh chụp màn hình trong ứng dụng.

Murati nói: “Chúng tôi biết rằng khi những mô hình này trở nên phức tạp hơn, chúng tôi muốn trải nghiệm tương tác trở nên tự nhiên hơn”. “Đây là lần đầu tiên chúng tôi thực sự có một bước tiến lớn về tính dễ sử dụng”.

Lần trước, OpenAI đã sử dụng Sora để bắn tỉa Gemini của Google. Lần này OpenAI một lần nữa chọn một ngày trước Hội nghị nhà phát triển Google để tung ra bước đi lớn của mình Đối mặt với Ultraman, người mạnh mẽ và giỏi PR, Google sẽ phản ứng thế nào? sẽ tìm hiểu tại hội nghị nhà phát triển. #GPT4otoàntri