ChatGPT bước vào kỷ nguyên tương tác thời gian thực

Trung Đào

Writer
Sử dụng chức năng
  1. Mục lục Xem nhanh
  2. Nút xem thêm với bài dài
Sáng sớm ngày 14 tháng 5 (giờ Việt Nam), sau nhiều đồn đoán OpenAI đã phát hành Magic mà CEO Sam Altman đã xây dựng trước, chủ yếu bao gồm ba bản phát hành chính, giao diện người dùng mới của ChatGPT, phiên bản GPT dành cho máy tính để bàn và quan trọng nhất là đa giao diện mới. -mô hình phương thức GPT- 4o.

Khi các mô hình trở nên phức tạp hơn, giao diện người dùng ChatGPT mới trở nên ngắn gọn hơn và trải nghiệm tương tác thực sự trở nên tự nhiên và đơn giản hơn.


1715652410097.png

Phiên bản GPT dành cho máy tính để bàn trực tuyến theo thời gian thực và có thể giúp bạn giải quyết các tác vụ như viết mã và đọc biểu đồ bất kỳ lúc nào. Từ video trình diễn của OpenAI, có thể thấy phiên bản GPT dành cho máy tính để bàn có thể "hiểu" trực tiếp các nhiệm vụ của người dùng thông qua các phương tiện trực quan.

Điều quan trọng nhất là mẫu GPT-4o mới. Theo trang web chính thức của OpenAI, “o” là viết tắt của “toàn tri” và là một bước hướng tới sự tương tác giữa con người và máy tính một cách tự nhiên hơn.

Tóm lại, mẫu GPT-4o mới có ba "phép thuật" chính:

① Đa phương thức: Chấp nhận văn bản, âm thanh và hình ảnh làm đầu vào kết hợp và tạo ra bất kỳ đầu ra kết hợp nào của văn bản, âm thanh và hình ảnh. Đồng thời, trong số các khả năng hiểu biết đa phương thức, điều đáng ngạc nhiên nhất là nó có thể nhận biết cảm xúc của con người và đưa ra những “phản ứng cảm xúc” dựa trên cảm xúc.

② Hầu như không có độ trễ: Thời gian phản hồi của nó đối với đầu vào âm thanh tối thiểu là 232 mili giây và trung bình là 320 mili giây, tương tự như thời gian phản hồi của con người trong một cuộc trò chuyện.

③ Nó có thể chạy trên máy tính để bàn và bạn sẽ có một đồng đội AI bất cứ lúc nào, người có thể giúp bạn thực hiện các công việc như viết mã và xem biểu đồ bất cứ lúc nào.

Sau khi đọc xong ba đặc điểm chính này, tôi thực sự thở dài thẳng thắn: "Jarvis" đang trực tuyến! "HER" bước vào cuộc sống. Bắt đầu từ hôm nay, OpenAI mang đến cho bạn một trợ lý AI phổ biến, không có độ trễ, có cảm xúc, có thể theo dõi bạn bất cứ lúc nào. Miễn phí. Nửa sau của bài viết này sẽ giới thiệu chi tiết các khả năng mới được GPT-4o mở khóa.

1. Tổng quan: GPT-4o là mẫu end-to-end mới​

GPT-4o phù hợp với hiệu suất của GPT-4 Turbo trên văn bản và mã tiếng Anh, với những cải tiến đáng kể đối với văn bản không phải tiếng Anh, đồng thời nhanh hơn về API và chi phí thấp hơn 50%. GPT-4o đặc biệt tốt hơn về khả năng hiểu hình ảnh và âm thanh so với các mẫu hiện có.

Theo bài đăng blog mới nhất được OpenAI đăng trên trang web chính thức, trước GPT-4o, chúng tôi đã sử dụng chế độ giọng nói để nói chuyện với ChatGPT và độ trễ trung bình là 2,8 giây (GPT-3.5) và 5,4 giây (GPT-4). Để đạt được điều này, Chế độ giọng nói là một hệ thống gồm ba mô hình riêng biệt: một mô hình đơn giản chuyển âm thanh thành văn bản, GPT-3.5 hoặc GPT-4 nhận văn bản và xuất văn bản và mô hình đơn giản thứ ba chuyển đổi văn bản đó sau đó chuyển đổi lại thành âm thanh. Quá trình này có nghĩa là nguồn thông tin chính, GPT-4, mất rất nhiều thông tin; nó không thể quan sát trực tiếp ngữ điệu, nhiều người nói hoặc tiếng ồn xung quanh, cũng như không thể tạo ra tiếng cười, tiếng hát hoặc biểu hiện cảm xúc.
GPT-4o, một mô hình mới được đào tạo riêng, có thể xử lý văn bản, hình ảnh và âm thanh từ đầu đến cuối , nghĩa là tất cả đầu vào và đầu ra đều được xử lý bởi cùng một mạng thần kinh.

GPT-4o không phải là mẫu đa phương thức đầu cuối đầu tiên. Trở lại tháng 12 năm ngoái, Google đã công bố mô hình Gemini của họ. Sau đó, ngành công nghiệp đã đánh giá rằng OpenAI cũng sẽ đi theo mô hình mô hình thống nhất và cuối cùng phát triển mô hình đa phương thức từ đầu đến cuối.
Bốn tháng đã trôi qua và mô hình hợp nhất của OpenAI cuối cùng đã ra mắt. Nó cũng có nhiều chế độ giọng nói hơn Google.

Quan trọng hơn, mặc dù Google đã ra mắt mô hình hợp nhất trước tiên nhưng OpenAI hôm nay đã chứng minh được những gì một mô hình đa phương thức “thực tế” hơn sẽ đạt được.

2. Khả năng của sản phẩm mới - điều kỳ diệu đằng sau điều kỳ diệu​

1. Tại sao là Magic: tích hợp mô hình đa phương thức, đa phương thức. Không có sự cải thiện về chất lượng trong văn bản, mã truyền thống và các khả năng suy luận khác, nhưng khả năng âm thanh và hình ảnh đã đạt đến những tiêu chuẩn mới.

Là một mô hình đa phương thức tích hợp, GPT-4o đạt đến cấp độ GPT-4 Turbo về khả năng lập trình và lý luận văn bản trong các bài kiểm tra điểm chuẩn truyền thống, đồng thời lập kỷ lục mới về đa ngôn ngữ, nhận dạng giọng nói, dịch giọng nói, hiểu hình ảnh, v.v. Điểm trung bình cao của khả năng đa phương thức là cơ sở cho khả năng “ma thuật” của mô hình này.

1715652628263.png


Khả năng suy luận văn bản được cải thiện hạn chế

1715652663176.png


So với Whisper-v3, GPT-4o có hiệu suất nhận dạng tuyệt vời ở nhiều ngôn ngữ, đặc biệt là các ngôn ngữ thiểu số.

1715652686923.png

Huyền thoại: GPT-4o đạt đến tầm cao mới về hiệu suất dịch âm thanh

1715652706738.png

Trong nhiều bài kiểm tra benchmark, điểm số đã được cải thiện ở bài kiểm tra khả năng hiểu bằng hình ảnh, GPT-4o đã đạt đến một mức cao mới.

2. Điều kỳ diệu của sự dễ sử dụng: OpenAI dạy Apple và Google cách tạo trợ lý giọng nói

Mặc dù xét về khả năng, mô hình đa phương thức thống nhất không mang lại sự cải thiện lớn về hiệu suất như tưởng tượng. Nhưng OpenAI rõ ràng đã tiến xa hơn một bước so với Google: sử dụng trợ lý hợp nhất để áp dụng tất cả các phương thức đa phương thức này trong mọi tình huống.
Đánh giá từ phần trình diễn này, việc nâng cấp mức độ tương tác này chứng tỏ rằng đa phương thức thực sự là Yếu tố thay đổi trò chơi của AI.
Điều tuyệt vời hơn nữa là phiên bản di động của GPT-4o có thể hiểu được lời nói và trạng thái của bạn (cho dù bạn có mệt hay không, có thở mạnh hay không) thông qua khả năng giọng nói.

Bạn cũng có thể nhận biết và phản ứng trực quan với môi trường cũng như những gì bạn đang làm. Giúp bạn giải toán không có vấn đề gì, sau khi giải được tôi có thể trò chuyện với bạn về cuộc sống.

Đây chính là sự toàn tri mà OpenAI muốn đạt được: nó có thể tiếp nhận hầu hết mọi thứ mà một người lạ sẽ cảm thấy khi họ gặp bạn. Vì vậy, nó cũng có những thao tác thực sự có thể được thực hiện với bạn, có liên quan đến cá nhân bạn và phù hợp với bối cảnh.

Nhiều người sẽ nghĩ rằng đây là một chức năng cũ, bởi vì dù là Gemini hay GPT-4V trước đây, chúng tôi đều có thể chụp ảnh màn hình để cho họ xem môi trường hiện tại và họ cũng có thể nhận ra thông tin trong ảnh và phản hồi cho bạn. Đối với giọng nói, trước đây cũng có hệ thống nhận dạng dựa trên Whisper, đủ để phiên bản GPT4 trước đó phản hồi cho bạn.

Nhưng lần này GPT-4o mang đến sự lật đổ trải nghiệm dễ sử dụng.

Nó có thể hiểu môi trường thời gian thực, phản ứng với môi trường đã thay đổi bất cứ lúc nào và thậm chí liên kết những thay đổi này với sự trợ giúp của khả năng bộ nhớ. Chế độ này dễ sử dụng hơn nhiều so với chế độ tương tác trước đây mà bạn phải chụp ảnh màn hình phần mềm để trò chuyện suôn sẻ.

Ngoài ra, điều ấn tượng nhất về bản demo là GPT-4o nhanh như chớp. So với tốc độ phản hồi của thế hệ trước chỉ là 2,6 giây, GPT-4o có thể phản hồi các cuộc hội thoại mà không có bất kỳ độ trễ nào. Tốc độ phản hồi có tác động rất lớn đến trải nghiệm người dùng và người quản lý sản phẩm phải nhận thức rõ về điều đó.

Điều này là do GPT-4o là mã hóa thống nhất cho đa phương thức và hiện là phương thức đa phương thức thực sự nhất. Do đó, chúng tôi không còn cần quy trình truyền thống gồm chuyển giọng nói thành văn bản-Q&A-text-to-speech (lời nói~văn bản-Q&A-văn bản~lời nói) nữa. Trong GPT-4o, bạn có thể trực tiếp thực hiện giọng nói-câu hỏi-trả lời-giọng nói trong một bước, điều này giúp rút ngắn đáng kể thời gian phản hồi.

1715652971385.png


Đồng thời, dễ sử dụng cũng có nghĩa là nó phù hợp hơn với thói quen tương tác của con người: GPT-4o có thể bị gián đoạn bất cứ lúc nào trong cuộc trò chuyện và có thể tiếp tục chế độ trò chuyện bằng giọng nói.

Sự kết hợp của 3 khả năng trên khiến sản phẩm này thực sự đạt tới mức độ mà người dùng không hề cảm thấy phiền phức khi sử dụng. Kể từ hôm nay, AI cuối cùng đã trở thành một trợ lý đồng hành thực sự phổ biến, thay vì chỉ là một công cụ hiệu quả mà chúng ta ngại gọi khi cần trợ giúp.
Đây có thể là hình dáng của một trợ lý giọng nói trong kỷ nguyên AI: sẵn có, dễ sử dụng, tự nhiên và mạnh mẽ.

Vậy Siri, Google Voice Assistant, bạn đã sẵn sàng chưa?

Và Rabbit R1, AI Pins, liệu giá trị độc nhất của bạn có còn tồn tại được không?

Ngoài trợ lý giọng nói, OpenAI còn trình diễn những thay đổi mà GPT-4o có thể mang lại cho hệ thống máy tính để bàn thông qua phiên bản máy tính để bàn GPT mới. Đã dạy Microsoft cách gọi Copilot thực sự.

GPT-4o có thể sử dụng khả năng trực quan để xác định mã bạn đang viết trên màn hình, tệp PDF bạn đang xem và đưa ra bản tóm tắt hoặc mẹo. So với ảnh chụp màn hình của GPT-4V, việc tải tệp lên dễ dàng và tự nhiên hơn nhiều so với việc mở Microsoft Copilot và sử dụng bàn phím để đặt câu hỏi ở thanh bên.

Jarvis đang trực tuyến: phiên bản ChatGPT dành cho máy tính để bàn, có thể chỉ ra các lỗi trong mã bạn đang viết và tóm tắt tệp PDF trên màn hình của bạn bằng giọng nói

3. Sự kỳ diệu của sự đắm chìm—một cỗ máy chứa đựng cảm xúc

Dễ sử dụng tự nhiên chỉ là hoạt động cơ bản của GPT-4o. Điều thực sự khiến OpenAI cảm thấy khó hiểu là nó làm cho mô hình trở nên "con người" hơn.

Trước tiên chúng ta hãy xem cuộc trò chuyện này. Phản ứng của GPT-4o cũng tự nhiên như của người bạn thân nhất của bạn, cảm xúc của cô ấy tràn ngập đến mức gần như không thể phân biệt được với người thật: cô ấy sẽ ngạc nhiên, cười và phấn khích. đầy đủ các chi tiết. So với GPT4, loại có thể bắt chước ngữ điệu của con người trước đây, nó vẫn thiếu một số phản hồi cảm xúc từ người thật. Nó quá giống con người.

Đặc biệt là những cảnh thay đổi tâm trạng này rất phù hợp với bối cảnh và lời thoại, như thể cô ấy biết chính xác cảm xúc nào sẽ thể hiện khi nào.

Một ví dụ khác cũng có thể chứng minh rằng nó thực sự hiểu “cảm xúc” là gì. Trong quá trình demo, khi người thử nghiệm yêu cầu kể câu chuyện theo cách “kịch tính nhất” thì màn trình diễn của cô gần giống như một diễn viên kịch. Điều này đòi hỏi cô ấy phải hiểu "kịch tính" nghĩa là gì, một từ mô tả phần lớn cường độ cảm xúc.

Trình diễn mẫu GPT-4o mới nhất của OpenAI là chưa đủ để kể cho bạn một câu chuyện theo cách cảm động nhất. Nó cũng có thể hát cho bạn nghe.

Ngoài việc thể hiện cảm xúc, GPT-4o còn có một “máy dò cảm xúc” có thể đọc được cảm xúc của bạn. Kết hợp với phần trình diễn trước đó, nó cũng có thể hiểu được trạng thái của bạn từ giọng điệu.

Những màn trình diễn này không thể không nhắc nhở mọi người rằng vào ngày 27 tháng 3, Hume AI vừa cho ra mắt AI đầu tiên có thể nhận biết cảm xúc của con người-Evi, có thể đánh giá sự kết hợp của 63 cảm xúc thông qua ngữ điệu giọng nói của con người. Điều này đã gây ra cú sốc lớn trong ngành vào thời điểm đó.

Nhưng tất cả những gì nó có thể làm là nhận biết cảm xúc chứ không thể đáp lại cảm xúc của con người và tạo ra những câu nói đầy cảm xúc.

1715653119177.png


Nhưng bây giờ GPT-4o dường như đã đạt được khả năng kỳ diệu này.

Điều này có nghĩa là một đối tác đối thoại đáng tin cậy hơn sẽ ra đời, một AI mà bạn sẽ không chỉ cho là thông minh xét về mặt khả năng mà còn cảm thấy giống con người về mặt giao tiếp và cảm xúc. Điều này có nghĩa là mức độ hòa nhập tương tác chưa từng có.

Như Sam Altamn đã nói, chính trong bối cảnh này mà HER, người yêu đám mây của mọi người, đã xuất hiện.

Thật không may, tài liệu kỹ thuật của OpenAI không nói gì về điều này. Chúng ta không thể giải thích nó sâu sắc hơn. Có thể đoán rằng đây là một khả năng mô hình mới xuất hiện một cách tự phát từ OpenAI trong việc đào tạo mô hình giọng nói đầu cuối.

Có thể hình dung rằng dưới tác động kỳ diệu của GPT-4o, việc hẹn hò bằng AI, cố vấn tâm lý bằng AI và các hoạt động khác đòi hỏi sự tương tác cảm xúc mạnh mẽ sẽ sớm trở thành đại dương xanh.

4. Cuộc hành trình kỳ diệu vừa mới bắt đầu và khả năng đa phương thức thực sự có thể còn hơn thế nữa.

Nhận dạng và thích ứng cảm xúc có thể là một khả năng rất mạnh mẽ mà GPT-4o đã nổi lên như một mô hình đa phương thức thống nhất. Nhưng tiềm năng của nó không dừng lại ở đó. Như Greg Brockman đã nói trên Twitter, GPT-4o có thể mở khóa các chức năng mới không giới hạn thông qua bất kỳ sự kết hợp nào giữa đầu ra âm thanh, văn bản và hình ảnh. Và OpneAI mới chỉ nhìn thấy một phần nhỏ trong những phát triển mới này.

Ngoài các chức năng được nêu bật trong chương trình phát sóng trực tiếp, trong tài liệu kỹ thuật của OpenAI, chúng tôi thấy rằng danh sách khả năng của GPT4-o còn bao gồm khả năng 3D, khả năng thơ ảnh và khả năng chuyển đổi ảnh hoạt hình.

1715653174290.png

Danh sách khám phá khả năng trong blog chính thức của OpenAI

Ví dụ: sự kỳ diệu của việc tạo mô hình 3D

1715653204688.png


Giống như Baudelaire và các nhà thơ theo chủ nghĩa hiện đại khác, hãy lấp đầy hình ảnh được quy định bằng thơ hoặc biểu tượng.

1715653237081.png



Khả năng của Nendoroid tiềm năng nhưng OpenAI lại chọn chuyển đổi avatar ngoài đời thực thành hình ảnh hoạt hình

1715653255321.png


Tất cả những điều này cho thấy GPT-4o có thể mang đến cho chúng ta nhiều điều bất ngờ hơn thế.

3. Những chi tiết nhỏ khác đáng chú ý

1. GPT-4o sử dụng trình mã thông báo mới, giúp cải thiện đáng kể hiệu quả mã hóa của nhiều ngôn ngữ khác nhau. Ví dụ: số lượng mã thông báo ở Gujarati đã giảm 4,4 lần, bao gồm 20 ngôn ngữ, chẳng hạn như tiếng Anh, tiếng Pháp, tiếng Đức và tiếng Bồ Đào Nha. ngôn ngữ ., tiếng Tây Ban Nha, v.v., bao gồm cả tiếng Trung Quốc.

2. An toàn và hạn chế của mô hình

Theo đánh giá bảo mật của OpenAI, GPT-4o được kiểm soát dưới mức trung bình về mặt bảo mật mạng và các khía cạnh rủi ro khác. Tuy nhiên, chế độ giọng nói của nó mang lại một số thách thức bảo mật mới và yêu cầu cải tiến lặp đi lặp lại liên tục. Hiện nay mở cửa cho công chúng là nhập văn bản và hình ảnh cũng như xuất văn bản. Đầu ra giọng nói sẽ bị giới hạn ở những âm thanh cài sẵn, đồng nghĩa với việc nhân bản giọng nói vẫn sẽ có những hạn chế nhất định. OpenAI sẽ chia sẻ nhiều chi tiết hơn trong tương lai.

3. Sam Altman lên mạng và "thừa nhận" rằng GPT-4o là chatbot I'm a good gpt2 được phát hành hai ngày trước.

1715653319134.png


4. Miễn phí, giảm giá, OpenAI cố gắng hết sức để cho bạn sử dụng sau vài tuần

Nó không phải là tương lai, nó có thể được sử dụng ngay lập tức. Khả năng văn bản và hình ảnh của GPT-4o sẽ bắt đầu được triển khai trong ChatGPT ngay hôm nay. GPT-4o có sẵn ở phiên bản miễn phí và cung cấp giới hạn tin nhắn lên tới 5 lần cho người dùng Plus. Trong những tuần tới, phiên bản mới của chế độ giọng nói với GPT-4o sẽ được ra mắt trong ChatGPT Plus.

Giờ đây, các nhà phát triển cũng có thể truy cập GPT-4o dưới dạng mô hình văn bản và hình ảnh thông qua API. So với GPT-4 Turbo, GPT-4o nhanh hơn gấp 2 lần, giá chỉ bằng một nửa và có giới hạn tốc độ cao hơn gấp 5 lần. OpenAI có kế hoạch triển khai hỗ trợ các khả năng âm thanh và video mới của GPT-4o cho một nhóm nhỏ đối tác đáng tin cậy trong API trong những tuần tới.

So sánh với GPT4-turbo:
GPT-4o
Đầu vào: 5,00 USD / 1 triệu token
Đầu ra: $15,00 / 1 triệu token
GPT4-turbo:
Đầu vào: $10,00 / 1 triệu token
Đầu ra: $30,00 / 1 triệu token #GPT4otoàntri
 


Đăng nhập một lần thảo luận tẹt ga
Top