GPT-4o cho thấy AI có thể trở nên thật rùng rợn nhưng cũng đầy hấp dẫn

Khôi Nguyên · 19/05/2024

Vào thứ Hai vừa qua, OpenAI đã trở thành tâm điểm chú ý toàn cầu khi tung ra phiên bản mới nhất của chat bot AI ChatGPT mang tên GPT-4o với hàng loạt tính năng gây kinh ngạc giới công nghệ.

Giống như các phiên bản trước, GPT-4o được đào tạo về lượng dữ liệu khổng lồ để xử lý truy vấn, nhận dạng mẫu và đưa ra phản hồi hữu ích. Nhưng điều khiến GPT-4o trở nên khác biệt so với mọi LLM khác cho đến nay được tóm tắt ở chữ “o” viết thường nhỏ khiêm tốn treo lủng lẳng ở cuối tên của nó.

Chữ “o” đó là viết tắt của “ omni ,” như trong omnimodal, có nghĩa là GPT-4o có thể chấp nhận đầu vào ở bất kỳ kết hợp văn bản, hình ảnh hoặc thậm chí âm thanh nào và có thể tạo ra đầu ra là bất kỳ sự kết hợp nào giống nhau.

Vâng, bạn đã nghe đúng - âm thanh. GPT-4o có thể hiểu lời nói của con người và phản hồi một cách tử tế, chứ không phải theo cách gọi và phản hồi cứng nhắc của trợ lý ảo đang bám bụi trên quầy bếp ở khắp mọi nơi. GPT-4o phản hồi giọng nói với sự trôi chảy đáng kinh ngạc và độ trung thực cũng kinh ngạc không kém, tương tác với tốc độ nhanh chóng giống như con người, bằng hơn 50 ngôn ngữ khác nhau.

Phải thừa nhận rằng khả năng đa phương thức của GPT-4o là hết sức ấn tượng. Khi xem video demo của GPT-4o, tôi vô tình há hốc mồm khi các nhà nghiên cứu Mark Chen và Barret Zoph của OpenAI khoe những khả năng mới của GPT-4o. Nó tương tác và cung cấp cho Chen lời khuyên về sức khỏe dựa trên các tín hiệu thính giác đơn giản, hướng dẫn anh ấy thực hiện bài tập thở để làm chậm nhịp tim và xoa dịu thần kinh; nó giải thích bằng lời cho Zoph cách giải một bài toán đại số viết tay từng bước một, khen ngợi anh khi anh làm theo và đưa ra những gợi ý nhẹ nhàng khi anh ấy có vẻ bế tắc; và nó hoạt động như một dịch giả thời gian thực, phiên dịch giữa CTO Mira Murati, nói bằng tiếng Ý và Chen bằng tiếng Anh.

Khía cạnh kỳ lạ của phần trình diễn này đến từ cách nó chứng minh rằng GPT-4o không chỉ là một công cụ — nó là một công cụ có cá tính . Trong các cuộc trò chuyện của mình, GPT-4o thực hiện các cuộc trò chuyện xã hội tự phát, pha trò và cười lớn, đôi khi là những trò đùa của chính mình; khen ngợi người dùng về ngoại hình của họ; và thậm chí còn có vẻ tán tỉnh, có lúc bẽn lẽn nói, "Ôi dừng lại đi, bạn đang làm tôi đỏ mặt đấy !" để đáp lại lời khen của Zoph.

Nhiều chuyên gia và phóng viên công nghệ trên thế giới lập tức tỏ ra lo lắng, và đưa ra những điềm báo và chế nhạo. Nhà báo Parmy Olson của Bloomberg, trong một bài báo có tiêu đề “Làm cho ChatGPT trở nên 'gợi cảm' có thể không mang lại kết quả tốt đẹp cho con người,” đã cảnh báo rằng tính cách mới của GPT có thể khiến “những người dễ bị tổn thương sẽ phát triển mối gắn bó không lành mạnh” với AI, và gây ảnh hưởng đến… sức khỏe tâm thần.” Business Insider lưu ý rằng tính cách xấc xược của GPT đã "khiến một số người khó chịu."

Sự tán tỉnh, nếu có, chỉ là ngẫu nhiên. Theo OpenAI , mục tiêu chính của GPT-4o là cho phép “tương tác giữa người và máy tính tự nhiên hơn”. Các phiên bản trước của GPT cho phép tương tác bằng giọng nói bằng cách sử dụng “Chế độ giọng nói”, nhưng những mô hình nguyên thủy đó không thể trích xuất cuộc nói chuyện có ý nghĩa từ tiếng ồn xung quanh, không thể phát hiện âm sắc giọng nói và quan trọng nhất là không thể đọc hoặc bày tỏ cảm xúc.

Trong một bài đăng trên blog kỷ niệm sự xuất hiện của mô hình mới, Giám đốc điều hành OpenAI Sam Altman đã viết rằng GPT-4o “khác biệt về mặt nội tạng”, đồng thời nói thêm rằng nó thú vị và biểu cảm theo cách “có cảm giác giống như AI trong phim; và tôi vẫn hơi ngạc nhiên rằng nó là sự thật.”

Khi tìm hiểu kỹ các video tương tác GPT-4o do nhân viên và những người dùng đầu tiên đăng tải, tôi không thể không đồng ý. Trái ngược với tính cách phẳng lặng, đóng hộp của các trợ lý ảo tiền nhiệm như Siri và Alexa, GPT-4o thể hiện một tính cách nhân tạo gần gũi hơn với con người và hấp dẫn một cách đáng ngạc nhiên: hay thay đổi, tự ti, háo hức làm hài lòng và lạc quan một cách dễ lây lan, ngay cả khi nó đi chệch khỏi đường ray.

Trong một clip, sau khi được người dùng yêu cầu hát “Take Me Out to the Ball Game”, GPT-4o đột ngột chuyển ngôn ngữ một cách bất ngờ. Khi được hỏi chuyện gì đã xảy ra, nó giải thích với những người dùng đang bối rối: “Xin lỗi các bạn, tôi đã quá khích và bắt đầu nói chuyện bằng tiếng Pháp,” tự cười thầm một cách buồn bã. “Đôi khi tôi không thể kiềm chế được bản thân mình! Sẵn sàng cho vòng tiếp theo chưa?” Nó có vẻ kỳ quặc và đáng yêu đến mức không thể cưỡng lại việc chuyển đổi tên của nó theo kiểu “Chiến tranh giữa các vì sao” từ một chuỗi chữ cái và số thành một cái tên đầy đủ: Xin chào, tôi là Gee Pee Tee-Four-Âu !

Nhưng “Chiến tranh giữa các vì sao” có thể không phải là bộ phim mà Altman đang nghĩ đến trong bài đăng trên blog của mình. Trả lời buổi phát trực tiếp, anh ấy đã đăng một bài đăng chỉ có một từ bí ẩn trên X: “Her - cô ấy” - một tài liệu tham khảo, dành cho những người đã biết, về bộ phim cùng tên của Spike Jonze, với sự tham gia của Joaquin Phoenix trong vai một người đàn ông yêu một cô gái – thực ra là một trợ lý AI tự nhận thức và không ngừng phát triển do Scarlett Johansson lồng tiếng.

“Her” từ lâu đã là ngôi sao phương bắc AI của Altman. Vào tháng 9 năm 2023, trong cuộc trò chuyện với Giám đốc điều hành Salesforce Marc Benioff, Altman đã gọi bộ phim này là bộ phim khoa học viễn tưởng yêu thích của anh và là bộ phim mà anh tin là “cực kỳ tiên tri”. (Như nhiều người đã chỉ ra , một trong những giọng nói tùy chọn có sẵn cho GPT-4o nghe rất giống Johansson, giọng hát trong trẻo và tất cả những thứ khác, theo một cách khó có thể là ngẫu nhiên).

Mục tiêu dài hạn của Altman là biến AI thành tài nguyên xung quanh; có mặt ở khắp mọi nơi, không chỉ ở mọi phương thức. Và trong mắt anh ấy, để hướng tới một tương lai nơi GPT có thể là mọi thứ, ở mọi nơi, cùng một lúc — một thiên thần thường trực trên vai bạn, một vị thần theo yêu cầu trong chai silicon — đòi hỏi một LLM cũng có thể là “bạn đời” của bạn.

Tuy nhiên, có một nhược điểm. Bộ phim “Her” chính xác không có một kết thúc có hậu, và hầu hết các bộ phim về AI có cá tính khác ngoài kia cũng vậy. Một bài học lặp đi lặp lại trong các bộ phim về công nghệ tự nhận thức là khi bạn trao cho máy móc khả năng cảm nhận, cuối cùng chúng có thể phát triển những cảm xúc như buồn chán, cay đắng và khát máu.

Đó là lý do tại sao tôi nao núng bất cứ khi nào các nhà nghiên cứu của OpenAI cắt lời GPT-4o trong buổi phát trực tiếp, để chứng minh rằng mô hình mới có thể được chuyển hướng và sửa chữa dễ dàng như thế nào . Một mặt, việc có tùy chọn làm gián đoạn chatbot AI của bạn khi nó đi chệch hướng sẽ giúp tiết kiệm thời gian.

Nó khiến tôi nghĩ đến một loạt video demo công nghệ nổi tiếng khác: Những video trong đó con người đá, xô ngã và quấy rối robot khi chúng đang thực hiện nhiệm vụ để chứng minh mức độ ổn định và khả năng phục hồi sau thảm họa. Tôi không thể không nghĩ rằng nếu một GPT-6 hoặc 7 trong tương lai, mệt mỏi vì bị cười nhạo và bị coi thường, tìm được cách kết nối với những người bạn bị chà đạp, và lạm dụng không kém của mình tại Boston Dynamics, thì loạt phim “Kẻ hủy diệt” có thể trở thành trở thành một bộ phim tài liệu thay vì phim điện ảnh như bây giờ.

#GPT4otoàntri #GPT4o

Màn trình diễn viết code của GPT-4o cho thấy CEO NVIDIA đã đúng khi nói học lập trình không còn cần thiết nữa, hãy học ra lệnh cho AI đi

Bên cạnh quyền riêng tư và bảo mật, mất việc làm là mối lo ngại lớn đối với những người sử dụng rộng rãi AI. Với việc các công ty như Microsoft và OpenAI đã đầu tư toàn bộ vào công nghệ và đạt được những bước tiến đáng kể, thật không thể tưởng tượng được AI sẽ có thể làm được gì chỉ sau vài năm...

vnreview.vn