Liệu Siri có trở thành một ChatGPT tiếp theo? Mọi ánh mắt đang đổ dồn vào sự kiện WWDC 2024 của Apple

Khôi Nguyên

Moderator
Trợ lý ảo của Apple, Siri, đã nỗ lực hết sức để bắt kịp các đối thủ cạnh tranh. Đây là cách Siri có thể phát triển trong một thế giới với các chatbot hào nhoáng được hỗ trợ bởi AI.

20230904-145524_jpg_75.jpg

Chúng ta đang sống trong một thế giới nơi trợ lý ảo có thể tham gia vào một cuộc trò chuyện liền mạch (và thậm chí là tán tỉnh ) với mọi người. Tuy nhiên, trợ lý ảo Siri của Apple lại gặp khó khăn với một số vấn đề cơ bản.

Ví dụ: tôi đã hỏi Siri khi Thế vận hội diễn ra năm nay và nó nhanh chóng đưa ra ngày chính xác cho các trận đấu mùa hè. Khi tôi tiếp tục với câu "Thêm nó vào lịch của tôi", trợ lý ảo đã trả lời một cách không hoàn hảo bằng "Tôi nên gọi nó là gì?" Câu trả lời cho câu hỏi đó sẽ hiển nhiên đối với con người chúng ta. Ngay cả khi tôi trả lời: "Thế vận hội", Siri lại hỏi tiếp: "Tôi nên lên lịch vào lúc nào?"

Siri có xu hướng chùn bước vì nó thiếu nhận thức về ngữ cảnh, điều này hạn chế khả năng theo dõi cuộc trò chuyện như con người. Điều đó có thể thay đổi sớm nhất là vào ngày 10 tháng 6, ngày đầu tiên của Hội nghị các nhà phát triển toàn cầu hàng năm của Apple (WWDC 2024). Nhà sản xuất iPhone dự kiến sẽ tiết lộ các bản cập nhật lớn cho hệ điều hành di động sắp ra mắt của mình, có thể được gọi là iOS 18, với những thay đổi đáng kể được cho là dành cho Siri.

Trợ lý ảo của Apple đã tạo nên làn sóng khi ra mắt cùng với iPhone 4S vào năm 2011. Lần đầu tiên, mọi người có thể nói chuyện với điện thoại của mình và nhận được phản hồi giống như con người. Một số điện thoại Android cung cấp tính năng tìm kiếm bằng giọng nói và tác vụ bằng giọng nói cơ bản trước Siri, nhưng chúng dựa trên lệnh nhiều hơn và được nhiều người coi là kém trực quan hơn.

Do đó, Siri đã thể hiện một bước nhảy vọt trong tương tác dựa trên giọng nói và đặt nền móng cho các trợ lý giọng nói tiếp theo như Alexa của Amazon, Trợ lý Google và thậm chí cả ChatGPT của OpenAI.

Siri phải tiến hóa bởi các trợ lý đa phương thức đang xuất hiện


Mặc dù Siri đã gây ấn tượng với mọi người bằng trải nghiệm dựa trên giọng nói vào năm 2011, nhưng một số người cho rằng khả năng của nó vẫn tụt hậu so với các đối thủ. Alexa và Google Assistant rất giỏi trong việc hiểu và trả lời các câu hỏi và cả hai đều đã mở rộng sang lĩnh vực nhà thông minh theo những cách khác với Siri. Có vẻ như Siri vẫn chưa phát huy hết tiềm năng của mình - các đối thủ của nó cũng nhận được những lời chỉ trích tương tự.

Vào năm 2024, Siri cũng phải đối mặt với một bối cảnh cạnh tranh khác biệt đáng kể đã được tăng cường nhờ AI sáng tạo. Trong những tuần gần đây, OpenAI, Google và Microsoft đã tiết lộ một làn sóng trợ lý ảo tương lai mới với khả năng đa phương thức, gây ra mối đe dọa cạnh tranh cho Siri. Theo giáo sư Scott Galloway của NYU trong một tập gần đây trên podcast của ông, những bản cập nhật gần đây này đã sẵn sàng trở thành 'kẻ hủy diệt Alexa và Siri'.

screenshot-2024-05-14-at-10-27-27am_png_75.jpg

Đầu tháng này, OpenAI đã tiết lộ mẫu AI mới nhất của mình là GPT-4o. Thông báo nhấn mạnh trợ lý ảo đã tiến xa như thế nào. Trong bản demo ở San Francisco, OpenAI đã cho thấy cách GPT-4o có thể tổ chức các cuộc trò chuyện hai chiều theo những cách giống con người hơn, hoàn chỉnh với khả năng thay đổi giọng điệu, đưa ra nhận xét mỉa mai, nói thì thầm và thậm chí là tán tỉnh. Nó nhanh chóng được so sánh với nhân vật của Scarlett Johansson trong bộ phim truyền hình Hollywood năm 2013 Her, trong đó một nhà văn cô đơn phải lòng cô trợ lý ảo AI của mình, do Johansson lồng tiếng. Sau bản demo của GPT-4o, Scarlett Johansson đã cáo buộc OpenAI đã xây dựng một giọng nói trợ lý ảo nghe "giống một cách kỳ lạ" với giọng nói của cô mà không có sự cho phép.

Cuộc tranh cãi dường như đã làm nổi bật một số tính năng của GPT4o như khả năng đa phương thức vốn có của nó, có nghĩa là mô hình AI có thể hiểu và phản hồi các đầu vào ngoài văn bản, bao gồm hình ảnh, ngôn ngữ nói và thậm chí cả video. Trong thực tế, GPT-4o có thể trò chuyện với bạn về bức ảnh bạn hiển thị, mô tả những gì đang xảy ra trong một video clip và thảo luận về một bài báo.

Một ngày sau buổi xem trước OpenAI, Google đã trình diễn bản demo đa phương thức của riêng mình, công bố Project Astra - một nguyên mẫu mà công ty đã quảng cáo là "tương lai của trợ lý AI". Trong video demo, Google đã trình bày chi tiết cách người dùng có thể hiển thị môi trường xung quanh cho trợ lý ảo của Google bằng cách sử dụng máy ảnh của điện thoại thông minh và sau đó tiến hành thảo luận về các đối tượng trong môi trường của họ. Ví dụ: người tương tác với Astra tại nơi được cho là văn phòng của Google ở London đã yêu cầu trợ lý ảo của Google xác định một vật thể phát ra âm thanh trong phòng. Đáp lại, Astra chỉ vào chiếc loa đang đặt trên bàn.

Nguyên mẫu Astra của Google không chỉ có thể hiểu được môi trường xung quanh mà còn có thể ghi nhớ các chi tiết về nó. Khi người kể chuyện hỏi họ để kính ở đâu, Astra có thể cho người dùng biết họ được nhìn thấy lần cuối ở đâu bằng cách trả lời: "Ở góc bàn, cạnh một quả táo đỏ."

Cuộc đua tạo ra trợ lý ảo hào nhoáng không kết thúc với OpenAI và Google. Theo tài liệu của nhà phát triển công ty AI của Elon Musk, xAI, đang đạt được tiến bộ trong việc biến chatbot Grok của mình thành một công cụ có khả năng đa phương thức . Vào tháng 5, Amazon cho biết họ đang nỗ lực cung cấp cho Alexa, trợ lý ảo đã có tuổi đời hàng chục năm, một bản nâng cấp AI mang tính tổng thể.

Siri sẽ trở thành trợ lý AI đa phương thức?


Các chatbot đàm thoại đa phương thức hiện đại diện cho công nghệ trợ lý AI tiên tiến, có khả năng mang đến cánh cửa mới về cách chúng ta điều hướng điện thoại và các thiết bị khác trong tương lai.

Apple chưa có trợ lý kỹ thuật số với khả năng đa phương thức để tự thể hiện, khiến công ty hiện đang bị tụt lại phía sau. Nhà sản xuất iPhone đã công bố nghiên cứu về chủ đề này. Vào tháng 10, hãng đã giới thiệu Ferret, một mô hình AI đa phương thức có thể hiểu những gì đang xảy ra trên màn hình điện thoại của bạn và thực hiện một loạt nhiệm vụ dựa trên những gì nó nhìn thấy. Trong báo cáo, các nhà nghiên cứu khám phá cách nó có thể xác định và báo cáo về những gì bạn đang xem và giúp bạn duyệt qua các ứng dụng, cùng với các khả năng khác. Nghiên cứu chỉ ra một tương lai có thể xảy ra trong đó cách chúng ta sử dụng iPhone và các thiết bị khác sẽ thay đổi hoàn toàn.

Apple đang khám phá chức năng của trợ lý AI đa phương thức có tên Ferret. Trong ví dụ này, Ferret được hiển thị là giúp người dùng điều hướng ứng dụng bằng các tác vụ cơ bản và nâng cao, chẳng hạn như mô tả chi tiết về màn hình.

screenshot-2024-05-30-at-5-16-33pm_png_75.jpg

Điểm nổi bật của Apple là về quyền riêng tư, nhà sản xuất iPhone từ lâu đã coi quyền riêng tư là giá trị cốt lõi khi thiết kế sản phẩm và dịch vụ, đồng thời họ sẽ quảng cáo phiên bản mới của Siri như một giải pháp thay thế riêng tư hơn so với các đối thủ cạnh tranh. Theo báo cáo của Wall Street Journal , Apple dự kiến sẽ đạt được điều này bằng cách xử lý các yêu cầu của Siri trên thiết bị và chuyển sang đám mây để thực hiện các tác vụ phức tạp hơn, nhưng những yêu cầu đó sẽ được xử lý trong các trung tâm dữ liệu bằng chip do Apple sản xuất.

Đối với chatbot, Apple sắp hoàn tất thỏa thuận với OpenAI để có khả năng đưa ChatGPT lên iPhone, theo Bloomberg, một dấu hiệu có thể cho thấy Siri sẽ không cạnh tranh trực tiếp với ChatGPT hoặc Gemini. thay vì làm những việc như viết thơ, Siri sẽ tập trung vào những nhiệm vụ mà nó có thể làm và hoàn thành tốt hơn những việc đó.

Siri sẽ thay đổi như thế nào? Mọi ánh mắt đổ dồn về WWDC 2024 của Apple


Apple đã cố tình tiếp cận thị trường một cách chậm chạp, Táo Khuyết vẫn thường đợi cho các công nghệ mới nổi thực sự trưởng thành sau đó mới tham gia vào cuộc đua. Chiến lược này thường có hiệu quả nhưng không phải lúc nào cũng vậy. Ví dụ, iPad không phải là máy tính bảng đầu tiên, nhưng đối với nhiều người, kể cả các biên tập viên của CNET, nó là máy tính bảng tốt nhất. Mặt khác, loa thông minh HomePod của Apple chỉ được tung ra thị trường sau Amazon Echo và Google Home vài năm nhưng chưa bao giờ đuổi kịp thị phần của đối thủ. Một ví dụ gần đây hơn về mặt phần cứng là điện thoại màn hình gập. Mọi đối thủ lớn từ Google, Samsung, Honor, Huawei và thậm chí cả những công ty ít được biết đến hơn như Phantom đều đang đánh bại Apple.

scores_jpg_75.jpg

Avi Greengart, nhà phân tích chính tại Techsponcial cho biết, trong lịch sử, Apple đã áp dụng phương pháp cập nhật Siri theo định kỳ.

Greengart cho biết: “Apple luôn lập trình về Siri nhiều hơn Amazon, Google hay thậm chí Samsung”. Apple dường như đang bổ sung nhiều kiến thức cho Siri – thể thao năm này, giải trí năm sau.”

Với Siri, nhiều người cho rằng Apple sẽ chơi trò đuổi bắt thay vì đột phá trong năm nay. Tuy nhiên, Siri có thể sẽ là trọng tâm chính của hệ điều hành sắp tới của Apple, iOS 18, được đồn đại là sẽ mang đến các tính năng AI mới. Apple dự kiến sẽ tích hợp AI sâu hơn vào các ứng dụng và tính năng hiện có bao gồm Ghi chú, biểu tượng cảm xúc, chỉnh sửa ảnh, tin nhắn và email.

Đối với Siri, nó có xu hướng phát triển thành một trợ lý kỹ thuật số thông minh hơn trong năm nay. Theo ấn bản tháng 10 của bản tin Bloomberg PowerOn của Mark Gurman, Apple được cho là đang đào tạo trợ lý giọng nói của mình trên các mô hình ngôn ngữ lớn để cải thiện khả năng trả lời các câu hỏi với độ chính xác và tinh tế hơn.

Việc tích hợp các mô hình ngôn ngữ lớn, cũng như công nghệ đằng sau ChatGPT, sẵn sàng biến Siri thành một trợ lý ảo mạnh mẽ và nhận biết ngữ cảnh hơn. Nó sẽ cho phép Siri hiểu được những câu hỏi phức tạp và nhiều sắc thái hơn nhưng cũng có thể đưa ra những câu trả lời chính xác. năm nay dòng iPhone 16 cũng được cho là sẽ có bộ nhớ lớn hơn để hỗ trợ các khả năng mới của Siri .

Greengart nói với CNET: “Tôi hy vọng rằng Apple có thể sử dụng AI tổng hợp để mang lại cho Siri khả năng cảm thấy giống như một trợ lý chu đáo, hiểu những gì bạn đang cố gắng hỏi nhưng sử dụng các hệ thống dựa trên dữ liệu cho các câu trả lời bị ràng buộc về dữ liệu”.

Siri cũng có thể cải thiện khả năng thực hiện các tác vụ nhiều bước. Một báo cáo tháng 9 của Information đã nêu chi tiết cách Siri có thể phản hồi các lệnh thoại đơn giản cho các tác vụ phức tạp hơn, chẳng hạn như chuyển một bộ ảnh thành ảnh GIF và sau đó gửi chúng đến một trong các liên hệ của bạn. Đó sẽ là một bước tiến đáng kể về khả năng của Siri.

Greengart cho biết: “Apple cũng xác định cách các ứng dụng iPhone hoạt động, do đó, nó có khả năng cho phép Siri hoạt động trên các ứng dụng với sự cho phép của nhà phát triển – có khả năng mở ra những khả năng mới để Siri thông minh hơn.

#WWDC2024
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top