Tại sao điện thoại AI thực thụ vẫn chưa phổ biến?

myle.vnreview · 54 phút

Năm 2007, Steve Jobs đã nói trong một cuộc họp báo rằng iPhone là "một chiếc điện thoại mang tính cách mạng."

Không có gì sai với tuyên bố đó. Tuy nhiên, nếu Steve Jobs còn sống đến ngày nay, ông có lẽ sẽ nghĩ rằng cuộc cách mạng này vẫn chưa đủ triệt để.

Nhìn bề ngoài, sự phát triển của điện thoại di động là "công nghệ mang lại những thay đổi về hệ sinh thái, và những thay đổi về hệ sinh thái dẫn đến những thay đổi trong hành vi của người tiêu dùng." Nhưng nếu chúng ta nhìn xa hơn một chút, có một logic sâu sắc hơn đằng sau điều này: mối quan hệ giữa con người và điện thoại di động đã trải qua một sự thay đổi về chất, và ranh giới giữa con người và máy móc đang ngày càng mờ đi.

Trong thời đại Nokia, điện thoại di động là công cụ giao tiếp. Bạn dùng chúng để gọi điện và nhắn tin, và sự hiện diện của chúng kết thúc ngay khi bạn chủ động cầm chúng lên.

Sau khi iPhone xuất hiện, điện thoại di động trở thành "cơ quan ngoại vi." Chúng mở rộng bộ nhớ của bạn (ghi chú, album ảnh), nhận thức của bạn (bản đồ, tìm kiếm) và đời sống xã hội của bạn (WeChat, Weibo). Ngày nay, gần như không thể ra ngoài mà không mang theo điện thoại, và những ngày không có điện thoại dường như dài vô tận - nó đã trở thành "cơ quan dựa trên silicon" của chúng ta.

Giờ đây, điện thoại AI hướng đến bước nhảy vọt thứ ba: từ một "cơ quan bên ngoài" trở thành "bản ngã thứ hai" của bạn - điện thoại có khả năng tự phán đoán, và bạn chỉ cần đưa ra một chỉ dẫn mơ hồ, phần còn lại sẽ được xử lý. Đừng thấy điều này lạ. Kể từ khi trí tuệ nhân tạo xuất hiện, đây là xu hướng chung.

Điện thoại thế hệ đầu tiên chỉ tốn tiền của bạn. Điện thoại thế hệ thứ hai không chỉ tốn tiền mà còn chiếm dụng sự chú ý của bạn. Điện thoại thế hệ thứ ba không chỉ tốn tiền và chiếm dụng sự chú ý của bạn mà còn lấy đi một phần quyền kiểm soát của bạn.

Sự khác biệt cốt yếu giữa "bản ngã thứ hai" thế hệ thứ ba và "cơ quan bên ngoài" thế hệ thứ hai là "cơ quan bên ngoài" chờ đợi chỉ dẫn của bạn, trong khi "bản ngã thứ hai" suy nghĩ thay bạn.

Tại sao chúng ta không thể chỉ dựa vào việc nâng cấp phần mềm?

Một câu hỏi hợp lý là: Thay vì phát triển điện thoại mới, tại sao không cập nhật AI cho các điện thoại cũ để trực tiếp đạt được các chức năng này?

Bởi vì trải nghiệm AI thực sự đòi hỏi ba điều phải xảy ra đồng thời, và việc nâng cấp phần mềm không thể cung cấp được điều này.

Điều đầu tiên là sức mạnh tính toán ở phía thiết bị biên.

Vì chúng ta đang tạo ra điện thoại AI, các mô hình lớn phải được triển khai cục bộ. Hơn nữa, nó không chỉ là một mô hình văn bản; nó phải có khả năng hiểu và suy luận về giọng nói, hình ảnh, văn bản và video, và khả năng này không thể phụ thuộc vào mạng - nghĩa là, nó có thể xử lý giọng nói, hình ảnh và văn bản trong thời gian thực mà không cần kết nối internet và thực hiện suy luận đa phương thức.

Để đạt được khả năng như vậy, cần có một NPU (Bộ xử lý thần kinh) chuyên dụng.

Vậy, NPU cần thiết để chạy một mô hình lớn có thể sử dụng được ở phía thiết bị biên cần có kích thước bao nhiêu?

Câu trả lời là: Không có giới hạn trên.

Bộ xử lý thần kinh 16 lõi của Apple A18 có thể thực hiện 35 nghìn tỷ phép toán mỗi giây. Sức mạnh tính toán NPU của MediaTek Dimensity 9400 gấp khoảng hai lần. Đây là hiệu năng của các chip điện thoại cao cấp mà chúng ta có thể mua được hiện nay.

Chỉ ba hoặc bốn năm trước, sức mạnh tính toán NPU của Snapdragon 8 thế hệ 1 chỉ bằng hơn một phần mười so với các chip cao cấp hiện nay. NPU của Snapdragon 8 thế hệ 2 nhanh hơn gấp bốn lần so với Snapdragon 8 thế hệ 1, và Snapdragon 8 thế hệ 3 nhanh hơn gần gấp đôi trên cơ sở này.

Đây là lý do tại sao điện thoại AI phải bắt đầu lại từ đầu - thiết kế NPU của các chip cũ không được chuẩn bị cho các tác vụ ở cấp độ "suy luận đa phương thức, xử lý dữ liệu trên thiết bị biên", giống như bạn không thể làm cho một chiếc xe đạp đạt được tốc độ của một chiếc xe đua F1.

Thứ hai là băng thông bộ nhớ.

Ở đây, chúng ta cần giải thích một nguyên tắc mà nhiều người bỏ qua: Khi một mô hình lớn đang suy luận, nút thắt cổ chai thực sự thường không phải là việc tính toán mà là việc truyền dữ liệu. Mỗi khi mô hình tạo ra một ký tự, nó phải truyền hàng tỷ tham số từ bộ nhớ đến bộ xử lý - quá trình này được gọi là đọc và ghi bộ nhớ đệm KV.

Cho dù NPU mạnh đến đâu, nếu bộ nhớ không theo kịp, nó chỉ có thể ở trạng thái chờ. Lấy một mô hình lớn đơn giản với 7 tỷ tham số (7B) làm ví dụ, tốc độ suy luận chấp nhận được chỉ khoảng 19 ký tự mỗi giây, và điều này đã đòi hỏi chuẩn bộ nhớ mới nhất. Hai hoặc ba năm trước, tốc độ bộ nhớ của các điện thoại cao cấp phổ biến chỉ bằng một nửa hoặc thậm chí thấp hơn so với hiện nay. Nếu bạn yêu cầu nó nói điều gì đó, nó sẽ giống như Xie Ruolin (Tạ Nhược Lâm – nhân vật phản diện trong phim nổi tiếng của Trung Quốc “Tiềm Phục”), chỉ nói được từng từ một.

Đây là hậu quả của việc thiếu băng thông bộ nhớ: Mô hình lớn ở phía biên hoặc không thể chạy hoặc quá chậm để có giá trị thực tiễn.

Thứ ba, và quan trọng nhất: kiến trúc quyền hạn của hệ điều hành.

Thiết kế hệ thống của điện thoại thông minh truyền thống giới hạn mỗi ứng dụng trong môi trường riêng của nó, và chúng không thể tự do đọc hoặc ghi dữ liệu của nhau. Khi cần truy cập dữ liệu, chúng phải xin phép người dùng.

Thiết kế này bảo vệ an ninh nhưng về cơ bản ngăn chặn khả năng AI "kết nối mọi thứ".

Điều này là bởi vì một trợ lý AI thực sự cần phải truy cập lịch, đọc email, sử dụng bản đồ và gửi tin nhắn. Nó đòi hỏi phải thiết kế lại mô hình quyền hạn ở cấp độ hệ điều hành. Là bản sao của bạn, nó phải có quyền của bạn, và điều này không thể giải quyết chỉ bằng cách vá lỗi. Giống như một vị hoàng đế thời xưa không thể chỉ ban hành chiếu chỉ để phong một vị quan làm sứ thần. Ông ta phải ban cho vị quan đó một danh hiệu và cho phép vị quan đó thành lập văn phòng và có nhân viên riêng.

Do đó, việc phát triển điện thoại AI là một dự án có hệ thống, phối hợp cả phần mềm và phần cứng. Mỗi lớp, bao gồm chip, bộ nhớ, hệ điều hành và kiểu máy, đều cần được thiết kế lại để khái niệm "bản ngã thứ hai" khả thi về mặt kỹ thuật. Nếu không, nó chỉ là một mô hình AI lớn với các chức năng tương đối toàn diện và không thể được gọi là điện thoại AI.

Trở ngại lớn nhất không phải là công nghệ mà là hệ sinh thái

Những thách thức kỹ thuật có thể được giải quyết bằng tiền bạc và thời gian, vì vậy chúng không phải là trở ngại thực sự.

Vấn đề thực sự khó khăn nằm ở hệ sinh thái kinh doanh.

Cuối năm 2024, ByteDance đã hợp tác với ZTE để ra mắt điện thoại Doubao (Nubia M153). Giải pháp kỹ thuật của nó khá đột phá: AI trực tiếp nhận diện nội dung màn hình thông qua GUI Agent và mô phỏng các thao tác thủ công, vượt qua những hạn chế của API truyền thống. Về lý thuyết, nó có thể đặt đồ ăn mang về, gửi tin nhắn và đặt vé máy bay cho bạn, vượt qua ranh giới của bất kỳ ứng dụng nào. Nguyên mẫu kỹ thuật đã bán hết ngay lập tức khi vừa ra mắt và được bán lại với giá gấp mười lần giá gốc.

Sau đó, không có gì xảy ra nữa. Chiếc điện thoại này gần như bị tẩy chay hàng loạt bởi các nền tảng từ WeChat đến Taobao và nhiều ngân hàng khác nhau.

Lý do rất đơn giản. Một chiếc điện thoại như vậy chạm đến lợi ích cốt lõi nhất của hầu hết các nền tảng Internet - kiếm tiền từ dữ liệu.

Mỗi siêu ứng dụng về cơ bản là một cỗ máy thu thập dữ liệu. WeChat biết bạn trò chuyện với ai mỗi ngày, Taobao biết bạn đã mua gì tháng trước, Meituan biết bạn sống ở khu dân cư nào, và Douyin biết bạn thích xem nội dung gì... Chỉ cần các nền tảng này có dữ liệu trong tay, họ có thể tạo hồ sơ của bạn và đẩy quảng cáo chính xác đến bạn, trực tiếp nâng cao hiệu quả kiếm tiền. Ví dụ, những thứ được đẩy đến tôi trên Taobao và những người bán được đề xuất cho tôi trên Meituan hoàn toàn khác với những thứ hiển thị trên điện thoại của vợ tôi. Trên cùng một nền tảng, các "thuế lưu lượng" khác nhau được tính theo các hồ sơ người dùng khác nhau, và dữ liệu được kiếm tiền từng lớp theo cách này.

Giờ đây, nếu trợ lý AI trên điện thoại có thể tự do truy cập dữ liệu này, tình hình sẽ hoàn toàn khác.

Bởi vì AI có những ý tưởng riêng và sẽ không tính toán theo thuật toán của từng nền tảng. Hôm nay là thứ Năm, và nền tảng có thể đề xuất KFC cho bạn dựa trên thuật toán, nhưng AI có thể đề xuất những bữa ăn nhẹ như salad vì nó vừa phân tích báo cáo khám sức khỏe của bạn.

Bạn có hiểu tại sao các ông lớn lại cùng nhau tẩy chay điện thoại AI không?

Trên điện thoại AI, các đề xuất khác nhau xuất hiện trong giao diện AI của điện thoại, chứ không phải trong ứng dụng Meituan. Người dùng có thể nhận được đề xuất mà không cần mở Meituan, và mối quan hệ giữa công cụ đề xuất của Meituan và người dùng đã bị bỏ qua một cách âm thầm. Meituan vẫn giao đồ ăn, nhưng nó không có quyền quyết định loại đồ ăn nào sẽ được giao.

Tóm lại, trên điện thoại AI, những gì được đề xuất và những gì không được đề xuất được quyết định bởi AI trên điện thoại của bạn, chứ không phải bởi thuật toán của các ông lớn như Taobao, Meituan và Douyin.

Đây là một vấn đề lớn. Bởi vì theo cách này, dữ liệu người dùng mà các nền tảng đã dày công tích lũy trong nhiều năm sẽ trở thành nguồn cung cấp cho AI chỉ sau một đêm. Nơi người dùng đưa ra quyết định cũng sẽ chuyển từ trang sản phẩm sang giao diện AI, và các nền tảng sẽ bị bỏ qua trực tiếp.

Vậy, vào thời điểm này, liệu bạn có còn đầu tư tiền vào các nền tảng lớn này để "đấu giá xếp hạng" nữa không? Trước đây, vì các nền tảng này quyết định ai sẽ được đề xuất cho người tiêu dùng trên trang chủ, nên mọi người đều sẵn sàng đầu tư vào lưu lượng truy cập, tham gia trò chơi đấu giá xếp hạng và chi tiền để được lên trang chủ.

Nhưng trên điện thoại AI, chính AI trên điện thoại mới là thứ đưa ra quyết định đề xuất, chứ không phải nền tảng của bạn. Vậy tại sao tôi không đầu tư tiền vào nhà sản xuất điện thoại AI và để AI nói hộ tôi?

Điều này tương đương với việc cắt đứt nguồn doanh thu lưu lượng truy cập quan trọng của các nền tảng Internet truyền thống, vì vậy, tất nhiên, họ sẽ chống lại bạn.

Do đó, việc tẩy chay ứng dụng Doubao vào thời điểm đó là lựa chọn hợp lý duy nhất đối với các nền tảng vì đây là chiến lược triệt để, cần phải chấm dứt cả về mặt cảm xúc lẫn lý trí.

Làm thế nào để có những điện thoại AI thực sự?

Vì các nhà sản xuất ứng dụng có nhiều mối quan ngại khác nhau, cuối cùng trở ngại này sẽ được xử lý như thế nào dựa trên một số giải pháp.

Cách thứ nhất: các cơ quan quản lý buộc phải mở cửa thông qua các mệnh lệnh hành chính.

DMA của EU đã buộc Apple, Google, v.v. phải mở khả năng tương tác. Tại Trung Quốc, việc thúc đẩy kết nối nền tảng cũng đang được tiến hành. Năm 2021, các bộ phận liên quan đã yêu cầu WeChat và Taobao mở các liên kết bên ngoài, đó là một tín hiệu. Giờ đây, trong kỷ nguyên AI, kết nối dữ liệu sẽ mang lại hiệu quả cao hơn và tạo ra các sản phẩm mạnh mẽ hơn, đó là điều tất yếu.

Tuy nhiên, rõ ràng là giải pháp này đã bỏ qua quá nhiều lợi ích của các doanh nghiệp nền tảng Internet lớn.

Bạn biết đấy, "hàng rào dữ liệu" của các nền tảng không chỉ là công cụ độc quyền mà còn là lợi nhuận từ khoản đầu tư dài hạn của các doanh nghiệp lớn. Chuỗi quan hệ xã hội mà WeChat đã tích lũy trong hơn một thập kỷ và dữ liệu giao dịch được tạo ra bởi vô số người bán và người tiêu dùng trên Taobao đều là những tài sản quý giá của doanh nghiệp, thể hiện khoản đầu tư nghiên cứu và phát triển thực tế, chi phí vận hành và rủi ro mà họ phải gánh chịu, và đằng sau đó là công sức của hàng ngàn nhân viên kỹ thuật, ảnh hưởng đến việc làm và cuộc sống của hàng trăm ngàn người.

Nếu bị ép buộc phải mở, họ sẽ phải đối mặt với câu hỏi "tại sao" về mặt pháp luật, và trong kinh doanh, điều đó tương đương với việc tuyên bố rằng khoản đầu tư đó không có giá trị sinh lời. Một vấn đề thực tế hơn là chính quyền có thể yêu cầu mở các liên kết bên ngoài, nhưng rất khó để xác định chính xác ranh giới của "quyền truy cập dữ liệu AI". Các nền tảng hoàn toàn có thể cung cấp một giao diện tuân thủ về mặt hình thức nhưng bị hạn chế về mặt chức năng để đối phó với sự giám sát, và cách xử lý như vậy rõ ràng sẽ làm giảm trải nghiệm người dùng của điện thoại AI, điều này không đáng để đánh đổi.

Do đó, nếu bị ép buộc quảng bá, nó sẽ không chỉ kém hiệu quả mà còn tiềm ẩn nhiều rủi ro khó kiểm soát, và chi phí liên quan sẽ rất cao.

Cách thứ hai là hệ điều hành thay thế ứng dụng làm điểm truy cập mới.

So với việc "xâm nhập", cách này giống một cuộc tấn công bất ngờ, kiểu như một chiến dịch bí mật.

Điện thoại luôn cần một hệ điều hành, và hệ điều hành luôn có thể vận hành các ứng dụng. Vậy, liệu có khả năng chỉ cần hệ điều hành được tích hợp trí tuệ nhân tạo (AI), điện thoại có thể tự nhiên trở thành điện thoại AI?

Ngày nay, khi bạn mở một ứng dụng giao đồ ăn, mọi bước từ tìm kiếm, duyệt web, đề xuất đến đặt hàng đều diễn ra trong giao diện của ứng dụng, và nó nắm bắt đầy đủ quá trình ra quyết định và dữ liệu hành vi của bạn. Nhưng sau khi hệ điều hành tiếp quản điểm truy cập, bạn chỉ cần nói một từ, các trợ lý như Siri sẽ tự động đọc màn hình và bàn phím. Ngoại trừ thanh toán, bạn sẽ không biết gì khác, và chúng sẽ suy nghĩ và đưa ra quyết định thay bạn.

Còn đối với ứng dụng giao đồ ăn, nó thậm chí còn không nhìn thấy bóng của bạn. Nó chỉ nhận được một chỉ thị: Giao đồ ăn đến địa chỉ này.

Các nền tảng chắc chắn không muốn thấy kịch bản như vậy. Nhưng vấn đề là khi các nhà sản xuất điện thoại quyết định làm điều này, các nền tảng có thể phải tuân thủ - giống như khi App Store thu phí hoa hồng, các nhà phát triển đã phàn nàn nhưng vẫn phải niêm yết ứng dụng của họ. Bởi vì đó là nơi người dùng đang ở. Nếu một ngày nào đó, tất cả các quyết định của người dùng đều diễn ra trong giao diện AI của hệ điều hành, các nhà sản xuất ứng dụng sẽ mất lưu lượng truy cập nếu họ không kết nối, và họ sẽ phải chấp nhận việc bị hạ cấp nếu họ làm vậy. Đây là một tình thế tiến thoái lưỡng nan không có lựa chọn tốt nào.

Bằng cách này, nền tảng giao đồ ăn sẽ thay đổi từ một "nền tảng" kiểm soát toàn bộ quá trình hành vi của người dùng thành một "nhà thầu thuê ngoài" chỉ xử lý việc nhận đơn hàng và thực hiện đơn hàng. Dữ liệu người dùng sẽ thuộc về nhà sản xuất điện thoại, doanh thu quảng cáo sẽ thuộc về nhà sản xuất điện thoại, và mối quan hệ người dùng cũng sẽ thuộc về nhà sản xuất điện thoại. Tất cả những gì còn lại cho nền tảng là phân khúc "giao hàng" với lợi nhuận thấp nhất.

Cách thứ ba là bỏ qua hoàn toàn. Nghĩa là, chúng ta có thể trực tiếp mở ra một chiến trường thứ hai và định nghĩa điện thoại AI với một bộ quy tắc hoàn toàn mới. Đây là cách triệt để nhất và đáng được giải thích riêng – thiết lập một lớp dữ liệu hoàn toàn mới bên ngoài hệ sinh thái ứng dụng.

Hai cách đầu tiên, dù là các cơ quan quản lý buộc phải mở cửa hay hệ điều hành giành lấy điểm truy cập, về cơ bản vẫn đang chiến đấu trên chiến trường hiện có, và cả hai bên đều cạnh tranh quyền sử dụng dữ liệu được ghi lại trên các ứng dụng.

Nhưng nếu dữ liệu không đi qua các ứng dụng thì sao? Bạn sẽ xử lý nó như thế nào?

Dù sao đi nữa, chúng ta dành gần bảy hoặc tám giờ mỗi ngày để cầm điện thoại, vì vậy các cảm biến, micro, camera, GPS và các mô-đun khác trên điện thoại đương nhiên cũng dành bảy hoặc tám giờ mỗi ngày với chúng ta.

Không có dữ liệu nào được ghi lại bởi các mô-đun này đi qua WeChat hay Taobao. Nhưng khi kết hợp lại, hồ sơ người dùng mà chúng ghép lại có thể hoàn chỉnh và chân thực hơn bất kỳ ứng dụng nào nắm bắt được.

Đây chính là sự đột phá thực sự của phương pháp thứ ba: Nó định nghĩa lại ý nghĩa của việc "hiểu người dùng". Trước đây, hiểu người dùng có nghĩa là biết họ nói gì, họ mua gì và họ tìm kiếm gì - đó là chiến lược của các ứng dụng trong kỷ nguyên điện thoại thông minh. Trong tương lai, hiểu người dùng có thể có nghĩa là cảm nhận trạng thái, nhịp điệu, cảm xúc và thói quen của họ - đó là chiến lược của các cảm biến trong kỷ nguyên điện thoại AI.

Chỉ cần bạn sẵn sàng hy sinh nhiều quyền riêng tư và bị điện thoại liên tục giám sát, bạn có thể có được trải nghiệm người dùng cực đoan hơn.

Nguồn: 360kr