Ngành AI năm 2024: Không phải không thể triển khai các mô hình lớn mà là các ứng dụng sẽ tiết kiệm chi phí hơn

Đoàn Thúy Hà · 20/12/2023

Vào ngày 13 tháng 12, tạp chí Nature đã công bố top 10 nhân vật khoa học năm 2023. Điều khác biệt so với trước đây là ngoài 10 học giả trong lĩnh vực khoa học, danh sách năm nay lần đầu tiên còn có một sinh vật không phải con người - ChatGPT!

Ngành AI năm 2024: Không phải không thể triển khai các mô hình lớn mà là các ứng dụng sẽ tiết kiệm chi phí hơn

Tổng biên tập Nature cho biết, cách tiếp cận này nhằm mục đích ghi nhận "những thay đổi to lớn mà trí tuệ nhân tạo tạo ra đã mang lại cho sự phát triển và tiến bộ khoa học".

Không còn nghi ngờ gì nữa, thời đại tiếp theo là thời đại của trí tuệ nhân tạo.
Vào năm 2023, Generative AI do ChatGPT đứng đầu đã tạo ra một làn sóng ngành trí tuệ nhân tạo toàn cầu với tốc độ cực nhanh. Từ thuật toán đến sức mạnh tính toán, từ machine learning đến deep learning, vô số người đã chuyển sự chú ý của họ sang các mô hình lớn.
Và ngay tại Hội nghị đổi mới Geek Park 2024 vào thứ Bảy tuần trước (16/12), Robin Li, CEO Baidu đã đưa ra suy nghĩ của mình về ngành công nghiệp AI: "Chỉ những ứng dụng gốc của các mô hình AI lớn mới có giá trị và sự phát triển của các mô hình lớn không phải là cơ hội cho hầu hết mọi người".

Robin Lee
Tại Diễn đàn ở Thâm Quyến vào tháng 11/2023, Robin Li cũng cho biết: "Trong kỷ nguyên AI bản địa, chúng ta cần 1 triệu ứng dụng gốc AI, nhưng chúng ta không cần 100 mô hình ngôn ngữ lớn".
Kiến trúc công nghệ trí tuệ nhân tạo hiện nay có thể được chia đại khái thành bốn lớp:

lớp chip
lớp khung
lớp mô hình và
lớp ứng dụng.

Nếu coi AI như cơ thể con người thì chip điện toán và hệ thống khung tương đương với các tế bào và máu duy trì hoạt động của cơ thể con người, mô hình lớn được ví như một “siêu não”, chịu trách nhiệm về nhiều lịch trình phức tạp khác nhau, và cuối cùng là được bàn giao cho lớp ứng dụng để hoàn thành các nhiệm vụ tương ứng.
Từ góc độ này, các mô hình lớn dường như quan trọng hơn các ứng dụng AI. Tại sao Robin Li liên tục nhấn mạnh rằng các ứng dụng gốc AI mới là nơi có cơ hội?
01
Vào ngày 6 tháng 12, Google đã phát hành mô hình ngôn ngữ lớn Gemini khiến cả thế giới phải kinh ngạc.
Trong video tương tác dài 6 phút đó, Gemini có thể đoán các cú đấm, xác định đồ vật, thiết kế trò chơi cũng như tạo ra âm thanh và hình ảnh để hỗ trợ các câu trả lời. Đây được coi là "mô hình mạnh mẽ và linh hoạt nhất cho đến nay" của Google.

Tuy nhiên, chỉ một ngày sau, Gemini bị phát hiện dàn dựng video và Google chính thức thừa nhận rằng video trình diễn có nội dung tuyên truyền cường điệu.
Google, đến muộn, rõ ràng là có chút lo lắng.
Trong lĩnh vực mô hình lớn, có các mô hình lớn như GPT-4 của OpenAI và LLaMA2 của Meta. Apple được tiết lộ đang phát triển Apple GPT và đã gia nhập thị trường một cách mạnh mẽ; tại thị trường Trung Quốc, tính đến tháng 10/2023, thị trường Trung Quốc cung cấp hơn 1 tỷ mô hình tham số lớn, số lượng công ty đã lên tới 254 và các mô hình lớn như Wenxin 4.0 của Baidu và ChatGLM3 của Zhipu AI cũng đang chạy với tốc độ chóng mặt.

Đối với việc phát triển các mô hình lớn có mục đích chung, bây giờ không còn là "thời điểm tốt nhất", điều khủng khiếp hơn nữa là chi phí đào tạo và kiểm soát chip.
Ở cấp độ chip, Hoa Kỳ đã cập nhật các biện pháp kiểm soát xuất khẩu và doanh số bán các chip AI như NVIDIA A100/800 và H100/800 đã bị hạn chế.
Ngay cả khi con chip không bị giới hạn, khoản đầu tư khổng lồ vào việc đào tạo mô hình lớn vẫn còn ở mức hạn chế.
Về phần cứng, giá một con chip A100 (80GB) có thể lên tới 15.000 USD, đơn giá của H100 lên tới 40.000 USD. Việc đào tạo một mô hình lớn với hàng trăm tỷ tham số thường đòi hỏi sức mạnh tính toán của hàng chục ngàn chiếc A100.

Điều này không bao gồm quá trình đào tạo thực tế, trong đó mức sử dụng GPU trung bình dưới 50%.
60% chi phí đào tạo mô hình lớn đến từ tiền điện. “Báo cáo chỉ số trí tuệ nhân tạo năm 2023” do Viện trí tuệ nhân tạo Stanford (HAI) công bố cho thấy GPT-3 với 175 tỷ thông số sẽ tiêu thụ tới 1.287 megawatt giờ điện vào năm 2022, tương đương với mức tiêu thụ điện của 120 hộ gia đình Mỹ trong một năm. Ngay cả mô hình BLOOM hiệu quả hơn của Hugging face cũng tiêu thụ 433 megawatt giờ điện, đủ để cung cấp năng lượng cho một ngôi nhà trung bình ở Mỹ trong 41 năm.

Sức mạnh tính toán càng lớn thì chi phí càng cao. Theo ước tính của Guosheng Securities, chi phí đào tạo riêng của GPT-3 lên tới 1,4 triệu USD. Đối với một số LLM lớn hơn (mô hình ngôn ngữ lớn), chi phí đào tạo là từ 2 triệu đến 12 triệu USD.
Tương ứng với mức đầu tư cao là con đường không chắc chắn để hiện thực hóa.
Lấy OpenAI làm ví dụ, họ đã lỗ khoảng 540 triệu USD khi phát triển ChatGPT và GPT-4, chỉ riêng việc duy trì hoạt động của ChatGPT đã cần khoản đầu tư khoảng 700.000 USD mỗi ngày. Nhưng về mặt thương mại hóa, vào tháng 2 năm nay, Open AI đã ra mắt dịch vụ đăng ký chatbot AI với phí hàng tháng là 20 USD; vào tháng 8, hãng đã phát hành phiên bản doanh nghiệp của ChatGPT, nhắm đến người dùng B-side và G-side. Mặc dù Altman (người sáng lập OpenAI) tuyên bố rằng doanh thu trung bình hàng tháng của công ty vượt quá 100 triệu USD nhưng vẫn chưa có câu trả lời chắc chắn về lợi nhuận thực tế.
Không có gì ngạc nhiên khi phương tiện truyền thông Ấn Độ Analytics India Megazine cảnh báo một cách đáng báo động rằng “Nếu không thể huy động thêm tiền càng sớm càng tốt, OpenAI có thể buộc phải nộp đơn xin phá sản vào cuối năm 2024”.
Hầu hết các quỹ hỗ trợ openAI vẫn đến từ đầu tư bên ngoài.
Theo Financial Times, Microsoft đã đầu tư 10 tỷ USD vào OpenAI vào đầu năm nay. Khi được hỏi liệu Microsoft có tiếp tục đầu tư hay không, Altman cũng nói rằng "từ nay đến AGI vẫn còn rất nhiều sức mạnh tính toán mà cần phải được xây dựng... chi phí đào tạo rất cao".
Các mô hình lớn là một trò chơi kiếm vàng hoàn toàn và ngay cả đối với một siêu lãnh đạo như OpenAI, bạn có thể hình dung ra hoàn cảnh khó khăn của các doanh nghiệp vừa và nhỏ khác.
Do đó, các mô hình quy mô lớn không còn ý nghĩa nữa và các ứng dụng gốc AI vẫn có tiềm năng lớn.
02
Vào ngày 30 tháng 11, giá cổ phiếu của Xinyada, một công ty niêm yết cổ phiếu hạng A ở Trung Quốc, bất ngờ tăng mạnh, đóng cửa ở mức 11,04 nhân dân tệ/cổ phiếu, tăng 9,96%.
Trên các diễn đàn chứng khoán liên quan, một số nhà đầu tư đã đưa ra câu trả lời ngắn gọn về việc giá cổ phiếu tăng cao: Con gái tôi thật tuyệt vời.
Hóa ra Guo Wenjing (Quách Văn Cảnh), con gái thứ hai của Guo Huaqiang, người kiểm soát thực tế của Xinyada, là một trong những người sáng lập ứng dụng AI mới phổ biến Pika.
Theo báo cáo, Guo Wenjing là một cô gái tài năng, sinh năm 1995. Ngay từ năm 2015, cô đã được CCTV đưa tin là sinh viên đầu tiên ở Chiết Giang được nhận trước vào chương trình thạc sĩ Harvard về khoa học máy tính, cô lấy bằng Tiến sĩ tại Đại học Stanford.
Trong quá trình học Tiến sĩ, Guo Wenjing đã phát hiện ra tiềm năng to lớn của các công cụ AI trong sản xuất phim, vì vậy vào tháng 4 năm nay, cô và người bạn cùng lớp Chenlin Meng đã quyết định bỏ học tại Stanford để cùng phát triển công cụ video AI Pika.

Quách Văn Cảnh (trái) và Chenlin
Theo báo cáo, chỉ sáu tháng sau khi thành lập, Pika đã hoàn thành ba vòng tài trợ, với tổng số tiền là 55 triệu USD và được định giá khoảng 200-300 triệu USD. Đến ngày 29 tháng 11, ứng dụng đầu tiên Pika 1.0 ra mắt, với khả năng tương tác văn bản đơn giản, tạo video sống động và hiệu ứng ánh sáng và bóng tối ở cấp độ phim, nó đã trở thành một ngôi sao mới hot trong lĩnh vực ứng dụng AI.

Xu hướng "cổ phiếu khái niệm con gái" ở Trung Quốc cũng đã lan sang lĩnh vực ứng dụng AI A-share. Kunlun Wanwei và Wanxing Technology đã đạt đến giới hạn hàng ngày. Tomcat, Foxit Software, Guomai Culture... đã trỗi dậy mạnh mẽ, mang đến một niềm vui vỡ òa vào lĩnh vực ứng dụng AI hơi thở.
Pika không phải là người duy nhất được ưu ái. Kể từ năm nay, hầu như thỉnh thoảng, một ứng dụng đình đám sẽ xuất hiện, làm mới hiểu biết của chúng ta về AI.
Vào tháng 10, một đoạn video quay cảnh Taylor Swift nói tiếng Quan Thoại đã lan truyền trên mạng xã hội.
Trong video này, Taylor nói tiếng Trung đích thực, giọng điệu và âm sắc của cô ấy gần giống với giọng gốc, ngay cả cử động miệng của cô ấy cũng khớp một cách hoàn hảo, có thể gọi là bản dịch video mạnh nhất.

Trong các video tiếp theo, Emma Watson và Mr. Bean cũng nói tiếng Trung thuần túy, trong khi Guo Degang và Zhao Benshan nói về những câu chuyện cười bằng tiếng Anh, và Cai Ming thậm chí còn biểu diễn một chương trình trò chuyện ngẫu hứng bằng tiếng Anh.
Ngoài trao đổi tiếng Trung-Anh, còn có những nỗ lực dịch tiếng Anh sang tiếng Nhật và 6 ngôn ngữ khác cũng đạt kết quả nổi bật không kém.
Hỗ trợ việc “chuyển đổi liền mạch” các ngôn ngữ video này là phần mềm video AI có tên Heygen. Người sáng tạo chỉ cần tải video lên và chọn ngôn ngữ cần dịch là nó có thể tự động dịch, điều chỉnh âm sắc, khớp với khuôn miệng.
Đồng thời, Heygen cũng hỗ trợ phát video thay đổi khuôn mặt, chuyển văn bản thành lời nói của người dẫn chương trình và tạo các neo ảo. Chỉ cần bạn tải lên video dài 2 phút, bạn có thể tạo một người kỹ thuật số giống như một người thật, bao gồm cử chỉ, khuôn mặt, hình dạng miệng và các bộ phận cơ thể tinh tế khác. Ngôn ngữ cũng có thể được điều chỉnh.

Người sáng lập Heygen Joshua Xu ra mắt "doppelgänger" của riêng mình
Công ty mẹ của Heygen là Shiyun Technology, một công ty khởi nghiệp AI Trung Quốc dựa vào việc tính phí các dịch vụ cá nhân/doanh nghiệp. Heygen đã trực tuyến được 178 ngày và doanh thu định kỳ của công ty đã đạt 1 triệu USD, đã có lợi nhuận.

Từ các chatbot AI đời đầu cho đến thế hệ hình ảnh AI sau này và ngày nay, các ứng dụng AI đã phát triển theo hướng tạo hình ảnh, văn bản và video khó hơn.
Chỉ với 20 ảnh selfie, Miaoya Camera có thể thực hiện chụp ảnh AI;
Chỉ với một câu, Baidu Wenku có thể giúp bạn tạo một PPT với hình ảnh và biểu đồ hoàn chỉnh;
Chỉ với hai từ khóa, Pika có thể tạo ra phiên bản hoạt hình cảnh Musk đáp xuống sao Hỏa...
Sự thịnh vượng thực sự của các công nghệ mới phải là sự thịnh vượng của các ứng dụng.
Ngày này một năm trước, thật khó để chúng ta tưởng tượng AI có thể làm được những gì, nhưng bây giờ, một năm sau, AI không chỉ có thể tạo ra văn bản, hình ảnh và video mà còn được ứng dụng vào nhiều ngành công nghiệp khác nhau như văn phòng, y tế, và các ngành pháp lý, và nó đang tiến về phía trước với động lực chưa từng có, phá hoại cuộc sống tương lai của chúng ta.
03
Trong kỷ nguyên Internet di động, Trung Quốc đã khai sinh ra những ứng dụng cấp quốc gia như WeChat, Douyin, trong kỷ nguyên trí tuệ nhân tạo, Trung Quốc ngang hàng với Mỹ về lĩnh vực mô hình cơ bản quy mô lớn nhưng ở ứng dụng lớp, chúng tôi vẫn đang chờ đợi siêu ứng dụng tiếp theo.
Vậy cụ thể chúng ta nên làm gì với các ứng dụng gốc AI trong tương lai?
Câu trả lời của Robin Li là làm lại tất cả sản phẩm bằng tư duy AI.
Theo quan điểm của ông, AI sáng tạo đã phá vỡ mô hình tương tác giữa con người và máy tính trước đây. Dựa trên mô hình Wenxin, tất cả các sản phẩm của Baidu đều có thể được làm lại dựa trên tư duy AI. "Đó không phải là tích hợp, không phải truy cập, mà là tái cấu trúc".
Lấy Baidu Maps làm ví dụ. Phiên bản nâng cấp của hướng dẫn AI có thể lập kế hoạch tuyến đường một cách thông minh chỉ bằng một câu. Nó cũng có thể điều hướng, gọi taxi, đặt khách sạn và mua vé máy bay. Nó có thể hoàn thành các hoạt động mà chỉ có thể thực hiện được. hoàn thành trong sáu hoặc bảy bước trong một câu.
Ngoài ra còn có Baidu Wenku. Sau khi tái thiết dựa trên mô hình lớn Wenxin, Baidu Wenku đã chuyển đổi từ một "công cụ nội dung" thành "công cụ năng suất". Các chức năng như tạo PPT trong một câu, tóm tắt tài liệu thông minh, đánh bóng và sửa đổi bài viết rất phổ biến và các chức năng mới đều trực tuyến. Trong hơn hai tháng, số lượng người dùng tích lũy đã vượt quá 13 triệu.
Không chỉ Baidu mà nhiều công ty truyền thống cũng đang cố gắng sử dụng tư duy AI để tái cấu trúc sản phẩm.
Giống như Photoshop, ban đầu nó chỉ là một công cụ xử lý hình ảnh. Với sự hỗ trợ của AI, Generative Fill mới có thể tạo ra cảnh mới dựa trên văn bản, đồng thời cũng có thể mở rộng hình ảnh và xóa đối tượng một cách thông minh, cải thiện đáng kể năng suất của người dùng. Tính năng mới này cũng có đã thúc đẩy tăng trưởng của Adobe trên thị trường chứng khoán Hoa Kỳ thêm 71% và giá trị thị trường của công ty này đã tăng 100 tỷ USD kể từ đầu năm.
Giống như Windows, ban đầu nó chỉ là một hệ điều hành. Với sự trợ giúp của trợ lý AI Copilot, Word, Excel, PowerPoint, Outlook và Teams của Microsoft và các phần mềm khác được phối hợp một cách thông minh, phá vỡ bối cảnh văn phòng. Phí đăng ký của nó lên tới 30 US đô la mỗi tháng. So với Office 365 trước đó, nó đã tăng 83%.

Một số người có thể cho rằng trong thời đại AI, rào cản gia nhập rất cao và cơ hội đều ở các công ty lớn, đối với phần lớn các doanh nghiệp và doanh nhân vừa và nhỏ, nếu không được hỗ trợ đầy đủ về tài chính thì ngay cả những ý tưởng tốt nhất cũng không thể thực hiện được.
Nhưng không hoàn toàn như vậy. Cơ hội cho cả doanh nghiệp lớn và doanh nghiệp nhỏ. Chỉ có điều, cần phải định vị rõ mình như thế nào. Một công ty nhỏ không nên và không thể chạy theo tạo ra mô hình lớn vì chắc chắn không có đủ nguồn lực. Cái đó để cho các hãng công nghệ lớn làm. Ứng dụng AI là thế giới vô tận cho các doanh nghiệp và doanh nhân vừa và nhỏ.