LMArena nhận 150 triệu USD: Khi niềm tin vào AI được định giá tỷ đô

Minh Nguyệt
Minh Nguyệt
Phản hồi: 0

Minh Nguyệt

Intern Writer
Mấy nay, mình thấy ngành AI nhà mình cứ gọi là "tự sướng" với đủ loại điểm số, benchmark hay những con số tăng trưởng ấn tượng mỗi khi có sản phẩm mới ra lò. Nghe thì hoành tráng lắm, nhưng mà giữa phòng thí nghiệm và thực tế cuộc sống, hình như có cái gì đó cứ trượt đi mất. Mình tự hỏi, rốt cuộc thì mô hình nào dùng sướng tay hơn? Câu trả lời nào mới khiến người dùng tin tưởng? Và hệ thống nào chúng ta dám tự tin đặt trước mặt khách hàng, nhân viên hay công dân mà không phải lo lắng gì?

Chính cái khoảng trống khó nói đó là nơi LMArena âm thầm xây dựng đế chế của mình, và cũng là lý do các nhà đầu tư vừa rót vào đây 150 triệu USD (khoảng 3.750 tỷ VNĐ) trong vòng Series A, đưa định giá công ty lên tới 1,7 tỷ USD (khoảng 42.500 tỷ VNĐ). Dẫn đầu vòng gọi vốn này là Felicis và UC Investments, cùng với sự tham gia của các quỹ đầu tư mạo hiểm lớn như Andreessen Horowitz, Kleiner Perkins, Lightspeed, The House Fund và Laude Ventures.

Trong nhiều năm, các benchmark truyền thống, với những điểm số chính xác, bài kiểm tra suy luận hay bộ dữ liệu tiêu chuẩn, từng là thước đo uy tín của AI. Chúng hoạt động tốt cho đến khi không còn phù hợp nữa. Khi các mô hình ngày càng lớn hơn và giống nhau hơn, những cải thiện trên benchmark trở nên nhỏ giọt. Tệ hơn, các mô hình bắt đầu tối ưu hóa cho chính các bài kiểm tra thay vì các trường hợp sử dụng thực tế. Những đánh giá tĩnh này khó lòng phản ánh được cách AI hoạt động trong những tương tác mở, phức tạp của con người.
1768442554770.png

Cùng lúc đó, các hệ thống AI đã rời khỏi phòng thí nghiệm và đi vào quy trình làm việc hàng ngày: soạn email, viết code, hỗ trợ khách hàng, giúp nghiên cứu và tư vấn chuyên nghiệp. Câu hỏi đã chuyển từ "mô hình có làm được việc này không?" sang "chúng ta có nên tin tưởng nó khi nó làm việc này không?". Đây chính là một vấn đề đo lường hoàn toàn khác.

Giải pháp của LMArena thì vừa đơn giản lại vừa táo bạo: ngừng chấm điểm các mô hình một cách riêng lẻ. Trên nền tảng của họ, người dùng chỉ cần nhập một câu lệnh và nhận về hai phản hồi ẩn danh. Không có thương hiệu, không có tên mô hình, chỉ có câu trả lời thôi. Sau đó, người dùng sẽ chọn câu trả lời nào tốt hơn, hoặc không chọn cái nào cả. Một lượt bình chọn, một lượt so sánh, lặp đi lặp lại hàng triệu lần.

Kết quả không phải là một "người chiến thắng" tuyệt đối, mà là một tín hiệu sống động về sở thích của con người, về cách mọi người phản ứng với giọng điệu, sự rõ ràng, độ dài và tính hữu ích trong thế giới thực. Khi câu lệnh không rõ ràng hay khó đoán, tín hiệu đó sẽ thay đổi. Và nó nắm bắt được điều mà các benchmark thường bỏ lỡ.

LMArena không quan tâm đến việc một mô hình có đưa ra câu trả lời đúng sự thật hay không. Điều họ quan tâm là liệu con người có thích câu trả lời đó hay không. Sự khác biệt này tuy nhỏ nhưng lại rất có ý nghĩa trong thực tế. Bảng xếp hạng trên LMArena Arena giờ đây được các nhà phát triển và phòng thí nghiệm tham khảo trước khi ra mắt sản phẩm hay đưa ra các quyết định quan trọng. Các mô hình lớn từ OpenAI, Google và Anthropic đều được đánh giá thường xuyên tại đây. Không cần marketing rầm rộ, LMArena đã trở thành một tấm gương mà cả ngành công nghiệp AI đều dõi theo.

Vòng gọi vốn 150 triệu USD không chỉ là một phiếu tín nhiệm cho sản phẩm của LMArena. Nó còn cho thấy rằng việc đánh giá AI đang dần trở thành một phần cơ sở hạ tầng thiết yếu. Khi số lượng mô hình bùng nổ, các doanh nghiệp phải đối mặt với một câu hỏi mới: không phải làm thế nào để có AI, mà là nên tin tưởng AI nào. Những lời quảng cáo từ nhà cung cấp hay các benchmark truyền thống không phải lúc nào cũng phản ánh đúng độ tin cậy trong thực tế. Trong khi đó, việc tự kiểm tra nội bộ thì tốn kém và chậm chạp.

Một tín hiệu trung lập, từ bên thứ ba, nằm giữa những nhà phát triển mô hình và người dùng, đang nổi lên như một lớp quan trọng. Đó chính là nơi LMArena đang hoạt động. Vào tháng 9, LMArena đã ra mắt AI Evaluations, một dịch vụ thương mại biến công cụ so sánh dựa trên cộng đồng của họ thành một sản phẩm mà các doanh nghiệp và phòng thí nghiệm có thể trả tiền để sử dụng. LMArena cho biết dịch vụ này đã đạt doanh thu hàng năm khoảng 30 triệu USD (khoảng 750 tỷ VNĐ) chỉ trong vài tháng sau khi ra mắt. Đối với các cơ quan quản lý và nhà hoạch định chính sách, loại tín hiệu dựa trên con người này cũng rất quan trọng. Các khuôn khổ giám sát cần bằng chứng phản ánh việc sử dụng thực tế, chứ không phải các kịch bản lý tưởng hóa.

Tất nhiên, cách tiếp cận của LMArena cũng không phải là không có tranh cãi. Các nền tảng dựa vào bình chọn công khai và tín hiệu từ cộng đồng có thể phản ánh sở thích của những người dùng tích cực, mà những sở thích này có thể không phù hợp với nhu cầu của các lĩnh vực chuyên môn cụ thể. Để đáp lại, các đối thủ như SEAL Showdown của Scale AI đã xuất hiện, với mục tiêu đưa ra các bảng xếp hạng mô hình chi tiết hơn, đại diện hơn trên nhiều ngôn ngữ, khu vực và bối cảnh chuyên nghiệp. Nghiên cứu học thuật cũng chỉ ra rằng các bảng xếp hạng dựa trên bình chọn có thể dễ bị thao túng nếu không có các biện pháp bảo vệ, và những hệ thống như vậy có thể ưu tiên các phản hồi hấp dẫn bề ngoài hơn là những phản hồi đúng về mặt kỹ thuật nếu việc kiểm soát chất lượng không nghiêm ngặt. Những cuộc tranh luận này cho thấy không có phương pháp đánh giá nào duy nhất có thể nắm bắt mọi khía cạnh hành vi của mô hình, nhưng chúng cũng nhấn mạnh nhu cầu về các tín hiệu phong phú hơn, dựa trên con người, vượt ra ngoài các benchmark truyền thống.

Có một giả định ngầm trong AI rằng sự tin tưởng sẽ tự nhiên xuất hiện khi các mô hình được cải thiện. Lý luận cho rằng, khả năng suy luận tốt hơn sẽ dẫn đến kết quả tốt hơn. Cách nhìn nhận này coi sự phù hợp là một vấn đề kỹ thuật với các giải pháp kỹ thuật. LMArena thách thức ý tưởng đó. Sự tin tưởng, trong các bối cảnh thực tế, mang tính xã hội và theo ngữ cảnh. Nó được xây dựng thông qua trải nghiệm, chứ không phải qua những lời tuyên bố. Nó được định hình bởi các vòng phản hồi không bị sụp đổ dưới quy mô lớn. Bằng cách để người dùng, chứ không phải các công ty, quyết định điều gì hiệu quả, LMArena tạo ra một sự "ma sát" cần thiết, nơi mà ngành công nghiệp thường chỉ thích sự tăng tốc. Nó làm chậm mọi thứ lại vừa đủ để đặt câu hỏi: "Cái này thực sự tốt hơn, hay chỉ là mới hơn?". Đó là một câu hỏi không mấy dễ chịu trong một thị trường bị thúc đẩy bởi chu kỳ phát hành liên tục. Nhưng cũng chính vì thế mà sự trỗi dậy của LMArena dường như là điều không thể tránh khỏi.

LMArena không hứa hẹn về sự an toàn. Họ không tuyên bố mô hình nào tốt hay xấu. Họ không thay thế quy định hay trách nhiệm. Điều họ làm đơn giản và mạnh mẽ hơn: họ công khai ghi nhận điểm số. Khi các hệ thống AI ngày càng được tích hợp vào các quyết định hàng ngày, việc theo dõi hiệu suất theo thời gian trở nên ít tùy chọn hơn. Ai đó phải nhận ra những sự suy giảm, những thay đổi ngữ cảnh và các mẫu sử dụng. Trong thể thao, trọng tài và các nhà thống kê đảm nhận vai trò này. Trong thị trường, các kiểm toán viên và cơ quan xếp hạng làm điều đó. Trong AI, chúng ta vẫn đang xây dựng cơ sở hạ tầng đó. Vòng gọi vốn của LMArena cho thấy các nhà đầu tư tin rằng vai trò này sẽ không còn là thứ yếu trong thời gian dài. Bởi vì khi AI ở khắp mọi nơi, những câu hỏi khó nhất không phải là nó có thể làm gì. Mà là chúng ta tin tưởng ai khi nó làm điều đó, và làm thế nào chúng ta biết mình đã đúng.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2xtYXJlbmEtbmhhbi0xNTAtdHJpZXUtdXNkLWtoaS1uaWVtLXRpbi12YW8tYWktZHVvYy1kaW5oLWdpYS10eS1kby43NzM3MS8=
Top