Một nhóm nhỏ các nhà nghiên cứu AI từ Đại học Stanford và Đại học Washington đã tìm ra cách đào tạo mô hình lý luận AI với mức giá chỉ bằng một phần nhỏ so với các tập đoàn lớn sản xuất các sản phẩm nổi tiếng như ChatGPT. Nhóm đã đăng một bài báo trên máy chủ bản thảo arXiv mô tả nỗ lực của họ trong việc đào tạo chatbot và các mô hình lý luận AI khác với chi phí thấp.
Quy mô thời gian kiểm tra tuần tự và song song.
Các tập đoàn như Google và Microsoft đã nêu rõ ý định trở thành những người dẫn đầu trong việc phát triển chatbot với các kỹ năng ngày càng được cải thiện. Những nỗ lực này nổi tiếng là tốn kém và có xu hướng liên quan đến việc sử dụng các trang trại máy chủ tốn nhiều năng lượng.
Gần đây hơn, một công ty Trung Quốc có tên DeepSeek đã phát hành một LLM có khả năng ngang bằng với những LLM do các quốc gia phương Tây sản xuất với chi phí thấp hơn nhiều. Thông báo đó đã khiến giá cổ phiếu của nhiều công ty công nghệ lao dốc không phanh.
Trong nghiên cứu mới này, các nhà nghiên cứu khẳng định rằng có thể đào tạo một LLM có khả năng tương tự như những khả năng do OpenAI hoặc DeepSeek tạo ra với giá dưới 50 đô la. Vấn đề là các nhà nghiên cứu trong nỗ lực mới này đã sử dụng quy trình chưng cất để trích xuất khả năng từ một mô hình AI khác.
Để đào tạo AI với chi phí thấp như vậy, nhóm nghiên cứu đã bắt đầu với một mô hình AI có sẵn do Alibaba, một công ty Trung Quốc sở hữu, tạo ra mô hình thử nghiệm có sẵn miễn phí. Nhóm nghiên cứu đã sửa đổi mô hình và gọi kết quả là s1.
Đào tạo sơ bộ bao gồm 1.000 cặp câu hỏi và câu trả lời mà họ đã thiết kế cẩn thận để giúp mô hình của họ có lợi thế trong việc học. Họ cũng cung cấp cho nó "quy trình suy nghĩ" đằng sau Gemini 2.0, một mô hình thử nghiệm của Google có sẵn miễn phí. Sau đó, họ đào tạo nó chỉ trong 26 phút bằng cách sử dụng 16 GPU Nvidia H100.
Nhóm nghiên cứu cũng thêm vào cái mà họ gọi là một mẹo nhỏ—họ thêm một bước gọi là "suy nghĩ" chạy trước khi mô hình đưa ra câu trả lời—nó cho mô hình thời gian để kiểm tra lại công việc của nó. Kết quả, các nhà nghiên cứu tuyên bố, là một mô hình AI ngang bằng với các sản phẩm nổi tiếng hơn nhiều, được sản xuất với chi phí chỉ bằng một phần nhỏ.
Nguồn: Simple test-time scaling, arXiv (2025)
![1738911356998.png 1738911356998.png](https://vnrv.s3.hn-1.cloud.cmctelecom.vn/data/attachments/35/35383-a3d0cd4e211ae4551108e70c3eb4c7a0.jpg)
Quy mô thời gian kiểm tra tuần tự và song song.
Các tập đoàn như Google và Microsoft đã nêu rõ ý định trở thành những người dẫn đầu trong việc phát triển chatbot với các kỹ năng ngày càng được cải thiện. Những nỗ lực này nổi tiếng là tốn kém và có xu hướng liên quan đến việc sử dụng các trang trại máy chủ tốn nhiều năng lượng.
Gần đây hơn, một công ty Trung Quốc có tên DeepSeek đã phát hành một LLM có khả năng ngang bằng với những LLM do các quốc gia phương Tây sản xuất với chi phí thấp hơn nhiều. Thông báo đó đã khiến giá cổ phiếu của nhiều công ty công nghệ lao dốc không phanh.
Trong nghiên cứu mới này, các nhà nghiên cứu khẳng định rằng có thể đào tạo một LLM có khả năng tương tự như những khả năng do OpenAI hoặc DeepSeek tạo ra với giá dưới 50 đô la. Vấn đề là các nhà nghiên cứu trong nỗ lực mới này đã sử dụng quy trình chưng cất để trích xuất khả năng từ một mô hình AI khác.
Để đào tạo AI với chi phí thấp như vậy, nhóm nghiên cứu đã bắt đầu với một mô hình AI có sẵn do Alibaba, một công ty Trung Quốc sở hữu, tạo ra mô hình thử nghiệm có sẵn miễn phí. Nhóm nghiên cứu đã sửa đổi mô hình và gọi kết quả là s1.
Đào tạo sơ bộ bao gồm 1.000 cặp câu hỏi và câu trả lời mà họ đã thiết kế cẩn thận để giúp mô hình của họ có lợi thế trong việc học. Họ cũng cung cấp cho nó "quy trình suy nghĩ" đằng sau Gemini 2.0, một mô hình thử nghiệm của Google có sẵn miễn phí. Sau đó, họ đào tạo nó chỉ trong 26 phút bằng cách sử dụng 16 GPU Nvidia H100.
Nhóm nghiên cứu cũng thêm vào cái mà họ gọi là một mẹo nhỏ—họ thêm một bước gọi là "suy nghĩ" chạy trước khi mô hình đưa ra câu trả lời—nó cho mô hình thời gian để kiểm tra lại công việc của nó. Kết quả, các nhà nghiên cứu tuyên bố, là một mô hình AI ngang bằng với các sản phẩm nổi tiếng hơn nhiều, được sản xuất với chi phí chỉ bằng một phần nhỏ.
Nguồn: Simple test-time scaling, arXiv (2025)