Sasha
Writer
Hiệu suất của các mô hình lớn tăng gấp đôi sau mỗi 100 ngày. "Luật mật độ" do nhóm nghiên cứu Đại học Thanh Hoa đề xuất đã được công bố trên tạp chí Nature.
Kể từ năm 2020, Định luật Mở rộng (Scaling Law) do OpenAI đề xuất đã dẫn đầu sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn — các tham số mô hình và quy mô dữ liệu huấn luyện càng lớn, khả năng thông minh được tạo ra càng mạnh.
Tuy nhiên, bước sang năm 2025, con đường liên tục tăng chi phí huấn luyện này phải đối mặt với những vấn đề phát triển bền vững nghiêm trọng. Ilya Sutskever, cựu khoa học gia trưởng của OpenAI, đã chỉ ra trong một bài phát biểu trước công chúng rằng khi các tập dữ liệu công khai trên Internet đang dần cạn kiệt, việc huấn luyện trước các mô hình lớn sẽ không còn bền vững. Do đó, hầu hết các nhà nghiên cứu đã bắt đầu khám phá những hướng phát triển mới cho các mô hình ngôn ngữ lớn.
Kết quả nghiên cứu của Đại học Thanh Hoa, "Định luật Mật độ" (Densing Law) của các mô hình ngôn ngữ lớn, đã mang đến một góc nhìn mới. Gần đây, kết quả này đã được công bố chính thức trên tạp chí Nature Machine Intelligence, một tạp chí phụ của Nature, mở ra một hướng đi mới để hiểu về quy luật phát triển của các mô hình ngôn ngữ lớn. Định luật Mật độ cho thấy mật độ khả năng tối đa của các mô hình ngôn ngữ lớn tăng theo cấp số nhân theo thời gian. Từ tháng 2 năm 2023 đến tháng 4 năm 2025, mật độ này tăng gấp đôi sau mỗi 3,5 tháng. Điều này có nghĩa là cứ sau 3,5 tháng, một mô hình với một nửa số tham số có thể đạt được hiệu suất tối ưu hiện tại.
"Định luật Mật độ" lấy cảm hứng từ "Định luật Moore"
Nhìn lại lịch sử phát triển máy tính, được dẫn dắt bởi Định luật Moore, ngành công nghiệp bán dẫn đã liên tục cải tiến quy trình sản xuất và tăng mật độ mạch chip, đạt được bước nhảy vọt từ chiếc ENIAC nặng 27 tấn lên những chiếc điện thoại thông minh nặng hàng trăm gram, cuối cùng dẫn đến sự phổ biến của sức mạnh tính toán và cuộc cách mạng thông tin.
Ngày nay, thế giới có 1,3 tỷ máy tính cá nhân, 7 tỷ điện thoại thông minh, 18 tỷ thiết bị IoT và 200 tỷ CPU đang hoạt động. Cốt lõi của Định luật Moore không phải là tăng kích thước chip mà là cải thiện mật độ mạch — chứa nhiều đơn vị tính toán hơn trên một đơn vị diện tích.
Lấy cảm hứng từ điều này, nhóm nghiên cứu của Đại học Thanh Hoa đề xuất rằng sự phát triển của các mô hình ngôn ngữ lớn cũng có thể được quan sát và hiểu từ góc độ "mật độ năng lực". Cũng giống như ngành công nghiệp chip đã đạt được sự thu nhỏ và phổ biến của các thiết bị điện toán bằng cách tăng mật độ mạch, các mô hình ngôn ngữ lớn cũng đang đạt được sự phát triển hiệu quả bằng cách tăng mật độ năng lực.
Mật độ năng lực của các mô hình ngôn ngữ lớn tăng theo cấp số nhân theo thời gian
Nhóm nghiên cứu dựa trên một giả định cốt lõi: Các mô hình ngôn ngữ lớn có kích thước khác nhau với cùng quy trình sản xuất và được đào tạo đầy đủ sẽ có cùng mật độ năng lực. Trên cơ sở này, nhóm nghiên cứu đã chọn một mô hình chuẩn và đặt mật độ của nó là 1 làm cơ sở để đo mật độ năng lực của các mô hình khác. Mật độ năng lực của một mô hình mục tiêu nhất định được định nghĩa là tỷ lệ giữa số tham số của mô hình chuẩn có cùng năng lực với số tham số của mô hình mục tiêu.
Thông qua phân tích có hệ thống 51 mô hình lớn nguồn mở được phát hành trong những năm gần đây, nhóm nghiên cứu đã phát hiện ra một định luật quan trọng. Mật độ năng lực tối đa của các mô hình lớn tăng theo cấp số nhân theo thời gian, tăng gấp đôi trung bình cứ sau 3,5 tháng kể từ năm 2023. Điều này có nghĩa là với sự phát triển đồng bộ của "dữ liệu - năng lực tính toán - thuật toán", cùng một mức độ thông minh có thể đạt được với ít tham số hơn.
Dựa trên Định luật Mật độ, nhóm nghiên cứu đã rút ra một số suy luận quan trọng
Suy luận 1: Chi phí suy luận của các mô hình có cùng năng lực giảm theo cấp số nhân theo thời gian.
Một mặt, Định luật Mật độ chỉ ra rằng các tham số của các mô hình lớn có cùng năng lực giảm một nửa sau mỗi 3,5 tháng. Đồng thời, về mặt tối ưu hóa hệ thống suy luận, Định luật Moore thúc đẩy việc liên tục cải thiện năng lực tính toán của chip, và các công nghệ thuật toán như lượng tử hóa mô hình, lấy mẫu suy đoán và tối ưu hóa bộ nhớ video cũng liên tục tạo ra những đột phá. Với cùng chi phí suy luận, quy mô của các mô hình có thể chạy tiếp tục tăng lên. Dữ liệu thực nghiệm cho thấy giá API của các mô hình GPT cấp 3.5 đã giảm 266,7 lần trong 20 tháng, tức là giảm khoảng một nửa sau mỗi 2,5 tháng.
Suy luận 2: Mật độ năng lực của các mô hình lớn đang tăng tốc
Thống kê dựa trên MMLU làm chuẩn đánh giá cho thấy trước khi ChatGPT ra mắt, mật độ năng lực tăng gấp đôi sau mỗi 4,8 tháng, trong khi sau khi ChatGPT ra mắt, mật độ năng lực tăng gấp đôi sau mỗi 3,2 tháng, và tốc độ tăng cường mật độ tăng 50%. Điều này cho thấy với sự trưởng thành của công nghệ mô hình lớn và sự thịnh vượng của hệ sinh thái nguồn mở, việc cải thiện mật độ năng lực đang tăng tốc.
Suy luận 3: Thuật toán nén mô hình không phải lúc nào cũng nâng cao mật độ khả năng của các mô hình
Nhóm nghiên cứu đã so sánh mật độ khả năng của nhiều mô hình với các phiên bản nén của chúng và nhận thấy rằng ngoại trừ Gemma - 2 - 9B, mật độ của các mô hình nén khác như Llama - 3.2 - 3B/1B và Llama - 3.1 - minitron - 4B đều thấp hơn mật độ của các mô hình gốc. Công nghệ lượng tử hóa cũng làm giảm hiệu suất và mật độ khả năng của mô hình. Khám phá này cho thấy những hạn chế của công nghệ nén mô hình hiện tại: việc huấn luyện các mô hình nhỏ hơn trong quá trình nén thường không đủ để đạt được mật độ tối ưu.
Suy luận 4: Thu nhỏ mô hình cho thấy tiềm năng to lớn của trí tuệ biên
Giao điểm giữa hai đường cong mật độ mạch chip (Định luật Moore) và mật độ khả năng của mô hình (Định luật Mật độ) đồng nghĩa với việc các thiết bị biên sẽ có thể chạy các mô hình lớn với hiệu suất cao hơn. Điện toán biên và trí tuệ thiết bị đầu cuối sẽ có sự phát triển bùng nổ, và sức mạnh tính toán sẽ được phổ biến từ đám mây sang thiết bị đầu cuối.
Dựa trên lý thuyết Định luật Mật độ, các nhóm nghiên cứu từ Đại học Thanh Hoa và Mianbi Intelligence đã liên tục thúc đẩy nghiên cứu và phát triển các mô hình mật độ cao và cho ra mắt một loạt các mô hình mật độ cao cạnh biên như Mianbi Xiaogangpao MiniCPM, MiniCPM - V/o và VoxCPM. Nổi tiếng toàn cầu với các tính năng hiệu quả cao và chi phí thấp, chúng được đánh giá là những mô hình lớn của Trung Quốc được tải xuống và phổ biến nhất trên Hugging Face vào năm 2024. Tính đến tháng 10 năm 2025, khối lượng tải xuống mô hình đã đạt gần 15 triệu lần và số sao GitHub đạt gần 30.000.
Kể từ năm 2020, Định luật Mở rộng (Scaling Law) do OpenAI đề xuất đã dẫn đầu sự phát triển nhanh chóng của các mô hình ngôn ngữ lớn — các tham số mô hình và quy mô dữ liệu huấn luyện càng lớn, khả năng thông minh được tạo ra càng mạnh.
Tuy nhiên, bước sang năm 2025, con đường liên tục tăng chi phí huấn luyện này phải đối mặt với những vấn đề phát triển bền vững nghiêm trọng. Ilya Sutskever, cựu khoa học gia trưởng của OpenAI, đã chỉ ra trong một bài phát biểu trước công chúng rằng khi các tập dữ liệu công khai trên Internet đang dần cạn kiệt, việc huấn luyện trước các mô hình lớn sẽ không còn bền vững. Do đó, hầu hết các nhà nghiên cứu đã bắt đầu khám phá những hướng phát triển mới cho các mô hình ngôn ngữ lớn.
Kết quả nghiên cứu của Đại học Thanh Hoa, "Định luật Mật độ" (Densing Law) của các mô hình ngôn ngữ lớn, đã mang đến một góc nhìn mới. Gần đây, kết quả này đã được công bố chính thức trên tạp chí Nature Machine Intelligence, một tạp chí phụ của Nature, mở ra một hướng đi mới để hiểu về quy luật phát triển của các mô hình ngôn ngữ lớn. Định luật Mật độ cho thấy mật độ khả năng tối đa của các mô hình ngôn ngữ lớn tăng theo cấp số nhân theo thời gian. Từ tháng 2 năm 2023 đến tháng 4 năm 2025, mật độ này tăng gấp đôi sau mỗi 3,5 tháng. Điều này có nghĩa là cứ sau 3,5 tháng, một mô hình với một nửa số tham số có thể đạt được hiệu suất tối ưu hiện tại.
"Định luật Mật độ" lấy cảm hứng từ "Định luật Moore"
Nhìn lại lịch sử phát triển máy tính, được dẫn dắt bởi Định luật Moore, ngành công nghiệp bán dẫn đã liên tục cải tiến quy trình sản xuất và tăng mật độ mạch chip, đạt được bước nhảy vọt từ chiếc ENIAC nặng 27 tấn lên những chiếc điện thoại thông minh nặng hàng trăm gram, cuối cùng dẫn đến sự phổ biến của sức mạnh tính toán và cuộc cách mạng thông tin.
Ngày nay, thế giới có 1,3 tỷ máy tính cá nhân, 7 tỷ điện thoại thông minh, 18 tỷ thiết bị IoT và 200 tỷ CPU đang hoạt động. Cốt lõi của Định luật Moore không phải là tăng kích thước chip mà là cải thiện mật độ mạch — chứa nhiều đơn vị tính toán hơn trên một đơn vị diện tích.
Lấy cảm hứng từ điều này, nhóm nghiên cứu của Đại học Thanh Hoa đề xuất rằng sự phát triển của các mô hình ngôn ngữ lớn cũng có thể được quan sát và hiểu từ góc độ "mật độ năng lực". Cũng giống như ngành công nghiệp chip đã đạt được sự thu nhỏ và phổ biến của các thiết bị điện toán bằng cách tăng mật độ mạch, các mô hình ngôn ngữ lớn cũng đang đạt được sự phát triển hiệu quả bằng cách tăng mật độ năng lực.
Mật độ năng lực của các mô hình ngôn ngữ lớn tăng theo cấp số nhân theo thời gian
Nhóm nghiên cứu dựa trên một giả định cốt lõi: Các mô hình ngôn ngữ lớn có kích thước khác nhau với cùng quy trình sản xuất và được đào tạo đầy đủ sẽ có cùng mật độ năng lực. Trên cơ sở này, nhóm nghiên cứu đã chọn một mô hình chuẩn và đặt mật độ của nó là 1 làm cơ sở để đo mật độ năng lực của các mô hình khác. Mật độ năng lực của một mô hình mục tiêu nhất định được định nghĩa là tỷ lệ giữa số tham số của mô hình chuẩn có cùng năng lực với số tham số của mô hình mục tiêu.
Thông qua phân tích có hệ thống 51 mô hình lớn nguồn mở được phát hành trong những năm gần đây, nhóm nghiên cứu đã phát hiện ra một định luật quan trọng. Mật độ năng lực tối đa của các mô hình lớn tăng theo cấp số nhân theo thời gian, tăng gấp đôi trung bình cứ sau 3,5 tháng kể từ năm 2023. Điều này có nghĩa là với sự phát triển đồng bộ của "dữ liệu - năng lực tính toán - thuật toán", cùng một mức độ thông minh có thể đạt được với ít tham số hơn.
Dựa trên Định luật Mật độ, nhóm nghiên cứu đã rút ra một số suy luận quan trọng
Suy luận 1: Chi phí suy luận của các mô hình có cùng năng lực giảm theo cấp số nhân theo thời gian.
Một mặt, Định luật Mật độ chỉ ra rằng các tham số của các mô hình lớn có cùng năng lực giảm một nửa sau mỗi 3,5 tháng. Đồng thời, về mặt tối ưu hóa hệ thống suy luận, Định luật Moore thúc đẩy việc liên tục cải thiện năng lực tính toán của chip, và các công nghệ thuật toán như lượng tử hóa mô hình, lấy mẫu suy đoán và tối ưu hóa bộ nhớ video cũng liên tục tạo ra những đột phá. Với cùng chi phí suy luận, quy mô của các mô hình có thể chạy tiếp tục tăng lên. Dữ liệu thực nghiệm cho thấy giá API của các mô hình GPT cấp 3.5 đã giảm 266,7 lần trong 20 tháng, tức là giảm khoảng một nửa sau mỗi 2,5 tháng.
Suy luận 2: Mật độ năng lực của các mô hình lớn đang tăng tốc
Thống kê dựa trên MMLU làm chuẩn đánh giá cho thấy trước khi ChatGPT ra mắt, mật độ năng lực tăng gấp đôi sau mỗi 4,8 tháng, trong khi sau khi ChatGPT ra mắt, mật độ năng lực tăng gấp đôi sau mỗi 3,2 tháng, và tốc độ tăng cường mật độ tăng 50%. Điều này cho thấy với sự trưởng thành của công nghệ mô hình lớn và sự thịnh vượng của hệ sinh thái nguồn mở, việc cải thiện mật độ năng lực đang tăng tốc.
Suy luận 3: Thuật toán nén mô hình không phải lúc nào cũng nâng cao mật độ khả năng của các mô hình
Nhóm nghiên cứu đã so sánh mật độ khả năng của nhiều mô hình với các phiên bản nén của chúng và nhận thấy rằng ngoại trừ Gemma - 2 - 9B, mật độ của các mô hình nén khác như Llama - 3.2 - 3B/1B và Llama - 3.1 - minitron - 4B đều thấp hơn mật độ của các mô hình gốc. Công nghệ lượng tử hóa cũng làm giảm hiệu suất và mật độ khả năng của mô hình. Khám phá này cho thấy những hạn chế của công nghệ nén mô hình hiện tại: việc huấn luyện các mô hình nhỏ hơn trong quá trình nén thường không đủ để đạt được mật độ tối ưu.
Suy luận 4: Thu nhỏ mô hình cho thấy tiềm năng to lớn của trí tuệ biên
Giao điểm giữa hai đường cong mật độ mạch chip (Định luật Moore) và mật độ khả năng của mô hình (Định luật Mật độ) đồng nghĩa với việc các thiết bị biên sẽ có thể chạy các mô hình lớn với hiệu suất cao hơn. Điện toán biên và trí tuệ thiết bị đầu cuối sẽ có sự phát triển bùng nổ, và sức mạnh tính toán sẽ được phổ biến từ đám mây sang thiết bị đầu cuối.
Dựa trên lý thuyết Định luật Mật độ, các nhóm nghiên cứu từ Đại học Thanh Hoa và Mianbi Intelligence đã liên tục thúc đẩy nghiên cứu và phát triển các mô hình mật độ cao và cho ra mắt một loạt các mô hình mật độ cao cạnh biên như Mianbi Xiaogangpao MiniCPM, MiniCPM - V/o và VoxCPM. Nổi tiếng toàn cầu với các tính năng hiệu quả cao và chi phí thấp, chúng được đánh giá là những mô hình lớn của Trung Quốc được tải xuống và phổ biến nhất trên Hugging Face vào năm 2024. Tính đến tháng 10 năm 2025, khối lượng tải xuống mô hình đã đạt gần 15 triệu lần và số sao GitHub đạt gần 30.000.