Google tìm ra phương pháp mới để đào tạo AI, tốt hơn gấp chục lần cách cũ

Trà Xanh · 06/07/2024

Các nhà nghiên cứu DeepMind của Google vừa công bố một phương pháp mới để tăng tốc quá trình huấn luyện AI, giảm đáng kể tài nguyên tính toán và thời gian cần thiết để thực hiện công việc. Theo một bài báo nghiên cứu gần đây, cách tiếp cận mới này đối với quy trình thường tiêu tốn nhiều năng lượng có thể giúp việc phát triển AI trở nên nhanh hơn và rẻ hơn — và đó có thể là tin tốt cho môi trường.

Nghiên cứu cho biết: "Phương pháp của chúng tôi — học đối sánh đa phương thức với lựa chọn ví dụ chung (JEST) — vượt trội hơn các mô hình hiện đại với số lần lặp lại ít hơn tới 13 lần và tính toán ít hơn 10 lần."

Ngành công nghiệp AI được biết đến với mức tiêu thụ năng lượng cao. Các hệ thống AI quy mô lớn như ChatGPT yêu cầu sức mạnh xử lý lớn, do đó đòi hỏi rất nhiều năng lượng và nước để làm mát các hệ thống này. Ví dụ, mức tiêu thụ nước của Microsoft được cho là đã tăng đột biến 34% từ năm 2021 đến năm 2022 do nhu cầu tính toán AI tăng lên, trong đó ChatGPT bị cáo buộc tiêu thụ gần nửa lít nước sau mỗi 5 đến 50 lời nhắc.

Cơ quan Năng lượng Quốc tế (IEA) dự báo rằng mức tiêu thụ điện của trung tâm dữ liệu sẽ tăng gấp đôi từ năm 2022 đến năm 2026 — so sánh nhu cầu năng lượng của AI với hồ sơ năng lượng thường bị chỉ trích của ngành khai thác tiền điện tử.

Tuy nhiên, các phương pháp tiếp cận như JEST có thể đưa ra giải pháp. Google cho biết, bằng cách tối ưu hóa lựa chọn dữ liệu để đào tạo AI, JEST có thể giảm đáng kể số lần lặp lại và sức mạnh tính toán cần thiết, từ đó có thể giảm mức tiêu thụ năng lượng tổng thể. Phương pháp này phù hợp với những nỗ lực nhằm cải thiện hiệu quả của các công nghệ AI và giảm thiểu tác động của chúng đối với môi trường.

Nếu kỹ thuật này chứng minh được hiệu quả trên quy mô lớn, các nhà đào tạo AI sẽ chỉ cần một phần năng lượng được sử dụng để đào tạo mô hình của họ. Điều này có nghĩa là họ có thể tạo ra các công cụ AI mạnh mẽ hơn với cùng một nguồn lực mà họ hiện đang sử dụng hoặc tiêu thụ ít tài nguyên hơn để phát triển các mô hình mới hơn.

JEST hoạt động bằng cách chọn các lô dữ liệu bổ sung để tối đa hóa khả năng học hỏi của mô hình AI. Không giống như các phương pháp truyền thống chọn các ví dụ riêng lẻ, thuật toán này xem xét thành phần của toàn bộ tập hợp.

Ví dụ, hãy tưởng tượng bạn đang học nhiều ngôn ngữ. Thay vì học tiếng Anh, tiếng Đức và tiếng Na Uy một cách riêng biệt, có lẽ theo thứ tự độ khó, bạn có thể thấy việc học chúng cùng nhau theo cách mà kiến thức về ngôn ngữ này hỗ trợ cho việc học ngôn ngữ khác sẽ hiệu quả hơn.

Google đã thực hiện một cách tiếp cận tương tự và nó đã chứng tỏ thành công.

Các nhà nghiên cứu cho biết trong bài báo của họ: “Chúng tôi chứng minh rằng việc cùng lựa chọn các lô dữ liệu sẽ hiệu quả hơn cho việc học so với việc lựa chọn các ví dụ một cách độc lập”.

Để làm như vậy, các nhà nghiên cứu của Google đã sử dụng “học đối sánh đa phương thức”, trong đó quy trình JEST xác định các phụ thuộc giữa các điểm dữ liệu. Phương pháp này cải thiện tốc độ và hiệu quả của đào tạo AI trong khi yêu cầu ít sức mạnh tính toán hơn nhiều.

Google lưu ý, chìa khóa của phương pháp này là bắt đầu với các mô hình tham chiếu được đào tạo trước để định hướng quy trình lựa chọn dữ liệu. Kỹ thuật này cho phép mô hình tập trung vào các bộ dữ liệu chất lượng cao, được quản lý tốt, tiếp tục tối ưu hóa hiệu quả đào tạo.

Bài báo giải thích: “Chất lượng của một lô cũng là một hàm của thành phần của nó, ngoài chất lượng được tổng hợp của các điểm dữ liệu của nó được xem xét độc lập”.

Các thí nghiệm của nghiên cứu cho thấy hiệu suất tăng vững chắc trên các tiêu chuẩn khác nhau. Ví dụ, đào tạo trên bộ dữ liệu WebLI phổ biến bằng cách sử dụng JEST cho thấy những cải thiện đáng kể về tốc độ học tập và hiệu quả sử dụng tài nguyên.

Các nhà nghiên cứu cũng phát hiện ra rằng thuật toán này đã nhanh chóng phát hiện ra các lô con có khả năng học hỏi cao, đẩy nhanh quá trình đào tạo bằng cách tập trung vào các phần dữ liệu cụ thể “khớp” với nhau. Kỹ thuật này, được gọi là "khởi động chất lượng dữ liệu", coi trọng chất lượng hơn số lượng và đã được chứng minh là tốt hơn cho đào tạo AI.

Bài báo viết: “Một mô hình tham chiếu được đào tạo trên một bộ dữ liệu được quản lý nhỏ có thể hướng dẫn hiệu quả việc quản lý một bộ dữ liệu lớn hơn nhiều, cho phép đào tạo một mô hình vượt trội hơn hẳn chất lượng của mô hình tham chiếu trên nhiều nhiệm vụ sau đó”.