From Beijing with Love
Cháu đã lớn thế này rồi à. Lại đây chú ôm cái coi.
Startup AI Trung Quốc DeepSeek gây chấn động khi tuyên bố mô hình AI của họ chỉ tiêu thụ khoảng 1/10 điện năng so với Llama 3.1 của Meta. Liệu đây có phải là bước ngoặt giúp giảm thiểu tác động môi trường của AI, hay chỉ là một tia hy vọng mong manh?
Tuyên bố của DeepSeek có thể mang lại ý nghĩa to lớn cho vấn đề môi trường của AI. Các gã khổng lồ công nghệ đang đổ xô xây dựng các trung tâm dữ liệu AI khổng lồ, tiêu thụ lượng điện tương đương các thành phố nhỏ, gây lo ngại về ô nhiễm và biến đổi khí hậu. Việc giảm tiêu thụ năng lượng để đào tạo và vận hành mô hình AI có thể giảm bớt gánh nặng này.
Madalsa Singh, nhà nghiên cứu tại Đại học California, Santa Barbara, nhận định: "Điều này cho thấy AI không nhất thiết phải là 'kẻ ngốn năng lượng'. Chúng ta có lựa chọn khác".
Sự chú ý đổ dồn vào DeepSeek bắt đầu từ việc ra mắt mô hình V3 vào tháng 12 với chi phí đào tạo cuối cùng chỉ 5,6 triệu USD và 2,78 triệu giờ GPU trên chip H800 cũ của Nvidia. Để so sánh, Llama 3.1 405B của Meta dù sử dụng chip H100 mới và hiệu quả hơn, lại tiêu tốn khoảng 30,8 triệu giờ GPU. (Chi phí đào tạo Llama 3.1 405B ước tính khoảng 60 triệu USD, các mô hình tương đương có thể lên tới 100 triệu đến 1 tỷ USD).
Tiếp đó, DeepSeek ra mắt mô hình R1 được nhà đầu tư mạo hiểm Marc Andreessen ca ngợi là "món quà vô giá cho thế giới". Trợ lý AI của DeepSeek nhanh chóng leo lên top đầu bảng xếp hạng ứng dụng của Apple và Google. Cổ phiếu của các đối thủ cạnh tranh lao dốc khi có tin DeepSeek V3 chỉ cần 2.000 chip để đào tạo, so với 16.000 chip hoặc hơn của các đối thủ. Cổ phiếu Nvidia cũng giảm mạnh vì lo ngại nhu cầu chip giảm.
DeepSeek cho biết họ giảm tiêu thụ điện nhờ sử dụng các phương pháp đào tạo hiệu quả hơn, cụ thể là chiến lược "auxiliary-loss-free". Singh giải thích phương pháp này giúp chọn lọc các phần mô hình cần đào tạo, không cần đào tạo toàn bộ mô hình cùng lúc, tương tự việc lựa chọn chuyên gia phù hợp trong một công ty dịch vụ khách hàng lớn. Mô hình cũng tiết kiệm năng lượng trong quá trình suy luận nhờ kỹ thuật "key value caching and compression", giúp tham khảo thông tin tóm tắt thay vì phải đọc toàn bộ báo cáo chi tiết.
Singh lạc quan về việc DeepSeek chủ yếu sử dụng mã nguồn mở (trừ dữ liệu đào tạo). Điều này giúp các nhà nghiên cứu học hỏi lẫn nhau nhanh hơn, mở ra cơ hội cho các công ty nhỏ tham gia ngành công nghiệp AI. Mã nguồn mở cũng tạo tiền lệ cho sự minh bạch và trách nhiệm giải trình, giúp nhà đầu tư và người tiêu dùng đánh giá kỹ lưỡng hơn về nguồn lực đầu tư vào phát triển mô hình AI.
Tuy nhiên, AI tiết kiệm năng lượng cũng có mặt trái. CEO Microsoft Satya Nadella đã cảnh báo về nghịch lý Jevons, khi công nghệ càng hiệu quả, càng dễ bị lạm dụng, dẫn đến tác động môi trường lớn hơn. Philip Krein, giáo sư tại Đại học Illinois Urbana-Champaign, lo ngại: "Nếu chúng ta có thể giảm mức sử dụng năng lượng của AI xuống 100 lần, liệu có nghĩa là sẽ có 1.000 nhà cung cấp dữ liệu tham gia và nói: 'Tuyệt vời! Chúng ta sẽ xây dựng, xây dựng, xây dựng gấp 1.000 lần so với kế hoạch?'"
Carlos Torres Diaz, trưởng bộ phận nghiên cứu năng lượng tại Rystad Energy, cho biết: "Chúng tôi đã tìm hiểu về DeepSeek, nhưng rất khó để tìm thấy bất kỳ dữ liệu cụ thể nào về mức tiêu thụ năng lượng của chương trình". Ông cho rằng ngay cả khi tuyên bố của DeepSeek là đúng, việc giảm tiêu thụ điện của trung tâm dữ liệu cũng có thể không đủ để giảm bớt dự báo tiêu thụ năng lượng trong tương lai.
Điều quan trọng là phải xem xét nguồn điện cung cấp cho các trung tâm dữ liệu để đánh giá tác động môi trường thực sự. Trung Quốc vẫn phụ thuộc vào than đá cho hơn 60% sản lượng điện, trong khi Mỹ cũng sử dụng nhiên liệu hóa thạch cho khoảng 60% sản lượng điện. Việc đốt nhiên liệu hóa thạch gây ô nhiễm không khí và biến đổi khí hậu. Các trung tâm dữ liệu cũng tiêu thụ lượng nước lớn để làm mát phần cứng, gây thêm căng thẳng cho các khu vực dễ bị hạn hán.
Tuy nhiên, các nhà phát triển AI có thể giảm thiểu tác động môi trường bằng cách hạn chế tiêu thụ năng lượng. Các trung tâm dữ liệu truyền thống đã đạt được tiến bộ trong việc giảm tiêu thụ năng lượng, mặc dù khối lượng công việc đã tăng gấp ba lần từ năm 2015 đến 2019. Tuy nhiên, sự phát triển của AI đã khiến các trung tâm dữ liệu tiêu thụ nhiều năng lượng hơn từ năm 2020. Các chuyên gia dự đoán các trung tâm dữ liệu có thể tiêu thụ tới 12% điện năng của Mỹ vào năm 2028, so với 4% năm 2023. Việc DeepSeek giảm tiêu thụ điện có thể là một bước tiến quan trọng hướng tới một tương lai AI bền vững hơn, nhưng vẫn còn quá sớm để khẳng định điều gì.
#DeepSeek
Tuyên bố của DeepSeek có thể mang lại ý nghĩa to lớn cho vấn đề môi trường của AI. Các gã khổng lồ công nghệ đang đổ xô xây dựng các trung tâm dữ liệu AI khổng lồ, tiêu thụ lượng điện tương đương các thành phố nhỏ, gây lo ngại về ô nhiễm và biến đổi khí hậu. Việc giảm tiêu thụ năng lượng để đào tạo và vận hành mô hình AI có thể giảm bớt gánh nặng này.
Madalsa Singh, nhà nghiên cứu tại Đại học California, Santa Barbara, nhận định: "Điều này cho thấy AI không nhất thiết phải là 'kẻ ngốn năng lượng'. Chúng ta có lựa chọn khác".
Sự chú ý đổ dồn vào DeepSeek bắt đầu từ việc ra mắt mô hình V3 vào tháng 12 với chi phí đào tạo cuối cùng chỉ 5,6 triệu USD và 2,78 triệu giờ GPU trên chip H800 cũ của Nvidia. Để so sánh, Llama 3.1 405B của Meta dù sử dụng chip H100 mới và hiệu quả hơn, lại tiêu tốn khoảng 30,8 triệu giờ GPU. (Chi phí đào tạo Llama 3.1 405B ước tính khoảng 60 triệu USD, các mô hình tương đương có thể lên tới 100 triệu đến 1 tỷ USD).
Tiếp đó, DeepSeek ra mắt mô hình R1 được nhà đầu tư mạo hiểm Marc Andreessen ca ngợi là "món quà vô giá cho thế giới". Trợ lý AI của DeepSeek nhanh chóng leo lên top đầu bảng xếp hạng ứng dụng của Apple và Google. Cổ phiếu của các đối thủ cạnh tranh lao dốc khi có tin DeepSeek V3 chỉ cần 2.000 chip để đào tạo, so với 16.000 chip hoặc hơn của các đối thủ. Cổ phiếu Nvidia cũng giảm mạnh vì lo ngại nhu cầu chip giảm.
DeepSeek cho biết họ giảm tiêu thụ điện nhờ sử dụng các phương pháp đào tạo hiệu quả hơn, cụ thể là chiến lược "auxiliary-loss-free". Singh giải thích phương pháp này giúp chọn lọc các phần mô hình cần đào tạo, không cần đào tạo toàn bộ mô hình cùng lúc, tương tự việc lựa chọn chuyên gia phù hợp trong một công ty dịch vụ khách hàng lớn. Mô hình cũng tiết kiệm năng lượng trong quá trình suy luận nhờ kỹ thuật "key value caching and compression", giúp tham khảo thông tin tóm tắt thay vì phải đọc toàn bộ báo cáo chi tiết.
Singh lạc quan về việc DeepSeek chủ yếu sử dụng mã nguồn mở (trừ dữ liệu đào tạo). Điều này giúp các nhà nghiên cứu học hỏi lẫn nhau nhanh hơn, mở ra cơ hội cho các công ty nhỏ tham gia ngành công nghiệp AI. Mã nguồn mở cũng tạo tiền lệ cho sự minh bạch và trách nhiệm giải trình, giúp nhà đầu tư và người tiêu dùng đánh giá kỹ lưỡng hơn về nguồn lực đầu tư vào phát triển mô hình AI.
Tuy nhiên, AI tiết kiệm năng lượng cũng có mặt trái. CEO Microsoft Satya Nadella đã cảnh báo về nghịch lý Jevons, khi công nghệ càng hiệu quả, càng dễ bị lạm dụng, dẫn đến tác động môi trường lớn hơn. Philip Krein, giáo sư tại Đại học Illinois Urbana-Champaign, lo ngại: "Nếu chúng ta có thể giảm mức sử dụng năng lượng của AI xuống 100 lần, liệu có nghĩa là sẽ có 1.000 nhà cung cấp dữ liệu tham gia và nói: 'Tuyệt vời! Chúng ta sẽ xây dựng, xây dựng, xây dựng gấp 1.000 lần so với kế hoạch?'"
Carlos Torres Diaz, trưởng bộ phận nghiên cứu năng lượng tại Rystad Energy, cho biết: "Chúng tôi đã tìm hiểu về DeepSeek, nhưng rất khó để tìm thấy bất kỳ dữ liệu cụ thể nào về mức tiêu thụ năng lượng của chương trình". Ông cho rằng ngay cả khi tuyên bố của DeepSeek là đúng, việc giảm tiêu thụ điện của trung tâm dữ liệu cũng có thể không đủ để giảm bớt dự báo tiêu thụ năng lượng trong tương lai.
Điều quan trọng là phải xem xét nguồn điện cung cấp cho các trung tâm dữ liệu để đánh giá tác động môi trường thực sự. Trung Quốc vẫn phụ thuộc vào than đá cho hơn 60% sản lượng điện, trong khi Mỹ cũng sử dụng nhiên liệu hóa thạch cho khoảng 60% sản lượng điện. Việc đốt nhiên liệu hóa thạch gây ô nhiễm không khí và biến đổi khí hậu. Các trung tâm dữ liệu cũng tiêu thụ lượng nước lớn để làm mát phần cứng, gây thêm căng thẳng cho các khu vực dễ bị hạn hán.
Tuy nhiên, các nhà phát triển AI có thể giảm thiểu tác động môi trường bằng cách hạn chế tiêu thụ năng lượng. Các trung tâm dữ liệu truyền thống đã đạt được tiến bộ trong việc giảm tiêu thụ năng lượng, mặc dù khối lượng công việc đã tăng gấp ba lần từ năm 2015 đến 2019. Tuy nhiên, sự phát triển của AI đã khiến các trung tâm dữ liệu tiêu thụ nhiều năng lượng hơn từ năm 2020. Các chuyên gia dự đoán các trung tâm dữ liệu có thể tiêu thụ tới 12% điện năng của Mỹ vào năm 2028, so với 4% năm 2023. Việc DeepSeek giảm tiêu thụ điện có thể là một bước tiến quan trọng hướng tới một tương lai AI bền vững hơn, nhưng vẫn còn quá sớm để khẳng định điều gì.
#DeepSeek