Chi phí khổng lồ khi theo đuổi tham vọng trí tuệ nhân tạo

Thoại Viết Hoàng
Thoại Viết Hoàng
Phản hồi: 0
[I]Tại sao Meta nhất định phải có kế hoạch đưa AI vào mọi nền tảng của mình?[/I]
Sự bùng nổ của AI sinh sản bị ràng buộc bởi tính toán. Nó có tính chất độc đáo là việc thêm nhiều tính toán trực tiếp dẫn đến một sản phẩm tốt hơn. Thông thường, đầu tư R&D được liên kết trực tiếp hơn với giá trị của một sản phẩm, và mối quan hệ đó rõ ràng là không tuyến tính. Nhưng hiện tại, điều này không phải là trường hợp với trí tuệ nhân tạo và, do đó, một yếu tố chi phối chủ yếu trong ngành hiện nay chỉ đơn giản là chi phí đào tạo và suy luận.
Trong khi chúng ta không biết con số chính xác, chúng ta đã nghe từ các nguồn đáng tin cậy rằng nguồn cung cấp tính toán bị hạn chế đến mức, nhu cầu vượt quá nó 10 lần (!) Vì vậy, chúng tôi cho rằng có lẽ nói rằng, ngay bây giờ, việc tiếp cận nguồn lực tính toán - với tổng chi phí thấp nhất - đã trở thành yếu tố quyết định cho sự thành công của các công ty AI.
Thực tế, chúng tôi đã thấy nhiều công ty chi hơn 80% tổng vốn gọi được vào nguồn lực tính toán!
Trong bài viết này, chúng tôi cố gắng phân tích các yếu tố chi phí cho một công ty AI. Các con số tuyệt đối sẽ thay đổi theo thời gian, nhưng chúng tôi không thấy sự giảm nhẹ ngay lập tức từ các công ty AI bị ràng buộc bởi việc tiếp cận nguồn lực tính toán của họ. Vì vậy, hy vọng đây là một khung suy nghĩ hữu ích để suy nghĩ qua cảnh quan.

Chi phí khổng lồ khi theo đuổi tham vọng trí tuệ nhân tạo
Có nhiều loại mô hình AI sinh sản khác nhau, và chi phí suy luận và đào tạo phụ thuộc vào kích thước và loại mô hình. May mắn thay, các mô hình phổ biến nhất hiện nay chủ yếu là kiến trúc dựa trên bộ biến đổi, bao gồm các mô hình ngôn ngữ lớn phổ biến (LLMs) như GPT-3, GPT-J hoặc BERT. Trong khi số lượng hoạt động chính xác cho suy luận và học tập của bộ biến đổi là cụ thể cho từng mô hình (xem bài viết này), có một quy tắc chung khá chính xác chỉ phụ thuộc vào số lượng tham số (tức là trọng số của các mạng nơ-ron) của mô hình và số lượng mã thông báo đầu vào và đầu ra.
Mã thông báo về cơ bản là các chuỗi ngắn của một vài ký tự. Chúng tương ứng với các từ hoặc các phần của từ. Cách tốt nhất để hiểu về mã thông báo là thử mã hóa với các trình mã hóa trực tuyến có sẵn công khai (ví dụ: OpenAI). Đối với GPT-3, độ dài trung bình của một mã thông báo là 4 ký tự.
Quy tắc chung cho bộ biến đổi là một lần truyền tiếp (tức là suy luận) cho một mô hình có p tham số cho một chuỗi đầu vào và đầu ra có độ dài n mã thông báo, mất khoảng 2 * n * p phép toán điểm chấm động (FLOPs)¹. Đào tạo cho cùng một mô hình chiếm khoảng 6 * p FLOPs cho mỗi mã thông báo (tức là lần truyền ngược bổ sung yêu cầu thêm bốn hoạt động²). Bạn có thể ước tính tổng chi phí đào tạo bằng cách nhân điều này với số lượng mã thông báo trong dữ liệu đào tạo.
Yêu cầu bộ nhớ cho bộ biến đổi cũng phụ thuộc vào kích thước mô hình. Đối với suy luận, chúng ta cần các tham số mô hình p phù hợp với bộ nhớ. Đối với việc học (tức là lan truyền ngược), chúng ta cần lưu trữ các giá trị trung gian bổ sung cho mỗi tham số giữa lần truyền tiếp và lần truyền ngược. Giả sử chúng ta sử dụng số dấu phẩy động 32 bit, đây là thêm 8 byte cho mỗi tham số. Để đào tạo một mô hình có 175 tỷ tham số, chúng ta sẽ cần giữ hơn một terabyte dữ liệu trong bộ nhớ - điều này vượt quá bất kỳ GPU nào hiện có ngày nay và yêu cầu chúng ta phân chia mô hình trên các thẻ. Yêu cầu bộ nhớ cho suy luận và đào tạo có thể được tối ưu hóa bằng cách sử dụng các giá trị dấu phẩy động có độ dài ngắn hơn, với 16 bit trở nên phổ biến và 8 bit được dự kiến trong tương lai gần.

Chi phí khổng lồ khi theo đuổi tham vọng trí tuệ nhân tạo
Bảng trên có kích thước và chi phí tính toán cho một số mô hình phổ biến. GPT-3 có khoảng 175 tỷ tham số, đối với một đầu vào và đầu ra của 1.024 mã thông báo, dẫn đến chi phí tính toán khoảng 350 nghìn tỷ phép toán điểm chấm động (tức là Teraflops hoặc TFLOPs). Đào tạo một mô hình như GPT-3 mất khoảng 3,14 * 10 ^ 23 phép toán điểm chấm động. Các mô hình khác như LLaMA của Meta có yêu cầu tính toán cao hơn. Đào tạo một mô hình như vậy là một trong những nhiệm vụ tính toán nặng nề nhất mà loài người đã thực hiện cho đến nay.
Tóm lại: Cơ sở hạ tầng AI đắt tiền vì các vấn đề thuật toán cơ bản rất khó tính toán. Độ phức tạp thuật toán của việc sắp xếp một bảng cơ sở dữ liệu có một triệu mục không đáng kể so với độ phức tạp của việc tạo ra một từ duy nhất với GPT-3. Điều này có nghĩa là bạn muốn chọn mô hình nhỏ nhất giải quyết được trường hợp sử dụng của bạn.
Tin tốt là, đối với bộ biến đổi, chúng ta có thể dễ dàng ước tính lượng tính toán và bộ nhớ mà một mô hình có kích thước nhất định sẽ tiêu thụ. Và, vì vậy, việc chọn phần cứng phù hợp trở thành sự cân nhắc tiếp theo.

Chi phí GPU

Độ phức tạp tính toán dịch sang thời gian như thế nào? Một lõi bộ xử lý thường thực hiện được 1-2 lệnh trên mỗi chu kỳ, và tốc độ xung nhịp bộ xử lý đã ổn định xung quanh 3 GHz trong 15 năm qua do kết thúc của Dennard Scaling. Thực hiện một hoạt động suy luận GPT-3 đơn lẻ mà không tận dụng bất kỳ kiến trúc song song nào sẽ mất khoảng 350 TFLOPs / (3 GHz * 1 FLOP) hoặc 116.000 giây, hoặc 32 giờ. Điều này hoàn toàn không thực tế; thay vào đó chúng ta cần các chip chuyên dụng để tăng tốc nhiệm vụ này.
Trên thực tế, tất cả các mô hình AI hiện nay đều chạy trên các card sử dụng một số lượng rất lớn các lõi chuyên dụng. Ví dụ, một GPU NVIDIA A100 có 512 “lõi tensor” có thể thực hiện phép nhân ma trận 4 × 4 (tương đương với 64 phép nhân và phép cộng, hoặc 128 FLOPs) trong một chu kỳ. Các card tăng tốc AI thường được gọi là GPU (đơn vị xử lý đồ họa), vì kiến trúc ban đầu được phát triển cho trò chơi máy tính để bàn. Trong tương lai, chúng tôi mong đợi AI sẽ ngày càng trở thành một nhóm sản phẩm riêng biệt.
A100 có hiệu suất danh nghĩa là 312 TFLOPS, theo lý thuyết sẽ giảm suy luận cho GPT-3 xuống khoảng 1 giây. Tuy nhiên, đây là một phép tính quá đơn giản vì nhiều lý do. Thứ nhất, đối với hầu hết các trường hợp sử dụng, nút cổ chai không phải là sức mạnh tính toán của GPU mà là khả năng lấy dữ liệu từ bộ nhớ đồ họa chuyên dụng đến các lõi tensor. Thứ hai, 175 tỷ trọng số sẽ chiếm 700GB và không thể vừa vào bộ nhớ đồ họa của bất kỳ GPU nào. Các kỹ thuật như phân vùng và luồng trọng số cần được sử dụng. Và thứ ba, có một số tối ưu hóa (ví dụ: sử dụng các biểu diễn điểm chấm động ngắn hơn, chẳng hạn như FP16, FP8 hoặc ma trận thưa) được sử dụng để tăng tốc tính toán. Nhưng tổng thể, toán học trên cho chúng ta một trực giác về tổng chi phí tính toán của LLM hiện nay.
Đào tạo một mô hình bộ biến đổi mất khoảng ba lần lâu hơn cho mỗi mã thông báo so với việc suy luận. Tuy nhiên, vì tập dữ liệu đào tạo khoảng 300 triệu lần lớn hơn một lời nhắc suy luận, đào tạo mất lâu hơn 1 tỷ lần. Trên một GPU đơn, đào tạo sẽ mất hàng thập kỷ; trên thực tế, điều này được thực hiện trên các cụm tính toán lớn trong các trung tâm dữ liệu chuyên dụng hoặc, có khả năng cao hơn, trong đám mây. Đào tạo cũng khó song song hóa hơn suy luận, vì trọng số được cập nhật phải được trao đổi giữa các nút. Bộ nhớ và băng thông giữa các GPU thường trở thành yếu tố quan trọng hơn nhiều, với các kết nối tốc độ cao và vải chuyên dụng là phổ biến. Đối với việc đào tạo các mô hình rất lớn, việc tạo cài đặt mạng phù hợp có thể là thách thức chính. Nhìn vào tương lai, các bộ tăng tốc AI sẽ có khả năng kết nối mạng trên card hoặc thậm chí trên chip.
Độ phức tạp tính toán này dịch sang chi phí như thế nào? Một suy luận GPT-3, như chúng ta đã thấy ở trên, mất khoảng 1 giây trên A100 sẽ có chi phí tính toán thô giữa 0,0002vaˋ 0,0014 cho 1.000 mã thông báo (điều này so sánh với giá của OpenAI là $ 0,002 / 1000 mã thông báo). Một người dùng tạo ra 100 yêu cầu suy luận một ngày sẽ có chi phí theo thứ tự đô la hàng năm. Đây là mức giá rất thấp và khiến hầu hết các trường hợp sử dụng AI dựa trên văn bản của con người có khả năng tài chính.
Đào tạo GPT-3, mặt khác, đắt tiền hơn nhiều. Một lần nữa chỉ tính chi phí tính toán cho 3,14 * 10 ^ 23 FLOPs với tỷ lệ trên cho chúng ta ước tính 560.000tre^ncaˊccardA100chomộtla^ˋnchạyđaˋotạoduynha^ˊt.Tre^nthựcte^ˊ,đểđaˋotạochuˊngtase~kho^ngnhậnđượcga^ˋnnhưhiệuquả100 500.000 đến $ 4,6 triệu, tuỳ thuộc vào giả thiết phần cứng. Lưu ý rằng đây là chi phí của một lần chạy và không phải là chi phí tổng thể. Nhiều lần chạy có thể sẽ được yêu cầu và nhà cung cấp đám mây sẽ muốn cam kết dài hạn (thêm về điều này dưới đây). Đào tạo các mô hình hàng đầu vẫn đắt tiền, nhưng trong tầm tay của một công ty khởi nghiệp được tài trợ tốt.

Cơ sở hạ tầng trong và ngoài

Hãy đối mặt với nó: GPU rất tuyệt vời. Nhiều kỹ sư và nhà sáng lập có tư duy kỹ thuật có định kiến về việc cung cấp phần cứng AI của riêng họ, không chỉ vì nó mang lại sự kiểm soát tinh tế hơn đối với việc đào tạo mô hình, mà còn vì có điều gì đó thú vị về việc khai thác lượng lớn sức mạnh tính toán (triển lãm A).
Tuy nhiên, thực tế là nhiều công ty khởi nghiệp - đặc biệt là các công ty ứng dụng - không cần xây dựng cơ sở hạ tầng AI của riêng họ vào Ngày 1. Thay vào đó, các dịch vụ mô hình được lưu trữ như OpenAI hoặc Hugging Face (cho ngôn ngữ) và Replicate (cho sinh hình ảnh) cho phép các nhà sáng lập tìm kiếm nhanh chóng phù hợp với thị trường sản phẩm mà không cần quản lý cơ sở hạ tầng hoặc mô hình cơ bản.
Những dịch vụ này đã trở nên rất tốt đến nỗi nhiều công ty không bao giờ tốt nghiệp từ chúng. Các nhà phát triển có thể đạt được sự kiểm soát có ý nghĩa đối với hiệu suất mô hình thông qua kỹ thuật nhắc nhở và các trừu tượng tinh chỉnh cao hơn (tức là, tinh chỉnh thông qua cuộc gọi API). Giá cho các dịch vụ này dựa trên tiêu thụ, vì vậy thường rẻ hơn việc chạy cơ sở hạ tầng riêng biệt. Chúng tôi đã thấy các công ty ứng dụng tạo ra hơn 50 triệu đô la ARR và được định giá trên 1 tỷ đô la, chạy các dịch vụ mô hình được lưu trữ bên trong.
Mặt khác, một số công ty khởi nghiệp - đặc biệt là những công ty đào tạo các mô hình mới hoặc xây dựng các ứng dụng AI tích hợp theo chiều dọc - không thể tránh khỏi việc chạy các mô hình của riêng họ trực tiếp trên GPU. Hoặc là bởi vì mô hình hiệu quả là sản phẩm và nhóm đang tìm kiếm “phù hợp với thị trường mô hình”, hoặc là bởi vì sự kiểm soát tinh tế hơn đối với việc đào tạo và / hoặc suy luận được yêu cầu để đạt được khả năng nhất định hoặc giảm chi phí biên ở quy mô lớn. Dù theo cách nào đi nữa, việc quản lý cơ sở hạ tầng có thể trở thành nguồn lợi thế cạnh tranh.
Trong hầu hết các trường hợp, đám mây là nơi thích hợp cho cơ sở hạ tầng AI của bạn. Chi phí ban đầu ít hơn, khả năng mở rộng lên và xuống, sẵn có khu vực và ít bị phân tâm từ việc xây dựng trung tâm dữ liệu của riêng bạn đều rất hấp dẫn đối với hầu hết các công ty khởi nghiệp và các công ty lớn hơn.
Nhưng có một số ngoại lệ cho quy tắc này:
- Nếu bạn đang hoạt động ở quy mô rất lớn, có thể trở nên hiệu quả hơn về chi phí để chạy trung tâm dữ liệu của riêng bạn. Điểm giá chính xác thay đổi dựa trên vị trí địa lý và cài đặt, nhưng thường yêu cầu chi tiêu cơ sở hạ tầng trên 50 triệu đô la mỗi năm. Bạn cần phần cứng rất cụ thể mà bạn không thể nhận được từ nhà cung cấp đám mây. Ví dụ, các loại GPU không phổ biến, cũng như các yêu cầu bộ nhớ, lưu trữ hoặc mạng không bình thường. Bạn không thể tìm thấy một đám mây có thể chấp nhận được về các yếu tố chính trị địa lý.
- Nếu bạn muốn xây dựng trung tâm dữ liệu của riêng mình, đã có phân tích giá / hiệu suất toàn diện của GPU cho cài đặt của riêng bạn (ví dụ: phân tích của Tim Dettmer). Ngoài chi phí và hiệu suất của chính thẻ, việc lựa chọn phần cứng cũng phụ thuộc vào điện, không gian và làm mát. Ví dụ, hai card RTX 3080 Ti cùng có khả năng tính toán thô tương tự như A100, nhưng lượng tiêu thụ điện năng tương ứng là 700W so với 300W. Sự khác biệt về điện năng 3.500 kWh với giá thị trường là 0,10 đô la / kWh trong vòng ba năm tăng chi phí của RTX3080 Ti gần 2 lần (khoảng 1.000 đô la).
Tất cả những điều này đã nói, chúng tôi mong đợi đa số các công ty khởi nghiệp sẽ sử dụng điện toán đám mây.

So sánh với các nhà cung cấp dịch vụ đám mây

Amazon Web Services (AWS), Microsoft Azure và Google Cloud Platform (GCP) đều cung cấp các phiên bản GPU, nhưng các nhà cung cấp mới cũng xuất hiện để tập trung vào các tác vụ AI cụ thể. Đây là một khuôn khổ mà chúng tôi đã thấy nhiều nhà sáng lập sử dụng để chọn nhà cung cấp đám mây:
Giá: Bảng dưới đây cho thấy giá cho một số đám mây chuyên ngành lớn và nhỏ hơn tính đến ngày 7 tháng 4 năm 2023. Dữ liệu này chỉ mang tính chất chỉ định, vì các phiên bản có sự khác biệt đáng kể về băng thông mạng, chi phí xuất dữ liệu, chi phí bổ sung từ CPU và mạng, giảm giá có sẵn và các yếu tố khác. Ví dụ, Google yêu cầu một phiên bản A2 tối ưu hóa tăng tốc cho A100 40GB, có thể làm tăng chi phí lên 25%.

Chi phí khổng lồ khi theo đuổi tham vọng trí tuệ nhân tạo
Năng lực tính toán trên phần cứng cụ thể là một hàng hóa. Một cách ngây thơ, chúng ta sẽ mong đợi giá khá đồng nhất, nhưng điều này không phải là trường hợp. Và trong khi sự khác biệt về tính năng đáng kể giữa các đám mây tồn tại, chúng không đủ để giải thích rằng giá cho một NVIDIA A100 theo yêu cầu thay đổi gần 4 lần giữa các nhà cung cấp.
Ở phía trên của thang giá, các đám mây công cộng lớn tính phí cao hơn dựa trên danh tiếng thương hiệu, độ tin cậy đã được chứng minh và nhu cầu quản lý một loạt các tác vụ rộng. Các nhà cung cấp AI chuyên ngành nhỏ hơn cung cấp giá thấp hơn, hoặc bằng cách chạy các trung tâm dữ liệu được xây dựng cho mục đích (ví dụ: Coreweave) hoặc đầu tư vào các đám mây khác (ví dụ: Lambda Labs).
Về mặt thực tế, hầu hết các người mua lớn hơn đàm phán giá trực tiếp với các nhà cung cấp đám mây, thường cam kết một số yêu cầu chi tiêu tối thiểu cũng như cam kết thời gian tối thiểu (chúng tôi đã thấy 1-3 năm). Sự khác biệt về giá giữa các đám mây thu hẹp lại sau khi đàm phán, nhưng chúng tôi đã thấy xếp hạng trong bảng trên vẫn ổn định. Cũng quan trọng là lưu ý rằng các công ty nhỏ có thể có được giá cả cạnh tranh từ các đám mây chuyên ngành mà không yêu cầu chi tiêu lớn.
Sẵn có: Các GPU mạnh nhất (ví dụ: Nvidia A100s) đã liên tục khan hiếm trong hơn 12 tháng qua.
Sẽ hợp lý khi nghĩ rằng ba nhà cung cấp đám mây hàng đầu có sự sẵn có tốt nhất, vì họ có sức mua lớn và nguồn tài nguyên lớn. Nhưng, hơi bất ngờ, nhiều công ty khởi nghiệp không thấy điều đó là đúng. Các đám mây lớn có rất nhiều phần cứng nhưng cũng có nhu cầu khách hàng lớn để đáp ứng - ví dụ: Azure là máy chủ chính cho ChatGPT - và liên tục thêm / thuê dung lượng để đáp ứng nhu cầu. Trong khi đó, Nvidia đã cam kết làm cho phần cứng có sẵn rộng rãi trên toàn ngành, bao gồm cả phân bổ cho các nhà cung cấp chuyên ngành mới. (Họ làm điều này cả để công bằng và giảm sự phụ thuộc vào một số khách hàng lớn cũng cạnh tranh với họ.)
Kết quả là, nhiều công ty khởi nghiệp tìm thấy nhiều chip có sẵn hơn, bao gồm cả Nvidia H100s tiên tiến, tại các nhà cung cấp đám mây nhỏ hơn. Nếu bạn sẵn sàng làm việc với một công ty hạ tầng mới, bạn có thể giảm thời gian chờ đợi cho phần cứng và có thể tiết kiệm tiền trong quá trình.
Mô hình giao hàng tính toán: Hiện nay, các đám mây lớn chỉ cung cấp các phiên bản với GPU riêng biệt, lý do là ảo hóa GPU vẫn là một vấn đề chưa được giải quyết. Các đám mây AI chuyên ngành cung cấp các mô hình khác, chẳng hạn như container hoặc công việc hàng loạt, có thể xử lý các tác vụ riêng lẻ mà không phải chịu chi phí khởi động và dỡ bỏ của một phiên bản. Nếu bạn thoải mái với mô hình này, nó có thể giảm đáng kể chi phí.
Kết nối mạng: Đối với đào tạo, cụ thể, băng thông mạng là một yếu tố quan trọng trong việc lựa chọn nhà cung cấp. Các cụm có vải chuyên dụng giữa các nút, chẳng hạn như NVLink, cần thiết để đào tạo một số mô hình lớn. Đối với việc tạo hình ảnh, phí lưu lượng ra cũng có thể là một yếu tố chi phí chính.
Hỗ trợ khách hàng: Các nhà cung cấp đám mây lớn phục vụ một lượng lớn khách hàng trên hàng nghìn SKU sản phẩm. Có thể khó để thu hút sự chú ý của bộ phận hỗ trợ khách hàng hoặc giải quyết vấn đề, trừ khi bạn là một khách hàng lớn. Nhiều đám mây AI chuyên ngành, ngược lại, cung cấp hỗ trợ nhanh chóng và phản hồi ngay cả đối với khách hàng nhỏ. Điều này một phần là do họ hoạt động ở quy mô nhỏ hơn, nhưng cũng bởi vì các tác vụ của họ đồng nhất hơn - vì vậy họ được khuyến khích tập trung vào các tính năng và lỗi cụ thể của AI.
So sánh các GPU
Nếu tất cả mọi thứ khác nhau, các GPU hàng đầu sẽ hoạt động tốt nhất trên hầu hết các tác vụ. Tuy nhiên, như bạn có thể thấy trong bảng dưới đây, phần cứng tốt nhất cũng đắt hơn đáng kể. Chọn loại GPU phù hợp cho ứng dụng cụ thể của bạn có thể giảm đáng kể chi phí và có thể tạo ra sự khác biệt giữa một mô hình kinh doanh khả thi và không khả thi.

Chi phí khổng lồ khi theo đuổi tham vọng trí tuệ nhân tạo
Quyết định đi đến đâu trong danh sách - tức là xác định các lựa chọn GPU hiệu quả về chi phí nhất cho ứng dụng của bạn - chủ yếu là một quyết định kỹ thuật nằm ngoài phạm vi của bài viết này. Nhưng chúng tôi sẽ chia sẻ dưới đây một số tiêu chí lựa chọn mà chúng tôi thấy quan trọng nhất:
Đào tạo so với suy luận: Như chúng ta đã thấy trong phần đầu tiên ở trên, đào tạo một mô hình Transformer yêu cầu chúng ta lưu trữ 8 byte dữ liệu để đào tạo ngoài trọng số mô hình. Điều này có nghĩa là một GPU tiêu dùng cao cấp thông thường với bộ nhớ 12GB có thể hầu như không thể được sử dụng để đào tạo một mô hình 4 tỷ tham số. Trên thực tế, đào tạo các mô hình lớn được thực hiện trên các cụm máy với nhiều GPU cho mỗi máy chủ, nhiều VRAM và kết nối băng thông cao giữa các máy chủ (tức là các cụm được xây dựng bằng GPU trung tâm dữ liệu hàng đầu).
Cụ thể, nhiều mô hình sẽ hiệu quả nhất về chi phí trên NVIDIA H100, nhưng tính đến ngày hôm nay, nó khó tìm và thường yêu cầu cam kết dài hạn hơn một năm. NVIDIA A100 chạy hầu hết các mô hình đào tạo ngày nay; nó dễ tìm hơn nhưng, đối với các cụm lớn, cũng có thể yêu cầu cam kết dài hạn.
Yêu cầu bộ nhớ: Các LLM lớn có số lượng tham số quá cao để phù hợp với bất kỳ thẻ nào. Chúng cần được chia thành nhiều thẻ và yêu cầu thiết lập tương tự như đào tạo. Nói cách khác, bạn có thể cần H100 hoặc A100 ngay cả cho suy luận LLM. Nhưng các mô hình nhỏ hơn (ví dụ: Stable Diffusion) yêu cầu ít VRAM hơn. Trong khi A100 vẫn phổ biến, chúng tôi đã thấy các công ty khởi nghiệp sử dụng A10, A40, A4000, A5000 và A6000 hoặc thậm chí là RTX.
Hỗ trợ phần cứng: Trong khi đa số các tác vụ trong các công ty mà chúng tôi đã nói chuyện đều chạy trên NVIDIA, một số đã bắt đầu thử nghiệm với các nhà cung cấp khác. Phổ biến nhất là Google TPU, nhưng Gaudi 2 của Intel dường như cũng đang thu hút sự quan tâm. Thách thức với những nhà cung cấp này là hiệu suất của mô hình của bạn thường phụ thuộc rất nhiều vào khả năng tối ưu hóa phần mềm cho các chip này.
Các tối ưu hóa phần mềm có thể ảnh hưởng rất lớn đến thời gian chạy của các mô hình - và lợi nhuận 10x không phải là hiếm. Tuy nhiên, bạn sẽ cần xác định phương pháp nào sẽ hiệu quả nhất với mô hình và hệ thống cụ thể của bạn.
Một số kỹ thuật hoạt động với một loạt các mô hình khá rộng. Sử dụng các biểu diễn số chấm động ngắn hơn (tức là FP16 hoặc FP8 so với FP32 ban đầu) hoặc lượng tử hóa (INT8, INT4, INT2) đạt được tăng tốc thường tuyến tính với sự giảm số bit. Điều này đôi khi yêu cầu sửa đổi mô hình, nhưng ngày càng có nhiều công nghệ có sẵn để tự động làm việc với độ chính xác hỗn hợp hoặc ngắn hơn. Cắt tỉa mạng nơ-ron giảm số lượng trọng số bằng cách bỏ qua các trọng số có giá trị thấp. Cùng với nhân ma trận thưa hiệu quả, điều này có thể đạt được tăng tốc đáng kể trên GPU hiện đại. Một tập hợp khác các kỹ thuật tối ưu hóa giải quyết nút thắt cổ chai băng thông bộ nhớ (ví dụ: bằng cách luồng trọng số mô hình).
Các tối ưu hóa khác là cụ thể cho từng mô hình. Ví dụ, Stable Diffusion đã có những tiến bộ lớn trong lượng VRAM cần thiết để suy luận. Một lớp tối ưu hóa khác là cụ thể cho phần cứng. TensorRT của NVIDIA bao gồm một số tối ưu hóa, nhưng chỉ hoạt động trên phần cứng NVIDIA. Cuối cùng nhưng không kém phần quan trọng, lập lịch các tác vụ AI có thể tạo ra các nút thắt cổ chai hoặc cải thiện hiệu suất lớn. Phân bổ các mô hình cho GPU theo cách giảm thiểu việc hoán đổi trọng số, chọn GPU tốt nhất cho một tác vụ nếu có nhiều GPU, và giảm thiểu thời gian chết bằng cách xếp hàng công việc trước là các kỹ thuật phổ biến.
Cuối cùng, tối ưu hóa mô hình vẫn là một nghệ thuật đen tối, và phần lớn các công ty khởi nghiệp mà chúng tôi đã nói chuyện làm việc với bên thứ ba để giúp đỡ với một số khía cạnh phần mềm này. Thường, những người này không phải là nhà cung cấp MLops truyền thống, mà thay vào đó là các công ty chuyên về các tối ưu hóa cho các mô hình sinh sản cụ thể (ví dụ: OctoML hoặc SegMind).
Trong những năm qua, chúng ta đã thấy sự tăng trưởng theo cấp số nhân của cả các tham số mô hình và sức mạnh tính toán GPU. Không rõ xu hướng này có tiếp tục hay không.
Hiện nay, mọi người đều chấp nhận rằng có mối quan hệ giữa số lượng tham số tối ưu và kích thước của tập dữ liệu đào tạo (xem công trình Chinchilla của Deepmind để biết thêm chi tiết). Các LLM tốt nhất hiện nay được đào tạo trên Common Crawl (một bộ sưu tập gồm 4,5 tỷ trang web, hoặc khoảng 10% số trang web hiện có). Tập dữ liệu đào tạo cũng bao gồm Wikipedia và một bộ sưu tập sách, mặc dù cả hai đều nhỏ hơn nhiều (tổng số sách hiện có được ước tính chỉ khoảng 100 triệu). Các ý tưởng khác, chẳng hạn như chuyển thành văn bản nội dung video hoặc âm thanh, đã được đề xuất, nhưng không có cái nào gần về kích thước. Không rõ liệu chúng ta có thể có được một tập dữ liệu đào tạo không tổng hợp lớn hơn 10 lần so với những gì đã được sử dụng hay không.
Hiệu suất GPU sẽ tiếp tục tăng, nhưng cũng với tốc độ chậm hơn. Định luật Moore vẫn còn nguyên vẹn cho phép có nhiều transistor và nhiều lõi hơn, nhưng điện và I / O đang trở thành các yếu tố giới hạn. Ngoài ra, nhiều trái cây treo thấp cho các tối ưu hóa đã được hái.
Tuy nhiên, điều này không có nghĩa là chúng ta không mong đợi sự gia tăng nhu cầu về dung lượng tính toán. Ngay cả khi sự phát triển của mô hình và tập dữ liệu đào tạo chậm lại, sự phát triển của ngành công nghiệp AI và sự gia tăng số lượng nhà phát triển AI sẽ thúc đẩy nhu cầu về GPU nhanh hơn và nhiều hơn. Một phần lớn dung lượng GPU được sử dụng để kiểm tra bởi các nhà phát triển trong quá trình phát triển mô hình, và nhu cầu này tăng theo tỷ lệ thuận với số lượng nhân viên. Không có dấu hiệu cho thấy khan hiếm GPU mà chúng ta đang có ngày nay sẽ giảm trong thời gian gần.
Chi phí cao liên tục của cơ sở hạ tầng AI có tạo ra một con đường khó khăn khiến cho những người mới không thể bắt kịp với những người tiên phong được tài trợ tốt? Chúng tôi chưa biết câu trả lời cho câu hỏi này. Chi phí đào tạo một LLM có thể trông giống như một con đường khó khăn ngày nay, nhưng các mô hình nguồn mở như Alpaca hoặc Stable Diffusion đã cho thấy những thị trường này vẫn còn sớm và có thể thay đổi nhanh chóng. Theo thời gian, cấu trúc chi phí của ngăn xếp phần mềm AI mới nổi (xem bài đăng trước đó của chúng tôi) có thể bắt đầu trông giống hơn với ngành công nghiệp phần mềm truyền thống.
Cuối cùng, điều này sẽ là một điều tốt: Lịch sử đã chỉ ra rằng điều này dẫn đến các hệ sinh thái sôi động với sự đổi mới nhanh chóng và nhiều cơ hội cho các nhà sáng lập doanh nghiệp.


Bài viết gốc tại đây.
 


Đăng nhập một lần thảo luận tẹt ga
Top