AMD tung ra mô hình AI tự phát triển đầu tiên, mã nguồn mở

A-Train The Seven · 11:16

Trong bối cảnh trí tuệ nhân tạo (AI) không ngừng phát triển, các mô hình ngôn ngữ lớn (LLM) như GPT-4 và Llama đã thu hút sự chú ý đáng kể với khả năng ấn tượng trong xử lý và tạo ngôn ngữ tự nhiên. Tuy nhiên, các mô hình ngôn ngữ nhỏ (SLM) đang nổi lên như một đối tác quan trọng trong cộng đồng mô hình AI, mang đến lợi thế độc đáo cho các trường hợp sử dụng cụ thể. AMD rất vui mừng được phát hành mô hình ngôn ngữ nhỏ đầu tiên của mình, AMD-135M với Giải mã Suy đoán. Công việc này thể hiện cam kết của hãng đối với cách tiếp cận mở đối với AI, điều này sẽ dẫn đến tiến bộ công nghệ bao trùm, đạo đức và đổi mới hơn, giúp đảm bảo rằng lợi ích của nó được chia sẻ rộng rãi hơn và những thách thức của nó được giải quyết một cách hợp tác hơn.

AMD-135M là mô hình ngôn ngữ nhỏ đầu tiên dành cho gia đình Llama được đào tạo từ đầu trên bộ gia tốc AMD Instinct™ MI250 sử dụng 670 tỷ mã thông báo và được chia thành hai mô hình: AMD-Llama-135M và AMD-Llama-135M-code.

Tiền đào tạo: Mô hình AMD-Llama-135M được đào tạo từ đầu với 670 tỷ mã thông báo dữ liệu chung trong sáu ngày sử dụng bốn nút MI250.
Tinh chỉnh mã: Biến thể AMD-Llama-135M-code được tinh chỉnh với thêm 20 tỷ mã thông báo dữ liệu mã, mất bốn ngày trên cùng phần cứng.

Mã đào tạo, bộ dữ liệu và trọng số cho mô hình này là mã nguồn mở để các nhà phát triển có thể tái tạo mô hình và giúp đào tạo các SLM và LLM khác.

Các mô hình ngôn ngữ lớn thường sử dụng phương pháp tự hồi quy để suy luận. Tuy nhiên, hạn chế chính của phương pháp này là mỗi bước chuyển tiếp chỉ có thể tạo ra một mã thông báo duy nhất, dẫn đến hiệu quả truy cập bộ nhớ thấp và ảnh hưởng đến tốc độ suy luận tổng thể.

Sự xuất hiện của giải mã suy đoán đã giải quyết vấn đề này. Nguyên tắc cơ bản liên quan đến việc sử dụng một mô hình nháp nhỏ để tạo ra một bộ mã thông báo ứng cử viên, sau đó được xác minh bằng mô hình mục tiêu lớn hơn. Phương pháp này cho phép mỗi lượt chuyển tiếp tạo ra nhiều mã thông báo mà không ảnh hưởng đến hiệu suất, do đó giảm đáng kể lượng tiêu thụ truy cập bộ nhớ và cho phép cải thiện tốc độ lên hàng cấp độ.

Sử dụng AMD-Llama-135M-code làm mô hình nháp cho CodeLlama-7b, chúng tôi đã kiểm tra hiệu suất suy luận có và không có giải mã suy đoán trên bộ gia tốc MI250 dành cho trung tâm dữ liệu và bộ xử lý Ryzen™ AI (với NPU) dành cho PC AI. Đối với cấu hình cụ thể mà chúng tôi đã kiểm tra bằng cách sử dụng AMD-Llama-135M-code làm mô hình nháp, chúng tôi đã thấy tốc độ tăng trên bộ gia tốc Instinct MI250, CPU Ryzen AI [2] và trên NPU Ryzen AI [2] so với suy luận không có giải mã suy đoán. [3] SLM AMD-135M thiết lập quy trình làm việc đầu cuối, bao gồm cả đào tạo và suy luận, trên các nền tảng AMD được chọn lọc.

AMD đã mở nguồn mã đào tạo, bộ dữ liệu và trọng số cho mô hình AMD-135M, cho phép các nhà phát triển tái tạo mô hình và góp phần đào tạo các SLM và LLM khác. Động thái này thể hiện cam kết của công ty trong việc thúc đẩy sự phát triển của AI theo hướng mở và chia sẻ rộng rãi hơn lợi ích của công nghệ này.