Cerebras-GPT: Một họ các mô hình ngôn ngữ lớn, mở, hiệu quả về điện toán

Cerebras mã nguồn mở bảy mô hình GPT-3 từ 111 triệu đến 13 tỷ thông số. Được đào tạo bằng công thức Chinchilla, các mô hình này đặt ra các tiêu chuẩn mới về độ chính xác và hiệu quả tính toán.
Cerebras-GPT: Một họ các mô hình ngôn ngữ lớn, mở, hiệu quả về điện toán

Các mô hình ngôn ngữ hiện đại cực kỳ khó đào tạo; chúng yêu cầu ngân sách điện toán khổng lồ, kỹ thuật điện toán phân tán phức tạp và kiến
thức chuyên môn sâu về ML. Do đó, rất ít tổ chức đào tạo các mô hình ngôn ngữ lớn (LLM) từ đầu. Và ngày càng nhiều những người có tài nguyên và chuyên môn không cung cấp nguồn mở cho các kết quả, đánh dấu một sự thay đổi đáng kể kể từ vài tháng trở lại đây.
Tại Cerebras, chúng tôi tin tưởng vào việc thúc đẩy quyền truy cập mở vào các mô hình tiên tiến nhất. Với suy nghĩ này, chúng tôi tự hào công bố việc phát hành cho cộng đồng mã nguồn mở Cerebras-GPT, một nhóm gồm bảy mô hình GPT có phạm vi từ 111 triệu đến 13 tỷ tham số. Được đào tạo bằng công thức Chinchilla, các mô hình này cung cấp độ chính xác cao nhất cho ngân sách điện toán nhất định. Cerebras-GPT có thời gian đào tạo nhanh hơn, chi phí đào tạo thấp hơn và tiêu thụ ít năng lượng hơn bất kỳ mô hình nào được công khai cho đến nay.
Tất cả các mô hình đã được đào tạo trên các hệ thống CS-2 là một phần của siêu máy tính Andromeda AI bằng cách sử dụng kiến
trúc truyền tải trọng lượng dữ liệu song song, đơn giản của chúng tôi. Nhờ không phải lo lắng về việc phân vùng mô hình, chúng tôi có thể huấn luyện các mô hình này chỉ trong vài tuần. Đào tạo bảy mô hình này đã cho phép chúng tôi rút ra một quy luật chia tỷ lệ mới. Luật chia tỷ lệ dự đoán độ chính xác của mô hình dựa trên ngân sách tính toán đào tạo và có ảnh hưởng lớn trong việc hướng dẫn nghiên cứu AI. Theo hiểu biết tốt nhất của chúng tôi, Cerebras-GPT là luật mở rộng quy mô đầu tiên dự đoán hiệu suất mô hình cho tập dữ liệu công khai.
Bản phát hành hôm nay được thiết kế để bất kỳ ai cũng có thể sử dụng và tái sản xuất. Tất cả các mô hình, trọng số và điểm kiểm tra đều có sẵn trên Ôm mặt và GitHub theo giấy phép Apache 2.0. Ngoài ra, chúng tôi cung cấp thông tin chi tiết về các phương pháp đào tạo và kết quả hoạt động trong bài báo của chúng tôi, "Cerebras-GPT: Các mô hình ngôn ngữ điện toán mở tối ưu được đào tạo trên cụm quy mô lát mỏng của Cerebras". Các hệ thống Cerebras CS-2 được sử dụng để đào tạo cũng có sẵn theo yêu cầu thông qua Cerebras Model Studio.
Cerebras-GPT: Mô hình mới để phát triển LLM mở
Trí tuệ nhân tạo có tiềm năng biến đổi nền kinh tế thế giới, nhưng khả năng tiếp cận của nó ngày càng bị hạn chế. Mô hình ngôn ngữ lớn mới nhất – GPT4 của OpenAI – đã được phát hành mà không có thông tin về kiến
trúc mô hình, dữ liệu đào tạo, phần cứng đào tạo hoặc siêu tham số. Các công ty đang ngày càng xây dựng các mô hình lớn bằng cách sử dụng bộ dữ liệu đóng và chỉ cung cấp kết quả đầu ra của mô hình thông qua quyền truy cập API.
Cerebras-GPT: Một họ các mô hình ngôn ngữ lớn, mở, hiệu quả về điện toán
Để các LLM trở thành một công nghệ mở và dễ tiếp cận, chúng tôi tin rằng điều quan trọng là phải có quyền truy cập vào các mô hình hiện đại mở, có thể tái sản xuất và miễn phí bản quyền cho cả ứng dụng nghiên cứu và thương mại. Để đạt được mục tiêu đó, chúng tôi đã đào tạo một nhóm các mô hình máy biến áp bằng cách sử dụng các kỹ thuật mới nhất và bộ dữ liệu mở mà chúng tôi gọi là Cerebras-GPT. Các mô hình này là dòng mô hình GPT đầu tiên được đào tạo bằng công thức Chinchilla và được phát hành thông qua giấy phép Apache 2.0.
Cerebras-GPT: Một họ các mô hình ngôn ngữ lớn, mở, hiệu quả về điện toán
Các mô hình ngôn ngữ lớn có thể được phân loại thành hai phe. Nhóm đầu tiên bao gồm các mô hình như GPT-4 của OpenAI và Chinchilla của DeepMind, được đào tạo về dữ liệu riêng tư để đạt được mức độ chính xác cao nhất. Tuy nhiên, trọng số được đào tạo và mã nguồn của các mô hình này không có sẵn cho công chúng. Nhóm thứ hai bao gồm các mô hình như Meta's OPT và Eleuther's Pythia, là nguồn mở nhưng không được đào tạo theo cách tối ưu cho máy tính.
Bằng thuật ngữ “tối ưu điện toán”, chúng tôi đề cập đến phát hiện của DeepMind rằng các mô hình ngôn ngữ lớn đạt được độ chính xác cao nhất đối với ngân sách điện toán cố định khi 20 mã thông báo dữ liệu được sử dụng cho mọi tham số trong mô hình. Do đó, mô hình một tỷ tham số nên được đào tạo trên 20 tỷ mã thông báo dữ liệu để đạt được kết quả tối ưu cho ngân sách đào tạo cố định. Điều này đôi khi được gọi là "công thức Chinchilla."
Một hàm ý của phát hiện này là việc sử dụng cùng một lượng dữ liệu đào tạo khi đào tạo một nhóm kích thước mô hình là không tối ưu. Chẳng hạn, đào tạo một mô hình nhỏ với quá nhiều dữ liệu dẫn đến lợi nhuận giảm dần và mức tăng độ chính xác trên mỗi FLOP kém hơn – sẽ tốt hơn nếu sử dụng một mô hình lớn hơn với ít dữ liệu hơn. Ngược lại, một mô hình lớn được đào tạo trên quá ít dữ liệu sẽ không đạt được tiềm năng của nó – sẽ tốt hơn nếu giảm kích thước mô hình và cung cấp thêm dữ liệu cho nó. Trong mỗi trường hợp, sử dụng 20 mã thông báo cho mỗi tham số là tối ưu, theo công thức Chinchilla.
Cerebras-GPT: Một họ các mô hình ngôn ngữ lớn, mở, hiệu quả về điện toán
Luật mở rộng quy mô rất quan trọng đối với sự phát triển của LLM vì chúng cho phép các nhà nghiên cứu dự đoán mức độ mất mát dự kiến

của một mô hình trước khi đào tạo, do đó tránh được việc tìm kiếm siêu tham số tốn kém. OpenAI là công ty đầu tiên thiết lập quy luật chia tỷ lệ thể hiện mối quan hệ quy luật lũy thừa giữa tính toán và tổn thất mô hình. DeepMind đã làm theo nghiên cứu Chinchilla, chứng minh tỷ lệ tối ưu giữa điện toán và dữ liệu. Tuy nhiên, những nghiên cứu này được thực hiện bằng cách sử dụng bộ dữ liệu đóng, khiến chúng khó áp dụng kết quả cho các bộ dữ liệu khác.
Cerebras-GPT tiếp tục dòng nghiên cứu này bằng cách thiết lập luật chia tỷ lệ dựa trên bộ dữ liệu Pile mở. Luật chia tỷ lệ kết quả cung cấp một công thức tính toán hiệu quả để đào tạo LLM ở mọi kích cỡ bằng cách sử dụng Pile. Bằng cách xuất bản những phát hiện của mình, chúng tôi hy vọng sẽ cung cấp một nguồn tài nguyên quý giá cho cộng đồng và thúc đẩy hơn nữa sự phát triển của các mô hình ngôn ngữ lớn.
Hiệu suất mô hình trên các tác vụ xuôi dòng
Chúng tôi đã đánh giá hiệu suất của Cerebras-GPT trên một số tác vụ ngôn ngữ cụ thể như hoàn thành câu và hỏi và trả lời. Những điều này rất quan trọng bởi vì mặc dù các mô hình có thể hiểu ngôn ngữ tự nhiên tốt, nhưng điều đó có thể không chuyển thành các tác vụ chuyên biệt ở hạ lưu. Chúng tôi cho thấy rằng Cerebras-GPT duy trì hiệu quả đào tạo tiên tiến nhất cho hầu hết các tác vụ hạ nguồn phổ biến, như thể hiện trong các ví dụ ở Hình 4. Đáng chú ý là trong khi các luật thay đổi quy mô trước đây đã chỉ ra tỷ lệ thất thoát trước khi đào tạo, thì đây là lần đầu tiên kết quả đã được công bố cho thấy tỷ lệ cho các tác vụ ngôn ngữ tự nhiên xuôi dòng.
Cerebras CS-2: Đào tạo đơn giản, dữ liệu song song
Cần có chuyên môn kỹ thuật đáng kể để đào tạo các mô hình rất lớn trên GPU. Trong Báo cáo kỹ thuật GPT-4 được phát hành gần đây, OpenAI ghi nhận hơn 30 người đóng góp chỉ cho cơ sở hạ tầng điện toán và mở rộng quy mô. Để hiểu lý do tại sao, chúng ta sẽ xem xét các kỹ thuật mở rộng quy mô LLM hiện có trên GPU được hiển thị trong Hình 5.

Cách đơn giản nhất để mở rộng quy mô là dữ liệu song song. Chia tỷ lệ song song dữ liệu sao chép mô hình trong từng thiết bị và sử dụng các đợt đào tạo khác nhau trên các thiết bị đó, lấy trung bình độ dốc của chúng. Rõ ràng, điều này không giải quyết được vấn đề về kích thước mô hình – nó sẽ thất bại nếu toàn bộ mô hình không vừa với một GPU.

Một cách tiếp cận thay thế phổ biến là song song mô hình đường ống, chạy các lớp khác nhau trên các GPU khác nhau dưới dạng đường ống. Tuy nhiên, khi đường ống phát triển, bộ nhớ kích hoạt tăng theo phương trình bậc hai với độ sâu của đường ống và điều này có thể gây khó khăn cho các mô hình lớn. Để tránh điều đó, một cách tiếp cận phổ biến khác là phân chia các lớp trên các GPU, được gọi là song song mô hình tensor, nhưng điều này áp đặt giao tiếp quan trọng giữa các GPU, khiến việc triển khai trở nên phức tạp và có thể bị chậm.

Do những sự phức tạp này, ngày nay không có cách duy nhất nào để mở rộng quy mô trên các cụm GPU. Đào tạo các mô hình lớn trên GPU yêu cầu một cách tiếp cận kết hợp với tất cả các dạng song song; việc triển khai rất phức tạp và khó đưa ra, đồng thời có những vấn đề đáng kể về hiệu suất

Hai mô hình ngôn ngữ lớn gần đây minh họa sự phức tạp liên quan đến việc phân tách các mô hình ngôn ngữ lớn trên nhiều GPU (Hình 6). Mô hình OPT của Meta, với các tham số từ 125M đến 175B đã được đào tạo trên 992 GPU bằng cách sử dụng kết hợp tính song song dữ liệu và tính song song tensor cùng với các kỹ thuật tối ưu hóa bộ nhớ khác nhau. Tham số 20B của Eleuther GPT-NeoX đã sử dụng dữ liệu kết hợp, tensor và tính song song của đường ống để đào tạo mô hình trên 96 GPU.
Cerebras GPT đã được đào tạo bằng cách sử dụng song song dữ liệu tiêu chuẩn trên 16 hệ thống CS-2. Điều này có thể thực hiện được vì hệ thống Cerebras CS-2 được trang bị đủ bộ nhớ để chạy ngay cả những mô hình lớn nhất trên một thiết bị mà không cần chia nhỏ mô hình. Sau đó, chúng tôi đã thiết kế Cụm quy mô wafer Cerebras được xây dựng có mục đích xung quanh CS-2 để cho phép dễ dàng mở rộng quy mô. Nó sử dụng một thực thi đồng thiết kế HW/SW được gọi là phân luồng trọng lượng cho phép chia tỷ lệ kích thước mô hình và kích thước cụm độc lập mà không cần mô hình song song. Với kiến trúc này, việc mở rộng quy mô thành các cụm lớn hơn cũng đơn giản như thay đổi số lượng hệ thống trong một tệp cấu hình, như thể hiện trong Hình 7.
Cerebras-GPT: Một họ các mô hình ngôn ngữ lớn, mở, hiệu quả về điện toán
Chúng tôi đã đào tạo tất cả các mẫu Cerebras-GPT trên Cụm tỷ lệ mỏng wafer Cerebras CS-2 16x có tên là Andromeda. Cụm này cho phép tất cả các thử nghiệm được hoàn thành nhanh chóng mà không cần kỹ thuật hệ thống phân tán truyền thống và điều chỉnh song song mô hình cần thiết trên các cụm GPU. Quan trọng nhất, nó cho phép các nhà nghiên cứu của chúng tôi tập trung vào thiết kế ML thay vì hệ thống phân tán. Chúng tôi tin rằng khả năng dễ dàng đào tạo các mô hình lớn là yếu tố hỗ trợ chính cho cộng đồng rộng lớn, vì vậy chúng tôi đã cung cấp Cụm quy mô lát mỏng Cerebras trên đám mây thông qua Studio mô hình AI của Cerebras.
Phần kết luận
Tại Cerebras, chúng tôi tin rằng việc dân chủ hóa các mô hình lớn đòi hỏi phải giải quyết cả thách thức về cơ sở hạ tầng đào tạo và mở ra nhiều mô hình hơn cho cộng đồng. Để đạt được mục tiêu đó, chúng tôi đã thiết kế Cụm quy mô lát mỏng Cerebras với khả năng mở rộng quy mô bằng nút bấm và chúng tôi đang cung cấp nguồn mở cho dòng mô hình thế hệ lớn Cerebras-GPT. Chúng tôi hy vọng rằng với tư cách là bộ mô hình GPT lớn công khai đầu tiên với hiệu quả đào tạo hiện đại, Cerebras-GPT sẽ đóng vai trò là công thức đào tạo hiệu quả và là tài liệu tham khảo cho nghiên cứu cộng đồng sau này. Ngoài ra, chúng tôi đang cung cấp cả cơ sở hạ tầng và mô hình trên đám mây thông qua Cerebras AI Model Studio. Chúng tôi tin rằng thông qua cơ sở hạ tầng đào tạo tốt hơn và chia sẻ cộng đồng nhiều hơn, chúng ta có thể cùng nhau thúc đẩy hơn nữa ngành công nghiệp AI rộng lớn.
Tác giả
Nolan Dey, Nhà khoa học nghiên cứu; Joel Hestness, Nhà khoa học nghiên cứu chính; Sean Lie, Kiến trúc sư phần cứng trưởng và đồng sáng lập | 28 tháng 3 năm 2023
Tác giả đóng góp
Nolan Dey, Gurpreet Gosal, Charles Chen, Hemant Khachane, William Marshall, Ribhu Pathria, Marvin Tom, Joel Hestness.
Nguồn:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top