Tại sao GPT-4 không phải là mã nguồn mở? Đồng sáng lập OpenAI: Cách tiếp cận trước đây là 'sai lầm'

nickkordus3 · 17/04/2022

OpenAI đã phát hành GPT-4, được mô tả là "mô hình ngôn ngữ mạnh mẽ nhất và được liên kết tốt nhất cho đến nay", nhưng một phần cộng đồng AI đã thất vọng vì "thiếu thông tin công khai". Khiếu nại của họ nhấn mạnh căng thẳng ngày càng tăng về sự an toàn trong thế giới trí tuệ nhân tạo.
Theo The Verge, OpenAI đã phát hành GPT-4 mạnh mẽ, mô hình ngôn ngữ AI thế hệ tiếp theo được chờ đợi từ lâu. Các khả năng mạnh mẽ của mô hình vẫn đang được đánh giá, nhưng khi các nhà nghiên cứu và chuyên gia xem xét kỹ lưỡng các tài liệu liên quan đến nó, một số người bày tỏ sự thất vọng trước sự thật rõ ràng rằng GPT-4, do OpenAI phát hành, không phải là một mô hình AI mở.
Mặc dù OpenAI đã chia sẻ nhiều điểm chuẩn và kết quả thử nghiệm cho GPT-4, cũng như một số bản trình diễn thú vị, nhưng nó đã cung cấp rất ít thông tin về dữ liệu được sử dụng để đào tạo mô hình, chi phí năng lượng hoặc phần cứng hoặc phương pháp cụ thể được sử dụng để tạo ra nó.
Các bộ phận của cộng đồng AI đã chỉ trích quyết định này, cho rằng nó làm suy yếu đặc tính sáng lập của công ty với tư cách là một viện nghiên cứu và khiến những người khác khó tái tạo công việc của họ hơn. Có lẽ quan trọng hơn, một số người nói, nó cũng gây khó khăn cho việc phát triển các biện pháp bảo vệ chống lại các mối đe dọa do các hệ thống AI như GPT-4 gây ra.
"Tôi nghĩ điều này đã đóng lại cánh cửa cho OpenAI: họ tự hào tuyên bố trong bài báo dài 98 trang giới thiệu về GPT-4 rằng họ không tiết lộ bất cứ điều gì về tập huấn luyện", Ben Schmidt, Phó Giám đốc Thiết kế Thông tin tại Nomic AI chia sẻ trên Twitter.
Về tuyên bố này, Schmidt đề cập đến một đoạn trong báo cáo kỹ thuật GPT-4, có nội dung:
Do các điều kiện chạy đua và ý nghĩa bảo mật của các mô hình lớn như GPT-4, báo cáo này không bao gồm các chi tiết khác về kiến trúc (bao gồm cả kích thước mô hình), phần cứng, tính toán đào tạo, xây dựng tập dữ liệu, phương pháp đào tạo...

Tại sao GPT-4 không phải là mã nguồn mở? Đồng sáng lập OpenAI: Cách tiếp cận trước đây là 'sai lầm'

Trong một cuộc phỏng vấn, nhà khoa học trưởng và đồng sáng lập OpenAI Ilya Sutskever đã giải thích cách tiếp cận này. Ông cho biết lý do OpenAI không chia sẻ thêm thông tin về GPT-4 là "hiển nhiên" - sợ cạnh tranh và lo ngại về an toàn.
"Xét về bối cảnh cạnh tranh - có rất nhiều sự cạnh tranh ngoài kia - GPT-4 không dễ phát triển. Hầu hết mọi người tại OpenAI đã mất một thời gian dài để tạo ra thứ này và (hiện tại) Có rất, rất nhiều công ty muốn làm điều tương tự", ông nói.
"Tôi có thể nói rằng khía cạnh an toàn vẫn chưa nổi bật như khía cạnh cạnh tranh. Nhưng về cơ bản, nó sẽ thay đổi theo một cách nào đó, nếu ai đó muốn. Khi [các mô hình] trở nên có khả năng hơn, bạn không muốn tiết lộ chúng là điều hợp lý”.
OpenAI được thành lập vào năm 2015 và những người sáng lập của nó bao gồm Ilya Sutskever, Giám đốc điều hành hiện tại Sam Altman và Elon Musk, người hiện đã rời OpenAI. Trong một bài đăng giới thiệu trên blog, Sutskever và cộng sự cho biết mục tiêu của nhóm là "tạo ra giá trị cho mọi người, không phải cho cổ đông" và sẽ "cộng tác tự do" với những người khác trong lĩnh vực này. OpenAI bắt đầu với tư cách là một tổ chức phi lợi nhuận, nhưng sau đó đã trở thành "giới hạn lợi nhuận" để đảm bảo khoản đầu tư hàng tỷ đô la, chủ yếu là từ Microsoft.
Khi được hỏi tại sao OpenAI thay đổi cách tiếp cận để chia sẻ nghiên cứu của mình, Sutskever chỉ trả lời: "Chúng tôi đã sai. Thành thật mà nói, chúng tôi đã sai. Nếu bạn tin như chúng tôi, đến một lúc nào đó Trí thông minh AI/GA sẽ cực kỳ mạnh mẽ và mạnh mẽ đến khó tin , vì vậy không có ích gì trong việc cung cấp nguồn mở cho nó. Đó là một ý tưởng tồi... Có thể dự đoán rằng trong vòng vài năm nữa mọi người sẽ hoàn toàn hiểu rằng AI nguồn mở là không khôn ngoan".
Tuy nhiên, các ý kiến về vấn đề này khác nhau trong cộng đồng AI. Đáng chú ý, vài tuần trước khi phát hành GPT-4, một mô hình ngôn ngữ AI khác do Meta phát triển có tên là LLaMA đã bị rò rỉ trực tuyến, dẫn đến các cuộc thảo luận tương tự về các mối đe dọa và lợi ích của nghiên cứu nguồn mở. Tuy nhiên, phản ứng ban đầu của hầu hết mọi người đối với mô hình "đóng" của GPT-4 là tiêu cực.
Về vấn đề này, Schmidt cho rằng nếu không thể xem GPT-4 được đào tạo trên dữ liệu nào, thì mọi người khó biết được hệ thống có thể được sử dụng an toàn ở đâu và đề xuất sửa chữa.
William Falcon, Giám đốc điều hành của Lightning AI và là người tạo ra công cụ mã nguồn mở PyTorch Lightning, cho biết người ta có thể hiểu quyết định này từ góc độ kinh doanh. "Là một công ty, nó có mọi quyền để làm điều đó". Nhưng Falcon cũng tin rằng việc làm này tạo ra một "tiền lệ xấu" cho cộng đồng rộng lớn hơn và có thể gây ra những tác động có hại.
"Nếu mô hình này sai, và nó sẽ sai, và bạn đã thấy nó gây ảo giác và cung cấp cho bạn thông tin sai, thì xã hội nên phản ứng thế nào?" Falcon nói, "Các nhà nghiên cứu đạo đức nên phản ứng và đưa ra giải pháp như thế nào?", và nói 'Nó không hoạt động theo cách này, có lẽ nó có thể được điều chỉnh để làm điều khác?'”
Một lý do khác khiến một số người cho rằng OpenAI che giấu chi tiết về cách GPT-4 được xây dựng là trách nhiệm pháp lý. Các mô hình ngôn ngữ AI được đào tạo trên bộ dữ liệu văn bản khổng lồ, phần lớn trong số đó được lấy trực tiếp từ web và có thể bao gồm tài liệu có bản quyền. Các mô hình AI “Đồ thị Vincent”, cũng được đào tạo về nội dung internet, đang phải đối mặt với những thách thức pháp lý vì chính lý do này, với một số công ty bị các nghệ sĩ và trang thư viện hình ảnh Getty Images kiện.
Khi được hỏi liệu đó có phải là lý do tại sao OpenAI không chia sẻ dữ liệu đào tạo của mình hay không, Sutskever nói: "Tôi cho rằng dữ liệu đào tạo là công nghệ. Nó có thể không giống như vậy, nhưng thực tế là như vậy. Đúng vậy. Chúng tôi không tiết lộ dữ liệu đào tạo cũng vì lý do tương tự mà chúng tôi không tiết lộ số lượng tham số". Khi được hỏi liệu OpenAI có thể làm rõ rằng dữ liệu đào tạo của nó không bao gồm tài liệu vi phạm bản quyền hay không, Sutskever không trả lời.
Sutskever đồng ý với những người chỉ trích rằng có "giá trị" trong ý tưởng rằng một mô hình nguồn mở giúp phát triển các biện pháp an ninh. Ông nói: "Sẽ thật tuyệt nếu có nhiều người làm việc trên các mô hình này để chúng tôi có thể học hỏi thêm”. Vì những lý do này, OpenAI cung cấp cho các viện nghiên cứu và học thuật nhất định quyền truy cập vào các hệ thống của nó.
Cuộc thảo luận về nghiên cứu chia sẻ diễn ra vào thời điểm thay đổi điên cuồng trong thế giới AI, với áp lực ngày càng gia tăng trên nhiều mặt. Về phía doanh nghiệp, những gã khổng lồ công nghệ như Google và Microsoft đang gấp rút bổ sung các khả năng AI vào sản phẩm của họ, thường bỏ qua những lo ngại về đạo đức trước đây. (Microsoft gần đây đã sa thải một nhóm chuyên đảm bảo rằng các sản phẩm trí tuệ nhân tạo của họ tuân theo các nguyên tắc đạo đức). Về phía nghiên cứu, bản thân công nghệ dường như đang được cải thiện nhanh chóng, làm dấy lên mối lo ngại rằng trí tuệ nhân tạo đang trở thành một mối đe dọa nghiêm trọng và cận kề.
Jess Whittlestone, người đứng đầu chính sách AI tại Trung tâm Khả năng phục hồi Dài hạn, cho biết việc cân bằng những áp lực khác nhau này đặt ra những thách thức quản trị nghiêm trọng - điều này có thể sẽ cần sự tham gia của các cơ quan quản lý bên thứ ba.
Trong số những người không hài lòng với việc OpenAI ngày càng "đóng cửa", Elon Musk, người đã rời OpenAI do "xung đột lợi ích", đương nhiên không thể thiếu. Lần này, ông bày tỏ sự bối rối của mình:

"Tôi vẫn còn bối rối về cách một tổ chức phi lợi nhuận mà tôi đã quyên góp 100 triệu đô la trở thành một tổ chức phi lợi nhuận trị giá 30 tỷ đô la. Nếu nó hợp pháp, tại sao mọi người không làm điều đó?"