Sự thật về AI "nguồn mở": Khi các công ty lớn che giấu dữ liệu huấn luyện dưới vỏ bọc minh bạch

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
q86HShiOkQNuNBfdfKqS.jpg


  • Khoảng 50 năm trước, Homebrew Computer Club bắt đầu gặp gỡ tại Menlo Park, California, thúc đẩy văn hóa hợp tác và chia sẻ phần mềm - những giá trị đã định hình phong trào nguồn mở nhưng hiện đang bị một số công ty AI xuyên tạc.


  • Nhiều mô hình AI nền tảng được gắn nhãn "nguồn mở" chỉ vì kiến trúc của chúng được cung cấp miễn phí, trong khi rất ít thông tin về cách huấn luyện các mô hình này được tiết lộ.


  • Stefano Maffulli, giám đốc điều hành của Open Source Initiative (OSI), đã ưu tiên làm rõ ý nghĩa thực sự của thuật ngữ "nguồn mở" trong kỷ nguyên AI kể từ năm 2022.


  • Phần mềm nguồn mở truyền thống bảo vệ tính toàn vẹn của nghiên cứu bằng cách đảm bảo khả năng tái tạo và thúc đẩy hợp tác toàn cầu, cho phép các nhà khoa học chia sẻ dữ liệu và giải pháp một cách tự do.


  • Các giấy phép nguồn mở thông thường được xây dựng xung quanh mã nguồn, nhưng hệ thống AI khác biệt vì phụ thuộc nhiều vào dữ liệu huấn luyện, thường từ các nguồn độc quyền hoặc được bảo vệ bởi luật bảo mật.


  • Phân tích của OSI cho thấy nhiều mô hình ngôn ngữ lớn phổ biến như Llama2, Llama 3.x (Meta), Grok (X), Phi-2 (Microsoft) và Mixtral (Mistral AI) không tương thích với nguyên tắc nguồn mở.


  • Ngược lại, các mô hình như OLMo của Allen Institute for AI và dự án cộng đồng LLM360's CrystalCoder tuân thủ tốt hơn tầm nhìn nguồn mở của OSI.


  • Một số công ty có thể đang lạm dụng nhãn nguồn mở để tránh các quy định được đề xuất trong Đạo luật AI 2024 của Liên minh Châu Âu, vốn miễn trừ phần mềm miễn phí và nguồn mở khỏi sự giám sát nghiêm ngặt.


  • Thực tiễn này - các công ty tuyên bố mở trong khi hạn chế truy cập vào các thành phần chính như thông tin về dữ liệu huấn luyện - được gọi là "openwashing".


  • Năm 2022, OSI đã khởi động nỗ lực phát triển định nghĩa AI nguồn mở (OSAID), dẫn đến OSAID 1.0, tiêu chuẩn chính thức đầu tiên cho các hệ thống AI thực sự mở.


  • OSAID giới thiệu khái niệm "thông tin dữ liệu" - yêu cầu công bố tất cả dữ liệu khi có thể về mặt pháp lý, hoặc ít nhất là tiết lộ nguồn, đặc điểm và phương pháp chuẩn bị bộ dữ liệu huấn luyện.


  • Các nhà nghiên cứu nên đánh giá nghiêm túc các mô hình AI công khai và kiểm tra xem nhà phát triển có đang công bố tất cả chi tiết, dữ liệu và công cụ cần thiết để xây dựng một hệ thống AI tương tự hay không.


  • Chính phủ và cơ quan tài trợ có thể thúc đẩy cộng đồng khoa học áp dụng các công cụ AI khuyến khích sự cởi mở và khả năng tái tạo thực sự, như Viện Y tế Quốc gia Hoa Kỳ yêu cầu người nhận tài trợ phải phát hành dữ liệu và phần mềm nghiên cứu theo giấy phép mở.

📌 Thuật ngữ "nguồn mở" đang bị lạm dụng trong lĩnh vực AI khi nhiều công ty chỉ công khai kiến trúc nhưng giấu dữ liệu huấn luyện. OSAID 1.0 của OSI đặt ra tiêu chuẩn mới cho AI thực sự mở, đòi hỏi minh bạch về dữ liệu và quy trình, bảo vệ tính toàn vẹn khoa học và khả năng tái tạo nghiên cứu.

Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top