VNR Content
Pearl
Theo OpenAI, họ đã đình chỉ tài khoản của Byte vào thứ Sáu tuần trước. Chính xác thì chuyện gì đã xảy ra vẫn đang được điều tra thêm.
Theo The Verge, ByteDance đang âm thầm sử dụng API của OpenAI để thực hiện một số việc “không mấy vẻ vang”.
Không giống như những người sử dụng AI để xuất bản báo cáo hàng tuần nhằm đánh lừa lãnh đạo của họ, theo The Verge, Bytedance đang trực tiếp sử dụng OpenAI để đào tạo mô hình lớn của riêng mình.
Nói chung, mình không quá chú ý đến những tin đồn tương tự, dù sao thì những tin tức liên quan thỉnh thoảng lại xuất hiện, chẳng hạn như đóng thùng cho các mô hình lớn, sử dụng các mô hình lớn của công ty khác để huấn luyện các mô hình lớn của riêng họ, v.v. Và tất cả chỉ là tin đồn, không có kết quả cụ thể cũng như không có bước theo dõi.
Nhưng lần này thì khác, ít nhất những thông tin nội bộ trong báo cáo có vẻ là sự thật. Họ cho biết họ đã lấy được một tài liệu bị rò rỉ từ Bytedance. Nó chủ yếu nói về quá trình phát triển dự án mô hình lớn của hãng - "Kế hoạch hạt giống", ở hầu hết mọi giai đoạn, bao gồm cảđào tạo các mô hình lớn của Byte đều sử dụng API của OpenAI. Ngoài ra, các bản ghi trò chuyện nội bộ như cách "sử dụng tính năng giải mẫn cảm dữ liệu để tránh bị người khác bắt gặp" cũng đã bị lộ.
Cùng với lệnh cấm tài khoản trực tiếp của OpenAI, Bytedance thực sự xác nhận nội dung của báo cáo.
Dù sao, một lúc sau, cư dân mạng TQ lần lượt ra ăn dưa, đủ loại bình luận về những mô hình ngôn ngữ lớn Trung Quốc:
"Không trách các mẫu ngôn ngữ lớn trong nước đều phát triển nhanh như vậy. Họ đang muốn ăn trộm ChatGPT à?" "Tất cả các mẫu lớn trong nước đều có mùi giống ChatGPT. Vậy ra vấn đề nằm ở chỗ đó".
Các phương tiện truyền thông Trung Quốc đều đăng lại bài báo của The Verge, chủ đề này thậm chí còn lọt vào danh sách nóng trên mạng xã hội.
Tuy nhiên, hôm nay mình lại thấy truyền thông Trung Quốc có vẻ bênh doanh nghiệp nhà. Họ cho rằng so với những thủ đoạn đơn giản, thô thiển, thậm chí không đáy thì phương pháp này thực sự... văn minh hơn rất nhiều. Trong lĩnh vực mô hình ngôn ngữ lớn, họ thường gọi đó là "chắt lọc kiến thức".
Vì sao, Bytedance sử dụng một mô hình lớn tiên tiến gần như đã được đào tạo để tạo ra một số kho văn bản chất lượng cao, sau đó cung cấp kho văn bản được tạo ra cho một mô hình nhỏ hơn.
Nói một cách dễ hiểu, việc chắt lọc kiến thức từ các mô hình lớn giúp mọi người tiết kiệm nỗ lực gắn nhãn dữ liệu và trích xuất tập tin chất lượng cao ngay từ đầu. Còn một cách thô thiển hơn, đây là việc ăn đồ ăn mà người khác đã nhai rồi nên bạn có thể lười biếng và tiết kiệm công sức.
Nhìn thấy thế chắc có người đã nói, chẳng phải người ta chỉ dùng những mô hình lớn thôi sao?
Có lẽ OpenAI đã mong đợi động thái này từ lâu. Để ngăn chặn việc dữ liệu của mình bị thu thập và chắt lọc, OpenAI đã đưa vào Thỏa thuận dịch vụ. Không chỉ các doanh nghiệp mà cả các nhà phát triển cá nhân, OpenAI cấm họ sử dụng các mô hình lớn của OpenAI để phát triển các sản phẩm cạnh tranh.
Đối vớingười dùng thông thường, OpenAI cũng không tha. Nó đặt xiềng xích trên cả ChatGPT và DALL·E, đồng thời ngăn bất kỳ sử dụng nội dung đầu ra để đào tạo các mô hình cạnh tranh với OpenAI.
Chỉ cần bạn vi phạm các quy định trên, theo tuyên bố chính thức, dịch vụ sẽ bị chấm dứt bất cứ lúc nào.
Những quy định này giống như lời nguyền siết chặt vòng kim cô của Đường Tăng, ngày càng chặt chẽ hơn... Bất cứ ai tinh ý cũng có thể thấy OpenAI đã có những biện pháp nghiêm ngặt trong lĩnh vực “bảo mật dữ liệu” của riêng mình.
Mặc dù API mà Bytedance sử dụng không được mua trực tiếp từ OpenAI mà là dịch vụ đám mây Azure OpenAI trên Microsoft Azure. Nhưng nếu bạn mua nó từ Microsoft, bạn cũng bị ràng buộc bởi thỏa thuận này.
Có lẽ vì những lý do này mà đã xảy ra tình trạng tài khoản bị chặn trước rồi mới điều tra thêm về Byte.
Về phía Bytedance, trước hết, họ cho biết khi phát triển các mô hình lớn, họ chỉ sử dụng dịch vụ API của GPT trong giai đoạn thăm dò ban đầu, còn mô hình trong giai đoạn thăm dò chỉ để thử nghiệm và không trực tuyến để sử dụng bên ngoài. Và theo Byte, vào tháng 4 năm nay họ đã quy định rõ ràng trong nội bộ rằng họ không được sử dụng dữ liệu do GPT tạo ra để đào tạo các mô hình lớn của riêng mình.
Quan trọng hơn, họ nói rằng họ đã tiến hành một cuộc kiểm tra nội bộ vào tháng 9 và nhiệm vụ chính là xem dữ liệu đào tạo của họ giống với GPT như thế nào.
Trong những ngày tới, họ cũng đang chuẩn bị tiến hành một cuộc kiểm tra toàn diện khác để đảm bảo tuân thủ nghiêm ngặt các điều khoản sử dụng các dịch vụ liên quan.
Cho đến nay, các phản hồi từ tất cả các bên vẫn còn trái chiều. Về việc Byte có vi phạm thỏa thuận dịch vụ của OpenAI hay không, dựa trên thông tin hiện tại, chúng tôi không thể đưa ra bất kỳ phán đoán nào và chỉ có thể chờ kết quả liên lạc tiếp theo giữa hai bên.
Tuy nhiên, khi nói đến việc đào tạo các mô hình ngôn ngữ lớn,tranh cãi về nguồn dữ liệu luôn khá lớn.
Khi OpenAI đào tạo các mô hình lớn, nó cũng gặp rất nhiều vấn đề về dữ liệu.
Ví dụ: ChatGPT chủ yếu thu thập dữ liệu từ các trang web, diễn đàn truyền thông xã hội và Tieba.
Lúc đầu, họ thu thập dữ liệu này miễn phí, nhưng sau đó ChatGPT và DALL·E của OpenAI dần dần thoát ra khỏi vòng tròn và một số vấn đề xuất hiện.
Trong thời gian hai mô hình lớn này trở nên phổ biến, OpenAI đã phải chịu các vụ kiện hết vụ này đến vụ khác.
Mô hình tranh lớn Vincent đã bị nhiều trang web hình ảnh và nghệ sĩ kiện, còn mô hình ngôn ngữ lớn đã bị các blogger trên nền tảng xã hội khiếu nại.
Đồng thời, các nền tảng lớn cũng bắt đầu chú ý đến giá trị của dữ liệu, chẳng hạn như phiên bản Reddit của Mỹ, cũng như trang web hỏi đáp dành cho lập trình viên StackOverflow và các trang web khác có chất lượng cao kho dữ liệu và họ đã bắt đầu đặt ngưỡng thanh toán. a>Bạn phải trả tiền để thu thập dữ liệu.
Nhưng tại thời điểm này, mô hình lớn của OpenAI đã được phát triển và tất cả dữ liệu trên Internet cần được thu thập trước đây đã được thu thập thông tin.
Điều này sẽ gây khó khăn cho những người đến sau, trong giai đoạn đầu, họ không chỉ phải làm một số công việc lặp đi lặp lại là chú thích kho văn bản mà còn phải trả tiền để thu thập lại dữ liệu.
Dưới phân tích theo lý lẽ này, tự nhiên Bytedance đang từ tội phạm lại trở thành bị oan.
Bạn có nghĩa vậy không?
Theo The Verge, ByteDance đang âm thầm sử dụng API của OpenAI để thực hiện một số việc “không mấy vẻ vang”.
Nói chung, mình không quá chú ý đến những tin đồn tương tự, dù sao thì những tin tức liên quan thỉnh thoảng lại xuất hiện, chẳng hạn như đóng thùng cho các mô hình lớn, sử dụng các mô hình lớn của công ty khác để huấn luyện các mô hình lớn của riêng họ, v.v. Và tất cả chỉ là tin đồn, không có kết quả cụ thể cũng như không có bước theo dõi.
Nhưng lần này thì khác, ít nhất những thông tin nội bộ trong báo cáo có vẻ là sự thật. Họ cho biết họ đã lấy được một tài liệu bị rò rỉ từ Bytedance. Nó chủ yếu nói về quá trình phát triển dự án mô hình lớn của hãng - "Kế hoạch hạt giống", ở hầu hết mọi giai đoạn, bao gồm cảđào tạo các mô hình lớn của Byte đều sử dụng API của OpenAI. Ngoài ra, các bản ghi trò chuyện nội bộ như cách "sử dụng tính năng giải mẫn cảm dữ liệu để tránh bị người khác bắt gặp" cũng đã bị lộ.
Cùng với lệnh cấm tài khoản trực tiếp của OpenAI, Bytedance thực sự xác nhận nội dung của báo cáo.
Dù sao, một lúc sau, cư dân mạng TQ lần lượt ra ăn dưa, đủ loại bình luận về những mô hình ngôn ngữ lớn Trung Quốc:
"Không trách các mẫu ngôn ngữ lớn trong nước đều phát triển nhanh như vậy. Họ đang muốn ăn trộm ChatGPT à?" "Tất cả các mẫu lớn trong nước đều có mùi giống ChatGPT. Vậy ra vấn đề nằm ở chỗ đó".
Các phương tiện truyền thông Trung Quốc đều đăng lại bài báo của The Verge, chủ đề này thậm chí còn lọt vào danh sách nóng trên mạng xã hội.
Tuy nhiên, hôm nay mình lại thấy truyền thông Trung Quốc có vẻ bênh doanh nghiệp nhà. Họ cho rằng so với những thủ đoạn đơn giản, thô thiển, thậm chí không đáy thì phương pháp này thực sự... văn minh hơn rất nhiều. Trong lĩnh vực mô hình ngôn ngữ lớn, họ thường gọi đó là "chắt lọc kiến thức".
Vì sao, Bytedance sử dụng một mô hình lớn tiên tiến gần như đã được đào tạo để tạo ra một số kho văn bản chất lượng cao, sau đó cung cấp kho văn bản được tạo ra cho một mô hình nhỏ hơn.
Nhìn thấy thế chắc có người đã nói, chẳng phải người ta chỉ dùng những mô hình lớn thôi sao?
Có lẽ OpenAI đã mong đợi động thái này từ lâu. Để ngăn chặn việc dữ liệu của mình bị thu thập và chắt lọc, OpenAI đã đưa vào Thỏa thuận dịch vụ. Không chỉ các doanh nghiệp mà cả các nhà phát triển cá nhân, OpenAI cấm họ sử dụng các mô hình lớn của OpenAI để phát triển các sản phẩm cạnh tranh.
Chỉ cần bạn vi phạm các quy định trên, theo tuyên bố chính thức, dịch vụ sẽ bị chấm dứt bất cứ lúc nào.
Những quy định này giống như lời nguyền siết chặt vòng kim cô của Đường Tăng, ngày càng chặt chẽ hơn... Bất cứ ai tinh ý cũng có thể thấy OpenAI đã có những biện pháp nghiêm ngặt trong lĩnh vực “bảo mật dữ liệu” của riêng mình.
Mặc dù API mà Bytedance sử dụng không được mua trực tiếp từ OpenAI mà là dịch vụ đám mây Azure OpenAI trên Microsoft Azure. Nhưng nếu bạn mua nó từ Microsoft, bạn cũng bị ràng buộc bởi thỏa thuận này.
Có lẽ vì những lý do này mà đã xảy ra tình trạng tài khoản bị chặn trước rồi mới điều tra thêm về Byte.
Về phía Bytedance, trước hết, họ cho biết khi phát triển các mô hình lớn, họ chỉ sử dụng dịch vụ API của GPT trong giai đoạn thăm dò ban đầu, còn mô hình trong giai đoạn thăm dò chỉ để thử nghiệm và không trực tuyến để sử dụng bên ngoài. Và theo Byte, vào tháng 4 năm nay họ đã quy định rõ ràng trong nội bộ rằng họ không được sử dụng dữ liệu do GPT tạo ra để đào tạo các mô hình lớn của riêng mình.
Quan trọng hơn, họ nói rằng họ đã tiến hành một cuộc kiểm tra nội bộ vào tháng 9 và nhiệm vụ chính là xem dữ liệu đào tạo của họ giống với GPT như thế nào.
Trong những ngày tới, họ cũng đang chuẩn bị tiến hành một cuộc kiểm tra toàn diện khác để đảm bảo tuân thủ nghiêm ngặt các điều khoản sử dụng các dịch vụ liên quan.
Cho đến nay, các phản hồi từ tất cả các bên vẫn còn trái chiều. Về việc Byte có vi phạm thỏa thuận dịch vụ của OpenAI hay không, dựa trên thông tin hiện tại, chúng tôi không thể đưa ra bất kỳ phán đoán nào và chỉ có thể chờ kết quả liên lạc tiếp theo giữa hai bên.
Tuy nhiên, khi nói đến việc đào tạo các mô hình ngôn ngữ lớn,tranh cãi về nguồn dữ liệu luôn khá lớn.
Khi OpenAI đào tạo các mô hình lớn, nó cũng gặp rất nhiều vấn đề về dữ liệu.
Ví dụ: ChatGPT chủ yếu thu thập dữ liệu từ các trang web, diễn đàn truyền thông xã hội và Tieba.
Lúc đầu, họ thu thập dữ liệu này miễn phí, nhưng sau đó ChatGPT và DALL·E của OpenAI dần dần thoát ra khỏi vòng tròn và một số vấn đề xuất hiện.
Trong thời gian hai mô hình lớn này trở nên phổ biến, OpenAI đã phải chịu các vụ kiện hết vụ này đến vụ khác.
Mô hình tranh lớn Vincent đã bị nhiều trang web hình ảnh và nghệ sĩ kiện, còn mô hình ngôn ngữ lớn đã bị các blogger trên nền tảng xã hội khiếu nại.
Đồng thời, các nền tảng lớn cũng bắt đầu chú ý đến giá trị của dữ liệu, chẳng hạn như phiên bản Reddit của Mỹ, cũng như trang web hỏi đáp dành cho lập trình viên StackOverflow và các trang web khác có chất lượng cao kho dữ liệu và họ đã bắt đầu đặt ngưỡng thanh toán. a>Bạn phải trả tiền để thu thập dữ liệu.
Nhưng tại thời điểm này, mô hình lớn của OpenAI đã được phát triển và tất cả dữ liệu trên Internet cần được thu thập trước đây đã được thu thập thông tin.
Điều này sẽ gây khó khăn cho những người đến sau, trong giai đoạn đầu, họ không chỉ phải làm một số công việc lặp đi lặp lại là chú thích kho văn bản mà còn phải trả tiền để thu thập lại dữ liệu.
Dưới phân tích theo lý lẽ này, tự nhiên Bytedance đang từ tội phạm lại trở thành bị oan.
Bạn có nghĩa vậy không?