Musk thực hiện lời hứa, công bố một phần thuật toán của Twitter (I)

Mr. Darcy

Editor
Thành viên BQT
1. Twitter đã mở một phần mã nguồn của công ty vào thứ Sáu theo giờ địa phương ở Hoa Kỳ, đặc biệt là phần giới thiệu chuyên sâu về nguyên tắc làm việc của thuật toán đề xuất.
2. Mã nguồn mở giúp Musk thực hiện lời hứa của mình, đồng thời cũng có thể giúp tăng lòng tin của người dùng và giúp sản phẩm cải thiện nhanh chóng.
3. Nhiều người hoài nghi về động thái mã nguồn mở của Twitter và một số người dùng không hài lòng.
4. Musk hy vọng biến Twitter trở thành một dự án mã nguồn mở tương tự như Linux, nhưng nó phải đối mặt với rất nhiều sự cạnh tranh.

Musk thực hiện lời hứa, công bố một phần thuật toán của Twitter (I)
Ngày 1/4, tức thứ Sáu theo giờ Hoa Kỳ, Twitter đã thực hiện lời hứa của ông chủ mới Elon Musk, phát hành công khai thuật toán cách nó đề xuất nội dung, cho phép người dùng và lập trình viên xem qua cách thức nó hoạt động và có thể đề xuất các thay đổi đối với thuật toán. Nước đi của Twitter có thể nói là một mũi tên trúng bốn đích: giúp Musk thực hiện lời hứa của mình, tính minh bạch của code sẽ mang lại sự tin tưởng cao hơn cho người dùng, thúc đẩy cải tiến sản phẩm nhanh chóng và giảm bớt lo ngại của các nhà lập pháp.

Musk thực hiện tốt một số lời hứa của mình​

Mã nguồn mở của Twitter được tạo ra theo yêu cầu của Musk, và giờ đây, cuối cùng thì ông cũng đã thực hiện được lời hứa của mình. Ngay từ ngày 24/3/2022, Musk đã phát động một cuộc khảo sát trên Twitter, hỏi liệu Twitter có nên mở các thuật toán mã nguồn hay không, khi đó, 83% ủng hộ mã nguồn mở. Vào tháng 2 năm nay, Musk đã hứa sẽ hoàn thành mã nguồn mở trong vòng một tuần. Nhưng vào đầu tháng 3, anh ấy đã đẩy lùi thời hạn mã nguồn mở đến ngày 31/3.
Musk đã nói rằng mã nguồn mở sẽ làm cho hoạt động của Twitter minh bạch hơn, điều này sẽ dẫn đến sự tin tưởng của người dùng cao hơn và cải tiến sản phẩm nhanh chóng. Ngoài ra, điều này có thể được sử dụng để giải quyết các mối quan tâm chung của người dùng và các nhà lập pháp. Họ đang ngày càng xem xét kỹ lưỡng các nền tảng truyền thông xã hội, tập trung vào cách các thuật toán chọn những gì người dùng nhìn thấy.
Vào thứ Sáu, Musk đã tweet rằng các bên thứ ba sẽ có thể phân tích mã nguồn mở của Twitter và "xác định với độ chính xác hợp lý những gì Twitter có thể hiển thị cho người dùng". Anh viết: “Không nghi ngờ gì khi mọi người có thể thấy nhiều vấn đề đáng xấu hổ, nhưng chúng tôi sẽ giải quyết chúng nhanh chóng!” Musk cũng cho biết Twitter sẽ cập nhật cứ sau 24 đến 48 giờ dựa trên đề xuất của người dùng về thuật toán đề xuất cải tiến.
Musk thực hiện lời hứa, công bố một phần thuật toán của Twitter (I)
Musk hy vọng rằng động thái này sẽ khiến Twitter giống như Linux, đây có thể là dự án mã nguồn mở nổi tiếng và thành công nhất trong lịch sử. "Mục tiêu tổng thể của chúng tôi là tận dụng tối đa thời gian của người dùng và không khiến họ cảm thấy tiếc nuối", anh ấy nói thêm.

Không phải tất cả các mã là mã nguồn mở​

Musk đã tweet rằng bản phát hành hôm thứ Sáu "hầu hết liên quan đến thuật toán đề xuất" và cho biết phần còn lại sẽ tiếp tục trong tương lai. Twitter cho biết mã trên Github không bao gồm mã cung cấp các đề xuất quảng cáo trên Twitter. Ngoài ra, công ty không phát hành mã có thể ảnh hưởng đến sự an toàn hoặc quyền riêng tư của người dùng, cũng như không bao gồm chi tiết về các tính năng có thể phá vỡ khả năng của nền tảng trong việc ngăn chặn sự lan truyền tài liệu lạm dụng tình dục trẻ em.
Về thuật toán mã nguồn mở của Twitter, Musk tin rằng mọi người có thể thất vọng sau khi nhìn thấy nó. Anh ấy nói rằng các thuật toán "quá phức tạp để có thể hiểu đầy đủ ngay cả trong công ty" và mọi người sẽ "phát hiện ra rất nhiều điều ngu ngốc", nhưng hứa sẽ khắc phục sự cố khi chúng được phát hiện. "Việc cung cấp tính minh bạch của mã lúc đầu sẽ rất khó xử, nhưng nó sẽ dẫn đến sự cải thiện nhanh chóng về chất lượng của các đề xuất", anh viết trên Twitter.

Nguyên tắc của thuật toán đề xuất được phơi bày​

Mục tiêu của Twitter là cung cấp cho mọi người những gì đang xảy ra trên thế giới mà họ quan tâm nhất. Điều này yêu cầu sự hỗ trợ của thuật toán đề xuất để trích xuất các tweet phổ biến nhất từ khoảng 500 triệu tweet được đăng mỗi ngày và cuối cùng hiển thị chúng trên dòng thời gian Dành cho bạn trên thiết bị của người dùng. Bài đăng này giải thích cách thuật toán đề xuất có thể chọn các tweet cho dòng thời gian của bạn.

Twitter chọn các tweet được đề xuất như thế nào?​

Nền tảng của thuật toán đề xuất Twitter là một tập hợp các mô hình và tính năng cốt lõi trích xuất thông tin tiềm ẩn từ tweet, người dùng và dữ liệu tương tác. Các mô hình này được thiết kế để trả lời các câu hỏi quan trọng về Twitter, chẳng hạn như "Xác suất bạn sẽ tương tác với người dùng khác trong tương lai là bao nhiêu?" hoặc "Có những cộng đồng nào trên Twitter và các tweet hàng đầu trong các cộng đồng đó là gì?" Việc trả lời chính xác các Câu hỏi này cho phép Twitter đưa ra các đề xuất phù hợp hơn.
Đường dẫn đề xuất của Twitter bao gồm ba phần chính sử dụng các tính năng này:
- Nhận các tweet tốt nhất từ các nguồn đề xuất khác nhau, quá trình này được gọi là nguồn ứng cử viên
- Sử dụng mô hình học máy để xếp hạng từng tweet
- Áp dụng phương pháp phỏng đoán và bộ lọc, chẳng hạn như lọc ra các tweet từ người dùng bạn chặn, nội dung NSFW (phản cảm) và các tweet bạn đã xem
Tính năng chịu trách nhiệm xây dựng và phục vụ dòng thời gian For You được gọi là Home Mixer và được xây dựng dựa trên Product Mixer, khung Scala tùy chỉnh của Twitter để dễ dàng xây dựng nguồn cấp nội dung. Dịch vụ này hoạt động như một xương sống phần mềm kết nối các nguồn ứng viên khác nhau, chức năng chấm điểm, kinh nghiệm và bộ lọc.
Musk thực hiện lời hứa, công bố một phần thuật toán của Twitter (I)
Hãy xem xét các phần chính của hệ thống này, đại khái theo thứ tự mà chúng được gọi trong một yêu cầu dòng thời gian duy nhất, bắt đầu bằng việc truy xuất các tweet của ứng viên từ các nguồn ứng viên.

Nguồn Tweet của ứng cử viên​

Có một số nguồn ứng cử viên cho các tweet do Twitter đề xuất mà chúng ta sử dụng để truy xuất các tweet gần đây nhất và phù hợp nhất cho người dùng. Đối với mỗi yêu cầu, chúng tôi cố gắng trích xuất 1500 tweet tốt nhất trong số hàng trăm triệu tweet từ các nguồn này. Chúng tôi tìm kiếm các tweet của ứng cử viên từ những người bạn theo dõi (trong mạng) và những người bạn không theo dõi (ngoài mạng). Ngày nay, dòng thời gian Dành cho bạn bao gồm trung bình 50% tweet trong mạng và 50% tweet ngoài mạng, mặc dù điều này có thể thay đổi tùy theo người dùng.
1) Tài nguyên trong mạng
Nguồn trong mạng là nguồn ứng cử viên lớn nhất, được thiết kế để cung cấp các tweet gần đây có liên quan nhất từ những người bạn theo dõi. Nó sử dụng mô hình hồi quy logistic để xếp hạng hiệu quả các tweet mà bạn theo dõi dựa trên mức độ liên quan của chúng. Các tweet hàng đầu được gửi đến giai đoạn tiếp theo.
Thành phần quan trọng nhất trong việc xếp hạng các tweet trong mạng là Biểu đồ thực, một mô hình dự đoán khả năng tương tác giữa hai người dùng. Điểm Real Graph giữa bạn và tác giả tweet càng cao thì Twitter sẽ đưa vào càng nhiều tweet của họ.
Tài nguyên trong mạng là trọng tâm của công việc gần đây của Twitter. Gần đây, Twitter đã ngừng dịch vụ Fanout, một dịch vụ 12 năm tuổi đã sử dụng để phục vụ từng người dùng các tweet trong mạng từ bộ đệm tweet. Twitter cũng đang thiết kế lại mô hình xếp hạng hồi quy logistic, mô hình này đã được cập nhật và đào tạo lần cuối cách đây vài năm!
(còn tiếp)
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top