Musk thực hiện lời hứa, công bố một phần thuật toán của Twitter (II)

Mr. Darcy

Editor
Thành viên BQT
Phần I tại đây.

2) Tài nguyên ngoài mạng​

Tìm các tweet có liên quan bên ngoài mạng của người dùng là một vấn đề phức tạp: nếu bạn không theo dõi tác giả, làm sao Twitter biết liệu một tweet có liên quan đến bạn hay không? Cuối cùng, Twitter đã thực hiện hai cách tiếp cận để giải quyết vấn đề.
A. Biểu đồ xã hội
Phương pháp đầu tiên của Twitter là ước tính trọng tâm của sự chú ý bằng cách phân tích hoạt động của những người mà người dùng theo dõi hoặc những người có cùng sở thích.
Bằng cách duyệt biểu đồ xã hội và tìm kiếm câu trả lời cho những câu hỏi sau: Những người tôi theo dõi gần đây đã tweet gì? Ai thích các tweet tương tự như của tôi và gần đây họ thích gì? Twitter tạo các tweet của ứng cử viên dựa trên câu trả lời cho những câu hỏi này và sử dụng mô hình hồi quy logistic để xếp hạng các tweet thu được. Loại biểu đồ xã hội này rất cần thiết cho các đề xuất ngoài mạng lưới.
Ngoài ra, Twitter đã phát triển một công cụ xử lý đồ thị GraphJet để duy trì các đồ thị tương tác thời gian thực giữa người dùng và các tweet để giúp xây dựng các đồ thị xã hội. Mặc dù các phương pháp phỏng đoán như vậy để tìm kiếm mức độ tương tác trên Twitter và các mạng theo dõi đã được chứng minh là hữu ích (các phương pháp này hiện đang được sử dụng cho khoảng 15% các tweet dòng thời gian của gia đình), phương pháp nhúng không gian đã trở thành một công cụ dự đoán lớn hơn cho các tweet ngoài mạng.
B. Nhúng không gian
Cách tiếp cận không gian nhúng nhằm mục đích trả lời một câu hỏi chung hơn về sự giống nhau của nội dung, tức là những tweet và người dùng nào giống với sở thích của tôi?
Nhúng không gian hoạt động bằng cách tạo biểu đồ kỹ thuật số về sở thích của người dùng và nội dung tweet. Sau đó, Twitter có thể tính toán mức độ tương tự giữa hai người dùng, tweet hoặc cặp người dùng và tweet bất kỳ trong không gian nhúng này. Sự giống nhau này có thể được sử dụng làm đại diện cho mức độ liên quan nếu Twitter tạo các nhúng chính xác.
Một trong những không gian nhúng hữu ích nhất cho Twitter là SimClusters. SimCluster sử dụng thuật toán phân tích ma trận tùy chỉnh để khám phá các cộng đồng được cố định bởi các cụm người dùng có ảnh hưởng. Có 145.000 cộng đồng như vậy, được cập nhật ba tuần một lần. Người dùng và Tweet được thể hiện trong không gian cộng đồng và có thể thuộc về nhiều cộng đồng. Các cộng đồng có quy mô từ vài nghìn người dùng cho một nhóm bạn cá nhân đến hàng trăm triệu cho tin tức hoặc văn hóa đại chúng. Dưới đây là một số cộng đồng lớn nhất:
Musk thực hiện lời hứa, công bố một phần thuật toán của Twitter (II)
Twitter có thể nhúng các tweet vào các cộng đồng này bằng cách xem mức độ phổ biến hiện tại của chúng trong mỗi cộng đồng. Càng nhiều người dùng trong một cộng đồng thích một tweet thì tweet đó càng được kết nối với cộng đồng đó.

Hệ thống xếp hạng​

Mục tiêu của dòng thời gian For You là cung cấp cho người dùng các tweet có liên quan. Tại thời điểm này, Twitter có khoảng 1500 ứng viên có thể phù hợp. Điểm trực tiếp dự đoán mức độ liên quan của từng tweet của ứng viên và là tín hiệu chính để xếp hạng các tweet trên dòng thời gian của bạn. Ở giai đoạn này, tất cả các ứng viên đều được đối xử bình đẳng bất kể ứng viên đó đến từ quốc gia nào.
Xếp hạng đạt được thông qua một mạng thần kinh gồm khoảng 48 triệu tham số được đào tạo liên tục về các tương tác trên tweet để tối ưu hóa cho mức độ tương tác tích cực (chẳng hạn như lượt thích, lượt đăng lại và trả lời). Cơ chế xếp hạng này xem xét hàng nghìn tính năng và đưa ra 10 nhãn để chấm điểm cho mỗi tweet, mỗi nhãn thể hiện xác suất tương tác. Twitter xếp hạng các tweet dựa trên những điểm số này.

Heuristic, Bộ lọc và Tính năng Sản phẩm​

Sau giai đoạn xếp hạng, Twitter áp dụng kinh nghiệm và bộ lọc cho các tính năng khác nhau của sản phẩm. Các tính năng này có thể tương thích với nhau, tạo ra nguồn cấp dữ liệu cân bằng và đa dạng. Ví dụ:
- Lọc khả năng hiển thị: lọc các tweet dựa trên nội dung và sở thích của người dùng, chẳng hạn như xóa các tweet khỏi tài khoản bạn chặn hoặc tắt tiếng
- Sự đa dạng của tác giả: tránh cùng một tác giả xuất bản quá nhiều tweet liên tiếp
- Cân bằng nội dung: Đảm bảo rằng chúng tôi có sự cân bằng giữa các Tweet trong và ngoài mạng
- Sự mệt mỏi dựa trên phản hồi: Chúng tôi đã hạ điểm của một số tweet nhất định nếu người dùng cung cấp phản hồi tiêu cực
- Bằng chứng xã hội: Loại trừ các tweet ngoài mạng không có kết nối phụ như một sự đảm bảo chất lượng. Nói cách khác, đảm bảo những người bạn theo dõi theo dõi tweet hoặc tác giả của tweet
- Cuộc trò chuyện: Cung cấp thêm ngữ cảnh cho câu trả lời bằng cách nối chúng với tweet gốc
- Tweet đã chỉnh sửa: Xác định xem Tweets có lỗi thời trên thiết bị hiện tại hay không và gửi lệnh để thay thế chúng bằng phiên bản đã chỉnh sửa
Lúc này, Home Mixer đã có sẵn một tập hợp các tweet để gửi đến thiết bị của người dùng. Ở bước cuối cùng trong quy trình, hệ thống sẽ trộn các Tweet với nội dung không phải Tweet khác, chẳng hạn như quảng cáo, đề xuất nên theo dõi và lời nhắc đăng nhập, những nội dung này sẽ được trả về thiết bị của người dùng để hiển thị.
Quá trình trên chạy khoảng 5 tỷ lần một ngày và trung bình chỉ mất chưa đến 1,5 giây để hoàn thành mỗi lần. Một lần thực thi quy trình mất 220 giây thời gian của CPU, gần gấp 150 lần độ trễ mà bạn cảm nhận được trên ứng dụng.

Nghi ngờ, không hài lòng và cạnh tranh​

Quyết định cải thiện tính minh bạch của thuật toán đề xuất Twitter của Musk không phải tự nhiên mà có, anh đã công khai chỉ trích cách quản lý cũ của Twitter xử lý việc xem xét nội dung và đề xuất nhiều lần trước đây. Giờ đây, Musk tin rằng nội dung tiêu cực và thù hận sẽ được "hạ cấp tối thiểu" trong thuật toán đề xuất mới của Twitter, nhưng các nhà phân tích bên ngoài, những người trước đây chưa có quyền truy cập vào mã này tỏ ra nghi ngờ.
Đồng thời, quyết định của Musk cũng vấp phải nhiều tiếng nói phản đối. Người dùng phàn nàn rằng các dòng tweet của Musk thường xuyên xuất hiện trên trang For You của họ, trong khi những người ủng hộ Musk lo lắng rằng sự tham gia của họ vào cộng đồng đang giảm sút.
Ngoài ra, Twitter phải đối mặt với sự cạnh tranh tiềm năng từ cộng đồng nguồn mở, với mạng xã hội phi tập trung Mastodon đang trở nên phổ biến trong một số vòng kết nối. Người đồng sáng lập Twitter Jack Dorsey đang ủng hộ một dự án tương tự khác, Bluesky, dựa trên một giao thức nguồn mở.
Trước khi Twitter mã nguồn mở, một phần mã nguồn của công ty đã bị rò rỉ trên Github, mã này đã bị xóa vào tuần trước theo yêu cầu của Twitter. Theo một tài liệu pháp lý, Twitter đã yêu cầu Tòa án quận Hoa Kỳ cho Quận phía Bắc California ra lệnh cho Github cung cấp "tất cả thông tin có thể nhận dạng" liên quan đến tài khoản Github đã đăng mã bị rò rỉ để truy tìm danh tính của kẻ rò rỉ.
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top