Meta lệ thuộc vào AI đến mức nào? Yann LeCun: Nếu không có nó, Facebook có thể đã biến mất từ lâu

Đoàn Thúy Hà

Editor
Thành viên BQT
Đọc nhanh:
- Khi FB ban đầu phát triển chức năng News Feed, nó đã bị hơn 10 triệu người dùng phản đối, nhưng nó có hiệu quả trong việc thúc đẩy hoạt động nền tảng và kết nối người dùng.
- Công việc xếp hạng nội dung ban đầu của FB dựa vào thuật toán có tên EdgeRank và sau đó chuyển sang sử dụng công nghệ dựa trên máy học để đề xuất nội dung.
- Những tiến bộ trong tốc độ tính toán và học máy cho phép Facebook phân loại người dùng một cách chi tiết, khám phá mối tương quan giữa nội dung họ nhấp vào và đẩy quảng cáo.
- FB xây dựng các công cụ học máy cốt lõi và cung cấp chúng cho các bộ phận khác, nhờ đó chương trình FB Learner đã đạt được thành công lớn.
- Tốc độ, bề rộng và quy mô áp dụng học máy của FB phải trả giá bằng sự dễ hiểu và nhiều người trong và ngoài công ty ngày càng quan tâm đến AI.

Meta lệ thuộc vào AI đến mức nào? Yann LeCun: Nếu không có nó, Facebook có thể đã biến mất từ lâu
Yann Lecun (phải)
Là gã khổng lồ truyền thông xã hội lớn nhất thế giới, Facebook (hiện được gọi là Meta) chiếm một vị trí độc tôn trong lĩnh vực văn hóa và chính trị. Cùng với các nền tảng như Instagram và WhatsApp, chúng là những phần mềm được hàng tỷ người dùng trên toàn thế giới sử dụng nhiều nhất. Thành công của Facebook không thể tách rời sự hỗ trợ của công nghệ trí tuệ nhân tạo (AI). Vậy công ty dựa vào AI đến mức nào? Có lẽ chúng ta có thể tìm thấy câu trả lời trong “Kho lưu trữ của Facebook: Cuộc đấu tranh để tiết lộ những bí mật đen tối”, một cuốn sách mới của nhà báo công nghệ Jeff Horwitz.

News Feed bị coi là “kẻ bám đuôi” khi mới ra mắt​

Năm 2006, Văn phòng Bằng sáng chế Hoa Kỳ đã nhận được đơn xin cấp bằng sáng chế cho "màn hình được tạo tự động chứa thông tin về người dùng khác trong mạng xã hội của người dùng". Hệ thống này sẽ cho phép mọi người tránh việc tìm kiếm nội dung "lộn xộn" đối với nội dung quan tâm mà thay vào đó tìm cách tạo danh sách thông tin "có liên quan" theo "thứ tự ưu tiên". Người nộp đơn có tên trong đơn xin cấp bằng sáng chế là "Zuckerberg et al" và sản phẩm là News Feed.
Ý tưởng hiển thị cho người dùng luồng hoạt động không phải là mới. Trang chia sẻ ảnh Flickr và các trang khác đã thử nghiệm tính năng này được một thời gian, nhưng Facebook đang tạo ra sự khác biệt lớn. Cho đến lúc đó, người dùng Facebook tương tác với trang này chủ yếu thông qua thông báo, lời nhắc hoặc xem hồ sơ của bạn bè họ. Với sự ra mắt của News Feed, người dùng có thể xem các bài đăng được cập nhật liên tục và các thay đổi trạng thái.
Sự thay đổi này đã gây sốc cho 10 triệu người dùng Facebook khi đó, những người không thích hoạt động bị theo dõi hoặc hồ sơ tĩnh một thời bị khai thác để lấy nội dung mới hơn. Trước những lời phàn nàn lan rộng, Zuckerberg đã viết một bài đăng để trấn an người dùng: "Không có gì bạn làm sẽ được quảng cáo. Thay vào đó, nó sẽ được chia sẻ với những người quan tâm đến những gì bạn làm, như bạn".
Nghe người dùng phàn nàn và nghe họ phàn nàn là hai việc hoàn toàn khác nhau. Như giám đốc sản phẩm của Meta, Chris Cox sau đó đã chỉ ra trong một thông cáo báo chí, News Feed đã thành công ngay lập tức trong việc thúc đẩy hoạt động trên nền tảng và kết nối người dùng. Mức độ tương tác nhanh chóng tăng gấp đôi, với hơn 1 triệu người dùng lần đầu tiên quan tâm đến điều tương tự trong vòng hai tuần kể từ khi ra mắt. Điều gì đoàn kết rất nhiều người? Câu trả lời là một bản kiến nghị kêu gọi loại bỏ chức năng đẩy "kiểu rình rập".
Nhìn lại, hệ thống mờ ám gây khó chịu cho người dùng là một hệ thống đơn giản, với nội dung chủ yếu được trình bày dưới dạng hồi tưởng và được điều chỉnh theo cách thủ công để đảm bảo mọi người có thể xem cả các bài đăng phổ biến và nhiều thông tin theo ngữ cảnh. Cox cho biết: “Ngay từ đầu đã có vấn đề với hệ thống phân loại News Feed.
Điều này hoạt động tốt trong một thời gian, nhưng danh sách bạn bè của mọi người ngày càng tăng và Facebook tiếp tục giới thiệu các tính năng mới như quảng cáo, trang và nhóm sở thích. Khi giải trí, meme và thông tin kinh doanh bắt đầu cạnh tranh với các bài đăng của bạn bè trên News Feed, Facebook cần đảm bảo rằng những người dùng vừa đăng nhập sẽ nhìn thấy công thức bánh burrito phổ biến trước tiên trên trang nấu ăn.

Thuật toán sắp xếp ban đầu tuy thô nhưng dễ sử dụng​

Hệ thống xếp hạng nội dung ban đầu được gọi là EdgeRank. Đúng như tên gọi, nó xếp hạng các cạnh (Edge). Đó là một công thức đơn giản ưu tiên nội dung dựa trên ba yếu tố chính: thời gian đăng bài, mức độ tương tác và mức độ liên kết giữa người dùng và bài đăng. Là một thuật toán, nó có vẻ thô thiển và chỉ cố gắng dịch một cách thô thiển những câu hỏi sau: Nó có mới không? phổ biến? Hoặc từ một người nào đó mà bạn quan tâm?
Không có ma thuật đen nào xảy ra ở đây, nhưng một lần nữa người dùng lại phẫn nộ trước những nỗ lực của Facebook nhằm kiểm soát những gì họ nhìn thấy. Hơn nữa, các chỉ số như hoạt động của Facebook lại tăng vọt.
Vào thời điểm đó, hệ thống đề xuất vẫn còn ở giai đoạn sơ khai, nhưng sự tương phản rõ rệt giữa sự phản đối bạo lực của người dùng và việc sử dụng nhiệt tình đã dẫn đến một kết luận tất yếu trong công ty: Tốt nhất là nên bỏ qua những gì người bình thường nghĩ về cơ chế của Facebook. Mặc dù người dùng nhất quyết yêu cầu loại bỏ tính năng này nhưng Facebook vẫn tiếp tục nỗ lực và cuối cùng mọi thứ đều diễn ra suôn sẻ.
Đến năm 2010, Facebook hy vọng sẽ cải thiện mô hình thô của EdgeRank để đề xuất nội dung dựa trên học máy. Học máy là một nhánh của trí tuệ nhân tạo tập trung vào việc đào tạo máy tính để thiết kế các thuật toán ra quyết định của riêng chúng. Thay vì yêu cầu máy tính xếp hạng nội dung dựa trên phép toán đơn giản, các kỹ sư sẽ yêu cầu chúng phân tích hành vi của người dùng và thiết kế công thức xếp hạng của riêng họ. Những gì mọi người nhìn thấy là kết quả của quá trình thử nghiệm liên tục, với nền tảng cung cấp nội dung mà nó dự đoán sẽ có nhiều khả năng nhận được lượt thích từ người dùng nhất và tự đánh giá kết quả của chính nó trong thời gian thực.
Ngay cả khi các sản phẩm của Facebook ngày càng trở nên phức tạp và thu thập dữ liệu người dùng ở quy mô chưa từng có, Facebook vẫn chưa biết đủ về người dùng để hiển thị cho họ những quảng cáo có liên quan. Các thương hiệu thích sự chú ý và tiếng vang mà họ có thể nhận được từ việc tạo nội dung trên Facebook, nhưng họ không thấy các sản phẩm trả phí thật hấp dẫn. Vào tháng 5 năm 2012, General Motors đã hủy toàn bộ ngân sách quảng cáo trên Facebook. Một giám đốc điều hành quảng cáo kỹ thuật số nổi tiếng đã tuyên bố rằng quảng cáo trên Facebook “về cơ bản là nền tảng quảng cáo hoạt động kém nhất trên web”.
Việc giải quyết vấn đề này sẽ thuộc về đội do Joaquin Quiñonero Candela dẫn đầu. Candela, một người Tây Ban Nha lớn lên ở Maroc, chuyển đến Vương quốc Anh vào năm 2011 để làm việc về trí tuệ nhân tạo tại Microsoft khi những người bạn rải rác khắp Bắc Phi bắt đầu hào hứng bàn tán về các cuộc biểu tình do mạng xã hội gây ra. Công nghệ máy học mà anh sử dụng để tối ưu hóa quảng cáo tìm kiếm Bing được sử dụng rất nhiều trên mạng xã hội.
Candela nhận thấy rằng cách Facebook xây dựng sản phẩm gần như mang tính cách mạng như kết quả đạt được. Theo lời mời của một người bạn, Candela đến thăm khuôn viên của Facebook ở Menlo Park và bị sốc khi thấy một kỹ sư đang thực hiện một bản cập nhật lớn, không có sự giám sát đối với mã của Facebook. Một tuần sau, Candela nhận được lời mời làm việc từ Facebook, xác nhận rằng công ty này thực sự đang phát triển nhanh hơn nhiều so với Microsoft.

Thuật toán đề xuất giới thiệu công nghệ machine learning​

Candela đặt mục tiêu giúp cải tiến công nghệ quảng cáo và thời điểm của anh ấy thật hoàn hảo. Những tiến bộ trong học máy và tốc độ tính toán thô cho phép nền tảng không chỉ phân chia người dùng thành các phân khúc nhân khẩu học cụ thể (chẳng hạn như “Phụ nữ dị tính độc thân ở San Francisco, độ tuổi 20, thích cắm trại và nhảy salsa”), Bạn cũng có thể khám phá mối tương quan giữa nội dung họ nhấp vào và sau đó sử dụng thông tin này để đoán xem quảng cáo nào có liên quan đến họ.
Sau khi bắt đầu với những dự đoán gần như ngẫu nhiên về cách tối đa hóa tỷ lệ nhấp chuột, hệ thống sẽ rút kinh nghiệm từ những thành công và thất bại, liên tục cải tiến mô hình để dự đoán những quảng cáo nào có nhiều khả năng thành công nhất. Nó gần như toàn tri, mặc dù các quảng cáo được đề xuất luôn gây nhầm lẫn. Nhưng ngưỡng thành công trong quảng cáo kỹ thuật số rất thấp: dù chỉ 2% người dùng nhấp vào quảng cáo cũng có thể coi là thành công. Với hàng tỷ quảng cáo được phân phát mỗi ngày, ngay cả những lợi ích nhỏ từ việc điều chỉnh thuật toán cũng có thể mang lại doanh thu hàng chục hoặc thậm chí hàng trăm triệu đô la. Nhóm của Candela nhận thấy rằng thuật toán có thể được cải thiện theo thời gian thông qua thử nghiệm và sửa lỗi trên diện rộng.
Sự cải thiện nhanh chóng này là rất quan trọng. AI của nhóm không chỉ giúp tăng doanh thu mà còn cải thiện nhận thức về nền tảng. Thậm chí tốt hơn, quảng cáo được nhắm mục tiêu có nghĩa là Facebook có thể kiếm được nhiều tiền hơn từ mỗi người dùng mà không cần tăng tải quảng cáo và không gặp quá nhiều vấn đề. Khi Facebook quảng cáo kem đánh răng giả cho thanh thiếu niên, ít nhất không có ai thiệt mạng.
Quảng cáo là lĩnh vực học máy của Facebook và chẳng bao lâu nữa mọi người đều muốn có một miếng bánh. Đối với một giám đốc điều hành sản phẩm chịu trách nhiệm tăng số lượng nhóm Facebook, thêm bạn bè và đăng bài đăng, thì sức hấp dẫn là điều hiển nhiên. Nếu công nghệ của Candela có thể tăng tần suất người dùng tương tác với quảng cáo thì chúng cũng có thể tăng tần suất người dùng tương tác với nội dung khác trên nền tảng.
Mọi nhóm chịu trách nhiệm xếp hạng hoặc đề xuất nội dung đều cố gắng đại tu hệ thống, gây ra sự bùng nổ về độ phức tạp của các sản phẩm của Facebook. Nhân viên nhận thấy rằng lợi ích lớn nhất thường không đến từ những sáng kiến được cân nhắc kỹ lưỡng mà từ những lần thử và sai đơn giản.
Thay vì phát minh lại thuật toán, các kỹ sư đã đạt được thành công lớn với các thử nghiệm học máy nhanh chóng nhằm xác thực hàng trăm biến thể của thuật toán hiện có để xem phiên bản nào hoạt động tốt nhất cho người dùng. Họ không nhất thiết phải biết tại sao một biến số nhất định lại quan trọng hoặc làm thế nào một thuật toán này hoạt động tốt hơn các thuật toán khác trong việc dự đoán khả năng đánh giá. Nhưng chúng có thể tiếp tục cải tiến cho đến khi mô hình học máy tạo ra thuật toán tốt hơn về mặt thống kê so với các thuật toán hiện có, thế là đủ.

Yann LeCun tham gia công nghệ trí tuệ nhân tạo​

Thật khó để tưởng tượng một cách để xây dựng một hệ thống thể hiện tốt hơn câu thần chú "di chuyển nhanh và phá vỡ mọi thứ". Facebook muốn nhiều hơn thế. Zuckerberg đã tán tỉnh Yann LeCun, một nhà khoa học máy tính người Pháp chuyên về deep learning, chuyên xây dựng hệ thống máy tính có thể xử lý thông tin theo cách con người suy nghĩ. Yann LeCun, người nổi tiếng với việc tạo ra công nghệ trí tuệ nhân tạo cơ bản giúp nhận diện khuôn mặt, được bổ nhiệm làm người đứng đầu một bộ phận nhằm đưa Facebook trở thành công ty tiên phong trong nghiên cứu trí tuệ nhân tạo cơ bản.
Sau thành công trong lĩnh vực kinh doanh quảng cáo, Candela được giao một nhiệm vụ khó khăn không kém: biến máy học trở thành một phần máu thịt của công ty càng nhanh càng tốt. Ban đầu, chỉ có 24 nhân viên chịu trách nhiệm xây dựng các công cụ học máy cốt lõi mới và cung cấp chúng cho các bộ phận còn lại. Trong ba năm kể từ khi Candela được thuê, đội đã phát triển. Nhưng nó không đủ lớn để giúp mọi nhóm sản phẩm cần trợ giúp về học máy. Kỹ năng xây dựng mô hình từ đầu quá chuyên biệt để các kỹ sư có thể học hỏi và bạn không thể tăng nguồn cung nhân tài chuyên môn về học máy chỉ bằng cách tăng chi tiêu.
Giải pháp là xây dựng FB Learner, một phiên bản học máy “vẽ theo số”. Nó đóng gói công nghệ thành một khuôn mẫu để các kỹ sư hoàn toàn không biết mình đang làm gì sử dụng. FB Learner thực hiện cho máy học trong Facebook những dịch vụ như WordPress đã từng làm để xây dựng trang web, giúp mọi người không phải làm việc với HTML hoặc định cấu hình máy chủ.
Tuy nhiên, những kỹ sư hỗn hợp này đang phá vỡ cốt lõi của thứ đang nhanh chóng trở thành nền tảng truyền thông toàn cầu. Nhiều người tại Facebook nhận thức được mối lo ngại ngày càng tăng về trí tuệ nhân tạo bên ngoài công ty. Bởi vì thuật toán không được thiết kế đủ tốt nên nó nhằm mục đích khen thưởng dịch vụ chăm sóc y tế tốt, nhưng cuối cùng nó lại gây thiệt hại cho các bệnh viện điều trị cho bệnh nhân nặng hơn. Và các mô hình được thiết kế để định lượng nguy cơ tái phạm của các ứng viên được tạm tha đã được chứng minh là thiên về việc đưa người da đen vào tù. Nhưng trên mạng xã hội, những vấn đề này dường như còn xa vời.
Một người dùng FB Learner cuồng nhiệt sau đó đã mô tả sự lan rộng rộng rãi của học máy trong Facebook là "trao cho các kỹ sư 25 tuổi một bệ phóng tên lửa". Nhưng vào thời điểm đó, cả Candela và Facebook đều coi đó là một chiến thắng. Các thuật toán trí tuệ nhân tạo đã dạy cho công ty thói quen nói dối và đăng tải những lời nói căm thù. Bây giờ, những người xây dựng chúng vẫn không thể giải quyết được những vấn đề này.
Facebook đã công bố vào năm 2016 rằng “Các kỹ sư và nhóm, ngay cả khi có ít chuyên môn, vẫn có thể dễ dàng xây dựng và chạy thử nghiệm cũng như triển khai các sản phẩm hỗ trợ AI nhanh hơn bao giờ hết”. Facebook khoe rằng FB Learner đang thu thập dữ liệu mỗi ngày. Hàng tỷ điểm dữ liệu về hành vi của người dùng và các kỹ sư tiến hành 500.000 thí nghiệm trên chúng mỗi tháng.
Facebook thu thập nhiều dữ liệu và nhắm mục tiêu quảng cáo tốt đến mức người dùng thường (nhầm) nghi ngờ công ty đang nghe lén các cuộc trò chuyện ngoại tuyến, dẫn đến câu chuyện “Facebook biết mọi thứ về bạn”.

FB dựa vào thuật toán đề xuất AI hoặc phải trả giá đắt​

Điều đó không hoàn toàn đúng và những điều kỳ diệu của học máy đã phủ nhận những hạn chế. Hệ thống đề xuất của Facebook hoạt động dựa trên mối tương quan thô giữa các hành động của người dùng, thay vì xác định thị hiếu và sở thích của người dùng rồi phân phát nội dung dựa trên đó. Nguồn cấp tin tức không thể cho bạn biết bạn thích trượt băng hay cưỡi ngựa, nhạc hip-hop hay K-pop và nó không thể giải thích bằng ngôn ngữ con người tại sao một bài đăng nhất định lại xuất hiện trong Nguồn cấp dữ liệu tin tức.
Mặc dù thiếu sót không thể giải thích được này là hiển nhiên, nhưng các hệ thống đề xuất dựa trên máy học thể hiện niềm tin vững chắc của Zuckerberg vào dữ liệu, mã và cá nhân hóa. Ông tin rằng, thoát khỏi những giới hạn, sai sót và thành kiến của con người, các thuật toán của Facebook có thể mang lại tính khách quan vô song và có lẽ quan trọng hơn là hiệu quả cực cao.
Một nỗ lực học máy khác được dành riêng cho việc tìm hiểu nội dung nào thực sự có trong các bài đăng do Facebook đề xuất. Các hệ thống trí tuệ nhân tạo này, được gọi là bộ phân loại, được đào tạo để thực hiện nhận dạng mẫu trên các tập dữ liệu lớn. Nhiều năm trước khi Facebook được thành lập, các trình phân loại đã chứng tỏ mình có giá trị trong cuộc chiến chống thư rác, cho phép các nhà cung cấp email vượt xa các bộ lọc từ khóa đơn giản để chặn các email hàng loạt như thư "Vi@gra".
Bằng cách nhận và so sánh số lượng lớn email (một số được đánh dấu là thư rác và một số không phải thư rác), hệ thống máy học có thể phát triển các tiêu chí riêng để phân biệt chúng. Sau khi bộ phân loại này được "huấn luyện", nó sẽ được tung ra để phân tích các email đến và dự đoán liệu mỗi thư sẽ được gửi đến hộp thư đến, thư mục rác hay bị từ chối hoàn toàn.
Vào thời điểm các chuyên gia về máy học bắt đầu tìm đến Facebook, danh sách các câu hỏi mà bộ phân loại đang cố gắng trả lời đã vượt xa "Đây có phải là thư rác không?" phần lớn nhờ vào những người như Yann LeCun. Zuckerberg tự tin về sự phát triển trong tương lai và các ứng dụng của Facebook. Đến năm 2016, ông dự đoán rằng các máy phân loại sẽ vượt qua nhận thức, khả năng nhận biết và hiểu biết của con người trong vòng 5 đến 10 năm tới, cho phép các công ty loại bỏ những hành vi không phù hợp và đạt được những bước nhảy vọt trong việc kết nối thế giới. Dự đoán này tỏ ra quá lạc quan.
Ngay cả khi công nghệ được cải thiện, bộ dữ liệu phát triển và tốc độ xử lý tăng lên, một nhược điểm của học máy vẫn tồn tại. Các thuật toán do công ty phát triển luôn từ chối giải thích. Các kỹ sư có thể đánh giá sự thành công của bộ phân loại bằng cách kiểm tra các kết quả, chẳng hạn như độ chính xác và khả năng thu hồi. Nhưng vì hệ thống tự dạy mình cách nhận biết thứ gì đó dựa trên logic do chính nó thiết kế nên khi nó gặp trục trặc, thật khó để tìm ra lý do phù hợp với nhận thức của con người.
Đôi khi những sai lầm có vẻ buồn cười. Những lần khác, chúng phản ánh lỗi của con người một cách có hệ thống. Arturo Bejar kể lại rằng trong những nỗ lực ban đầu của Facebook nhằm triển khai các bộ phân loại nhằm phát hiện nội dung khiêu ***, hệ thống thường cố gắng loại trừ các hình ảnh liên quan đến giường ngủ.
Những sai lầm cơ bản tương tự vẫn tiếp tục xảy ra, ngay cả khi công ty bắt đầu dựa vào công nghệ AI tiên tiến hơn để đưa ra những quyết định quan trọng và phức tạp hơn những quyết định "khiêu ***/không khiêu ***". Công ty đang tập trung toàn lực vào trí tuệ nhân tạo, vừa để xác định những gì mọi người nên nhìn thấy vừa để giải quyết mọi vấn đề có thể phát sinh.
Không còn nghi ngờ gì nữa, khoa học máy tính đang phát triển với tốc độ chóng mặt và những lợi ích mà nó mang lại là có thật. Nhưng tốc độ, phạm vi và quy mô áp dụng học máy của Facebook phải trả giá bằng sự dễ hiểu. Tại sao thuật toán "Trang bạn có thể thích" của Facebook dường như tập trung vào việc đề xuất một số chủ đề nhất định? Làm sao một video clip hoạt hình trên máy tính về cấy ghép nha khoa lại có thể được xem hàng trăm triệu lần? Tại sao một số nhà xuất bản tin tức tiếp tục trở nên nổi tiếng chỉ bằng cách viết lại các báo cáo của các phương tiện truyền thông khác?
Đối mặt với những vấn đề này, nhóm truyền thông của Facebook sẽ lưu ý rằng hệ thống đã phản ứng với hành động và không tính đến thị hiếu của mọi người. Đây là những lập luận khó bác bỏ. Họ cũng che giấu một sự thật khó chịu: Facebook đang phát triển theo những cách mà họ không hiểu hết.
Năm năm sau khi tuyên bố sẽ bắt đầu sử dụng máy học để đề xuất nội dung và nhắm mục tiêu quảng cáo, các hệ thống của Facebook sẽ phụ thuộc rất nhiều vào trí tuệ nhân tạo có thể tự đào tạo đến mức Yann Lekun đã tự hào tuyên bố: “Nếu không có công nghệ này, các sản phẩm Facebook có thể đã trở nên lỗi thời!”
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top