Transformers: các nhà khoa học Google đi tiên phong trong cuộc cách mạng AI

Giống như nhiều đột phá trong khám phá khoa học, đột phá thúc đẩy cuộc cách mạng trí tuệ nhân tạo đến từ một khoảnh khắc tình cờ.
Đầu năm 2017, hai nhà khoa học nghiên cứu của Google, Ashish Vaswani và Jakob Uszkoreit, đã ở trong hành lang của khuôn viên Mountain View của gã khổng lồ tìm kiếm, thảo luận về một ý tưởng mới về cách cải thiện dịch máy, công nghệ AI đằng sau Google Dịch.
Transformers: các nhà khoa học Google đi tiên phong trong cuộc cách mạng AI
Các nhà nghiên cứu AI đã làm việc với một đồng nghiệp khác, Illia Polosukhin, về một khái niệm mà họ gọi là “tự chú ý” có thể tăng tốc và nâng cao triệt để cách máy tính hiểu ngôn ngữ.
Polosukhin, một người hâm mộ khoa học viễn tưởng đến từ Kharkiv ở Ukraine, tin rằng sự chú ý đến bản thân hơi giống với ngôn ngữ của người ngoài hành tinh trong bộ phim Arrival, mới được phát hành gần đây. Ngôn ngữ hư cấu của người ngoài hành tinh không chứa các chuỗi từ tuyến tính. Thay vào đó, họ tạo ra toàn bộ câu bằng cách sử dụng một biểu tượng duy nhất đại diện cho một ý tưởng hoặc một khái niệm, mà các nhà ngôn ngữ học của con người phải giải mã toàn bộ.
Các phương pháp dịch AI tiên tiến nhất vào thời điểm đó liên quan đến việc quét từng từ trong một câu và dịch lần lượt từ đó theo một quy trình tuần tự. Ý tưởng của việc tự chú ý là đọc toàn bộ câu cùng một lúc, phân tích tất cả các phần của nó chứ không chỉ từng từ riêng lẻ. Sau đó, bạn có thể thu thập ngữ cảnh tốt hơn và tạo bản dịch song song.
Ba nhà khoa học của Google phỏng đoán rằng phương pháp này sẽ nhanh hơn và chính xác hơn nhiều so với các phương pháp hiện có. Họ bắt đầu thử nghiệm với một số nguyên mẫu ban đầu về các bản dịch tiếng Anh-Đức và nhận thấy nó hoạt động hiệu quả.
Trong cuộc trò chuyện của họ ở hành lang, Uszkoreit và Vaswani đã tình cờ nghe được Noam Shazeer, một cựu chiến binh của Google, người đã gia nhập công ty vào năm 2000 khi Google có khoảng 200 nhân viên.
Shazeer, người đã giúp xây dựng “Ý bạn là gì?” chức năng kiểm tra chính tả cho Tìm kiếm của Google, trong số một số cải tiến AI khác, đã bị thất vọng bởi các phương pháp tạo ngôn ngữ hiện có và tìm kiếm các ý tưởng mới.
Vì vậy, khi nghe các đồng nghiệp của mình nói về ý tưởng “tự chú ý” này, anh ấy đã quyết định nhảy vào và giúp đỡ. “Tôi đã nói, tôi ở bên bạn . . . Hãy làm đi, điều này sẽ làm cho cuộc sống của tất cả các nhà nghiên cứu AI trở nên tốt đẹp hơn rất nhiều,” Shazeer nói. Cuộc trò chuyện tình cờ đã chính thức hóa sự hợp tác kéo dài nhiều tháng vào năm 2017, cuối cùng đã tạo ra một kiến
trúc để xử lý ngôn ngữ, được gọi đơn giản là “máy biến áp”. Tám nhà khoa học nghiên cứu, những người cuối cùng đã đóng một vai trò trong việc tạo ra nó, đã mô tả nó trong một bài báo ngắn với tiêu đề hấp dẫn: “Chú ý là tất cả những gì bạn cần”.
Một trong những tác giả, Llion Jones, người lớn lên ở một ngôi làng nhỏ xứ Wales, nói rằng tiêu đề là một cái gật đầu với bài hát "All You Need Is Love" của The Beatles. Bài báo được xuất bản lần đầu vào tháng 6 năm 2017 và nó đã khởi đầu một kỷ nguyên hoàn toàn mới của trí tuệ nhân tạo: sự trỗi dậy của AI tổng hợp.
Ngày nay, máy biến áp làm nền tảng cho hầu hết các ứng dụng tiên tiến của AI trong quá trình phát triển. Nó không chỉ được nhúng trong Google Tìm kiếm và Dịch, thứ mà nó được phát minh ban đầu, mà còn cung cấp năng lượng cho tất cả các mô hình ngôn ngữ lớn, bao gồm cả những mô hình đằng sau ChatGPT và Bard. Nó thúc đẩy tính năng tự động hoàn thành trên bàn phím di động của chúng tôi và tính năng nhận dạng giọng nói bằng loa thông minh.
Tuy nhiên, sức mạnh thực sự của nó đến từ thực tế là nó hoạt động trong những lĩnh vực vượt xa ngôn ngữ. Nó có thể tạo ra bất cứ thứ gì có họa tiết hoặc mẫu lặp lại, từ hình ảnh bằng các công cụ như Dall-E, Midjourney và Stable Diffusion, đến mã máy tính bằng các trình tạo như GitHub CoPilot hoặc thậm chí là DNA.
Transformers: các nhà khoa học Google đi tiên phong trong cuộc cách mạng AI
Vaswani, lớn lên ở Oman trong một gia đình Ấn Độ, có niềm yêu thích đặc biệt với âm nhạc và tự hỏi liệu máy biến áp có thể được sử dụng để tạo ra âm nhạc hay không. Anh ấy đã rất ngạc nhiên khi phát hiện ra nó có thể tạo ra nhạc piano cổ điển cũng như các mô hình AI tiên tiến nhất thời bấy giờ.
“Máy biến áp là một cách để nắm bắt tương tác rất nhanh cùng một lúc giữa các phần khác nhau của bất kỳ đầu vào nào và một khi nó làm được điều đó, nó có thể . . . tìm hiểu các tính năng từ nó, anh ấy nói. “Đó là một phương pháp chung để ghi lại các tương tác giữa các phần trong câu hoặc nốt nhạc trong bản nhạc hoặc pixel trong hình ảnh hoặc các phần của protein. Nó có thể được sử dụng cho bất kỳ nhiệm vụ nào.”
Nguồn gốc của máy biến áp và câu chuyện về những người tạo ra nó giúp giải thích cách chúng ta có được thời điểm này trong trí tuệ nhân tạo: một điểm uốn, có thể so sánh với quá trình chuyển đổi của chúng ta sang web hoặc điện thoại thông minh, đã gieo mầm cho một thế hệ doanh nhân mới xây dựng các sản phẩm tiêu dùng hỗ trợ AI cho đại chúng.
Nhưng nó cũng làm nổi bật cách thức quá trình phát triển của Google thành một công ty quan liêu lớn đương nhiệm đã kìm hãm khả năng để chủ nghĩa kinh doanh phát triển và tung ra các sản phẩm tiêu dùng mới một cách nhanh chóng. Tất cả tám tác giả, bảy người trong số họ đã nói chuyện với Financial Times, hiện đã rời công ty.
Đó là một minh họa rõ ràng cho “thế tiến thoái lưỡng nan của nhà đổi mới”, một thuật ngữ được đặt ra bởi giáo sư Clayton Christensen của Trường Kinh doanh Harvard nhằm khám phá lý do tại sao các nhà lãnh đạo ngành lại bị những người chơi nhỏ, mới nổi vượt qua. Mặc dù tập hợp những tài năng hàng đầu thế giới về học sâu và AI, đồng thời tạo ra một môi trường nghiên cứu màu mỡ cho họ, nhưng Google đã không thể giữ chân các nhà khoa học mà họ đã giúp đào tạo.
Trong một tuyên bố, Google cho biết họ “tự hào về công việc đột phá, xác định ngành của chúng tôi về máy biến áp và [được] tiếp sức bởi hệ sinh thái AI mà nó đã tạo ra.” Nó thừa nhận một thực tế “buồn vui lẫn lộn” rằng, trong một môi trường năng động như vậy, những nhân viên tài năng có thể chọn đi tiếp.
Các chuyên gia cho rằng vốn trí tuệ được tạo ra đã dẫn đến sự bùng nổ đổi mới. “Những gì xuất phát từ 'Chú ý là tất cả những gì bạn cần' là cơ sở cho mọi công ty AI sáng tạo sử dụng mô hình ngôn ngữ lớn một cách hiệu quả. Ý tôi là nó có trong mọi thứ. Đó là điều điên rồ nhất về nó,” Jill Chase, một đối tác tại CapitalG, quỹ tăng trưởng của Alphabet, nơi cô tập trung đầu tư vào AI, cho biết. “Tất cả những sản phẩm này tồn tại là nhờ máy biến áp.”
Sự ra đời của một sự đổi mới
Giống như tất cả các tiến bộ khoa học, máy biến áp được xây dựng dựa trên nhiều thập kỷ làm việc trước đó, từ các phòng thí nghiệm của chính Google, cũng như công ty con DeepMind, chủ sở hữu Facebook Meta và các nhà nghiên cứu đại học ở Canada và Hoa Kỳ, cùng những người khác.
Nhưng trong suốt năm 2017, các mảnh ghép lại với nhau thông qua sự tập hợp tình cờ của một nhóm các nhà khoa học trải khắp các bộ phận nghiên cứu của Google.
Nhóm cuối cùng bao gồm Vaswani, Shazeer, Uszkoreit, Polosukhin và Jones, cũng như Aidan Gomez, một thực tập sinh khi đó đang theo học tại Đại học Toronto, và Niki Parmar, một sinh viên mới tốt nghiệp thạc sĩ trong nhóm của Uszkoreit, đến từ Pune ở miền tây Ấn Độ. Tác giả thứ tám là Lukasz Kaiser, cũng là một học giả bán thời gian tại Trung tâm Nghiên cứu Khoa học Quốc gia Pháp.
Mỗi người đều hướng tới lĩnh vực được nhiều người coi là lĩnh vực nghiên cứu AI mới nổi: xử lý ngôn ngữ tự nhiên. Sự đa dạng về giáo dục, nghề nghiệp và địa lý của nhóm — đến từ các nền tảng khác nhau như Ukraine, Ấn Độ, Đức, Ba Lan, Anh, Canada và Hoa Kỳ — khiến họ trở nên độc đáo. Uszkoreit, người lớn lên giữa Hoa Kỳ và Đức, cho biết: “Có được nhóm người đa dạng như vậy là vô cùng cần thiết để công việc này diễn ra.
Họ đã làm gì tiếp theo
Transformers: các nhà khoa học Google đi tiên phong trong cuộc cách mạng AI
Uszkoreit ban đầu kiên quyết rằng anh ấy sẽ không bao giờ làm việc trong lĩnh vực hiểu ngôn ngữ, bởi vì cha anh ấy là giáo sư ngôn ngữ học máy tính. Nhưng khi đến Google với tư cách là một thực tập sinh, anh ấy đã rất khó chịu khi nhận ra rằng những vấn đề thú vị nhất trong AI vào thời điểm đó là dịch ngôn ngữ. Một cách miễn cưỡng, anh tiếp bước cha mình và cuối cùng cũng tập trung vào dịch máy.
Như tất cả họ đều nhớ, ban đầu họ làm việc thành ba nhóm riêng biệt về các khía cạnh khác nhau của việc tự chú ý, nhưng sau đó quyết định hợp lực lại. Trong khi một số người trong nhóm làm việc để viết mã ban đầu, làm sạch dữ liệu và kiểm tra mã, thì những người khác chịu trách nhiệm tạo kiến trúc xung quanh các mô hình, tích hợp mã đó vào cơ sở hạ tầng của Google để làm cho mã đó hoạt động hiệu quả và cuối cùng là giúp dễ dàng triển khai.
Jones nói: “Ý tưởng về máy biến áp hình thành một cách tự nhiên khi chúng tôi làm việc và hợp tác trong văn phòng. Môi trường làm việc có kế hoạch mở đầy màu sắc của Google, hoàn chỉnh với xe đạp trong khuôn viên, đã tỏ ra hiệu quả. “Tôi nhớ Jakob [Uszkoreit] đã đạp xe đến bàn của tôi và viết nguệch ngoạc bức ảnh của một người mẫu lên tấm bảng trắng phía sau tôi và thu thập suy nghĩ của bất kỳ ai đang ở trong tầm nghe của tôi.”
Lực lượng ràng buộc giữa nhóm là niềm đam mê của họ với ngôn ngữ và động lực của họ trong việc sử dụng AI để hiểu rõ hơn về ngôn ngữ đó. Như Shazeer, một kỹ sư kỳ cựu, nói: “Văn bản thực sự là hình thức tư duy trừu tượng tập trung nhất của chúng ta. Tôi luôn cảm thấy rằng nếu bạn muốn xây dựng thứ gì đó thực sự thông minh, bạn nên làm điều đó trên văn bản.”
Transformers: các nhà khoa học Google đi tiên phong trong cuộc cách mạng AI
Họ đã làm gì tiếp theo
Mô hình được xuất bản trong bài báo là một phiên bản đơn giản, đơn giản hơn của ý tưởng ban đầu về sự chú ý đến bản thân. Shazeer nhận thấy nó thậm chí còn hoạt động tốt hơn theo cách này, khi loại bỏ bất kỳ chuông và còi nào mà họ đã cố gắng thêm vào. Mã mô hình đã cung cấp điểm bắt đầu, nhưng cần phải tinh chỉnh sâu rộng để làm cho mã này chạy trên các đơn vị xử lý đồ họa, phần cứng phù hợp nhất với công nghệ học sâu như máy biến áp.
“Trong học sâu, không có gì chỉ là về các phương trình. Đó là cách bạn . . . Uszkoreit nói.
Sau khi những điều này được áp dụng, chủ yếu bởi Shazeer, người mà một trong những đồng tác giả của ông gọi là “thầy phù thủy”, máy biến áp bắt đầu cải thiện mọi nhiệm vụ mà nó được thực hiện, với những bước nhảy vọt.
Lợi ích của nó là nó cho phép thực hiện các phép tính song song và đóng gói chúng thành các phép toán ít hơn nhiều so với các phương pháp khác, khiến chúng nhanh hơn và hiệu quả hơn. Polosukhin nói: “Nó rất đơn giản và về tổng thể, mô hình này rất nhỏ gọn.
Một phiên bản được đánh giá ngang hàng của bài báo đã được xuất bản vào tháng 12 năm 2017, đúng thời điểm diễn ra NeurIPS, một trong những hội nghị về máy học uy tín nhất được tổ chức ở miền nam California vào năm đó. Nhiều tác giả của máy biến hình nhớ đã bị đám đông các nhà nghiên cứu tại sự kiện này vây bắt khi trưng bày một tấm áp phích về tác phẩm của họ. Ngay sau đó, các nhà khoa học từ các tổ chức bên ngoài Google đã bắt đầu sử dụng máy biến áp trong các ứng dụng từ dịch thuật đến các câu trả lời, ghi nhãn và nhận dạng hình ảnh do AI tạo ra. Hiện tại, nó đã được trích dẫn hơn 82.000 lần trong các tài liệu nghiên cứu.
Transformers: các nhà khoa học Google đi tiên phong trong cuộc cách mạng AI
Sau khi bài báo được xuất bản, Parmar nhận thấy máy biến áp có thể tạo ra các trang văn bản dài giống như Wikipedia, điều mà các mô hình trước đó đã phải vật lộn với. “Và chúng tôi đã biết [khi đó] rằng bạn không bao giờ có thể làm bất cứ điều gì như thế trước đây,” cô nói.
Parmar cũng nhận ra một trong những thuộc tính chính của máy biến áp: đó là khi bạn mở rộng quy mô của chúng, bằng cách cung cấp cho chúng ngày càng nhiều dữ liệu, “chúng có thể học hỏi tốt hơn nhiều”. Họ đã chỉ đường cho sự ra đời của các mô hình lớn như GPT-4, có khả năng suy luận và ngôn ngữ tốt hơn nhiều so với các mô hình tiền nhiệm của chúng.
Jones nói: “Chủ đề chung là máy biến áp dường như hoạt động tốt hơn nhiều so với [các kiểu máy trước đó] ngay lập tức trên bất cứ thứ gì mọi người ném chúng vào. “Đây là những gì tôi nghĩ đã gây ra hiệu ứng quả cầu tuyết.”
Cuộc sống ngoài Google
Sau khi mô hình máy biến áp được công bố rộng rãi, các nhà nghiên cứu đã bắt đầu cảm thấy thiếu kiên nhẫn về việc đưa ý tưởng của họ ra thị trường.
Tốc độ nghiên cứu AI đang tăng lên, đặc biệt là trong các lĩnh vực như tạo văn bản và hình ảnh bằng máy biến áp, nhưng nhiều đóng góp đến từ bên ngoài Google, từ các công ty khởi nghiệp như OpenAI.
Mỗi đồng tác giả đã nói chuyện với FT cho biết họ muốn khám phá khả năng của hộp công cụ mà họ đã tạo ra. “Những năm sau máy biến áp là một trong những năm màu mỡ nhất trong nghiên cứu. Nó trở nên rõ ràng . . . các mô hình sẽ trở nên thông minh hơn với nhiều phản hồi hơn,” Vaswani nói. “Thật quá hấp dẫn để không theo đuổi điều này.”
Nhưng họ cũng phát hiện ra rằng Google không được cấu trúc theo cách cho phép chủ nghĩa kinh doanh chấp nhận rủi ro hoặc tung ra sản phẩm mới một cách nhanh chóng. Nó sẽ yêu cầu xây dựng một “loại phần mềm mới . . . máy tính mà bạn có thể nói chuyện,” Vaswani cho biết thêm. “Việc đưa tầm nhìn đó ra ánh sáng bên ngoài Google có vẻ dễ dàng hơn.” Cuối cùng anh ấy sẽ ra đi vào năm 2021.
Polosukhin đã sớm rời đi vào năm 2017 để thành lập một công ty khởi nghiệp có tên là Near với ý tưởng ban đầu là sử dụng AI để dạy máy tính viết mã nhưng sau đó đã chuyển hướng sang thanh toán chuỗi khối.
Gomez, người trẻ nhất và thiếu kinh nghiệm nhất, là người tiếp theo trở nên bồn chồn. Chàng sinh viên người Canada có niềm đam mê với thời trang và thiết kế, đã thực tập cho Kaiser (người đã rời đi để tham gia OpenAI) và thấy mình đi đầu trong nghiên cứu mới thú vị về hiểu ngôn ngữ.
“Lý do khiến tôi rời Google là vì tôi thực sự không thấy đủ sự chấp nhận trong các sản phẩm mà tôi đang sử dụng. Họ không thay đổi. Họ không hiện đại hóa. Họ không áp dụng công nghệ này. Tôi chỉ không thấy công nghệ mô hình ngôn ngữ lớn này thực sự đến được những nơi mà nó cần đến,” anh ấy nói.
Năm 2019, anh ấy rời Google để thành lập Cohere, một công ty khởi nghiệp về trí tuệ nhân tạo tổng quát được định giá hơn 2 tỷ đô la, với khoản đầu tư từ Nvidia, Oracle và Salesforce, cùng những công ty khác. Gomez quan tâm đến việc áp dụng các mô hình ngôn ngữ lớn cho các vấn đề kinh doanh từ ngân hàng và bán lẻ đến dịch vụ khách hàng. Ông nói: “Đối với chúng tôi, đó là việc hạ thấp rào cản tiếp cận. “Mọi nhà phát triển đều có thể xây dựng bằng công cụ này.”
Họ đã làm gì tiếp theo
Trong khi đó, Uszkoreit quyết định sử dụng máy biến áp trong một lĩnh vực hoàn toàn khác. Công ty khởi nghiệp Inceptive của anh ấy là một công ty công nghệ sinh học đang thiết kế “phần mềm sinh học” bằng cách sử dụng các kỹ thuật học sâu. “Nếu bạn nghĩ về phần mềm máy tính, thì nó đang lập trình thứ gì đó có thể thực thi được . . . có một chương trình sau đó được chuyển đổi thành phần mềm chạy trên máy tính của bạn,” anh ấy nói. “Chúng tôi muốn làm điều đó nhưng với các tế bào trong cơ thể bạn.”
Công ty đã chuyển giao các phân tử do AI thiết kế để sản xuất vắc-xin bệnh truyền nhiễm cho một công ty dược phẩm lớn. Uszkoreit nói: “Tôi tin rằng đó là cách tốt nhất cho đến nay để xây dựng dựa trên những gì tôi đã làm trong thập kỷ qua để cải thiện và thậm chí có thể cứu sống mọi người.
Shazeer rời Google vào năm 2021 sau hai thập kỷ để đồng sáng lập Character.ai, một công ty cho phép người dùng xây dựng chatbot có các nhân vật của riêng họ, từ Đức Phật đến Julius Caesar hay phim hoạt hình Nhật Bản. “Có vẻ như thật khó để tung ra sản phẩm tại một công ty lớn . . . các công ty khởi nghiệp có thể phát triển nhanh hơn,” ông nói. Công ty nơi ông là giám đốc điều hành gần đây được định giá 1 tỷ đô la.
Vaswani và Parmar rời đi cùng lúc vào năm 2021 và kể từ đó đã hợp tác thành lập một công ty mới có tên Essential.ai, hoạt động trên các ứng dụng AI trong kinh doanh. Công ty khởi nghiệp vẫn đang hoạt động bí mật, mặc dù nó đã huy động được 8 triệu đô la từ Thrive Capital, một nhà đầu tư ban đầu vào Instagram, Slack và Stripe.
“Google là một nơi tuyệt vời, nhưng họ muốn tối ưu hóa cho các sản phẩm hiện có . . . vì vậy mọi thứ diễn ra rất chậm,” Parmar nói. “Tôi muốn sử dụng công nghệ rất có khả năng này và xây dựng các sản phẩm mới lạ từ nó. Và đó là động lực lớn để ra đi.”
Nhiều đồng tác giả vẫn liên lạc thường xuyên, chúc mừng thành công của nhau và hỗ trợ nhau vượt qua những thách thức đặc biệt khi trở thành doanh nhân khởi nghiệp.
Nếu máy biến áp là một khoảnh khắc bùng nổ lớn, thì giờ đây cả một vũ trụ đang mở rộng xung quanh nó, từ AlphaFold của DeepMind, dự đoán cấu trúc protein của hầu hết mọi loại protein đã biết, đến ChatGPT, mà Vaswani gọi là “sự kiện thiên nga đen”.
Điều này đã dẫn đến một thời kỳ mà những người trong cuộc ở Thung lũng Silicon gọi là thời kỳ bùng nổ công nghệ — thời kỳ mà các ngành công nghiệp sẽ dành để tích hợp những phát triển AI mới nhất vào sản phẩm, ngay cả khi nghiên cứu không tiến triển chút nào.
“Bạn đang nhìn thấy hậu quả - AI đang thu hút các nhà nghiên cứu, nhà công nghệ, nhà phát triển và người sản xuất. Bây giờ chúng tôi tin rằng có một phần nhô ra về công nghệ . . . và có rất nhiều giá trị được hiện thực hóa trong các sản phẩm khác nhau,” Vaswani nói. “Theo một nghĩa nào đó, đó là lý do tại sao tất cả chúng tôi phân tán và cố gắng đưa công nghệ này trực tiếp đến tay mọi người.”
Tham khảo bài viết gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga

Gợi ý cộng đồng

Top