Đây là một khoảnh khắc tuyệt vời cho cả nhân loại và AI: Jensen Huang, Fei-Fei Li, Geoffrey Hinton, Yoshua Bengio, Yann LeCun và Bill Dally, hiếm khi xuất hiện cùng nhau tại cùng một bàn tròn để thảo luận về AI. Việc họ gặp nhau là do cả sáu người đều đã nhận được Giải thưởng Nữ hoàng Elizabeth năm 2025 cho Kỹ thuật. Vào ngày 5 tháng 11, giờ địa phương, sáu người đã tham gia một cuộc thảo luận bàn tròn tại một sự kiện AI của Anh xoay quanh giải thưởng này.
Trong cuộc thảo luận, sáu cá nhân đã chia sẻ quan điểm của họ về việc liệu có phải đang có bong bóng trong sự phát triển hiện tại của AI hay không và tất cả đều đồng ý rằng AI sẽ dần dần tiếp cận trí thông minh của con người.
Jensen Huang cho rằng phần mềm trước đây về cơ bản là một công cụ, một hình thức tự động hóa ban đầu được con người sử dụng. Mặt khác, AI là trí tuệ nhân tạo giúp nâng cao năng lực của con người; do đó, nó liên quan đến lao động và công việc, và nó thực sự đang đóng một vai trò thiết thực. Theo quan điểm của Huang, nhân loại đang ở giai đoạn đầu của việc xây dựng trí tuệ. Ông chỉ ra một sự thật cơ bản: AI vẫn chưa phổ biến trong hầu hết mọi người. Ông tin rằng trong tương lai gần, hầu như mọi hoạt động hàng ngày của chúng ta, mọi khoảnh khắc trong ngày, sẽ được AI đồng hành theo một cách nào đó. Điều này có nghĩa là nhân loại cần có một bước nhảy vọt từ mức sử dụng thấp hiện nay sang mức sử dụng gần như không bị gián đoạn trong tương lai, và kỹ thuật mở rộng đằng sau điều này là hiển nhiên.
Lý Phi Phi chỉ ra rằng AI vẫn còn là một lĩnh vực rất non trẻ. Ngay cả khi so sánh với vật lý hiện đại, AI mới chỉ có lịch sử chưa đầy bảy mươi năm, và chỉ khoảng bảy mươi lăm năm kể từ Alan Turing. Do đó, vẫn còn rất nhiều lĩnh vực mới đang chờ đợi để xuất hiện. Bà tin rằng một số khả năng của máy móc sẽ vượt trội hơn trí thông minh của con người, trong khi những khía cạnh khác của trí thông minh máy móc sẽ không bao giờ hội tụ hoặc tương đương với trí thông minh của con người. Điều này là do ý định thiết kế của chúng khác với con người; chúng được tạo ra cho những mục đích khác nhau.
Hinton tin rằng nếu được hỏi "Mất bao lâu để một cỗ máy có thể thắng bạn một cách vĩnh viễn trong một cuộc tranh luận?", ông sẽ trả lời rằng điều đó sẽ trở thành hiện thực trong vòng hai mươi năm. Con người vẫn chưa đạt đến trình độ đó, nhưng Hinton tin rằng điều đó sẽ xảy ra trong vòng hai mươi năm tới. Tuy nhiên, ông cũng chỉ ra rằng nếu chúng ta xem xét AGI...Nếu chúng ta định nghĩa nó là khả năng luôn đánh bại con người trong tranh luận, thì con người có thể đạt được mục tiêu này trong vòng chưa đầy hai mươi năm.
Joshua lập luận rằng nhân loại nên ngừng sử dụng thuật ngữ "mô hình ngôn ngữ lớn" vì chức năng của chúng vượt xa ngôn ngữ. Ông chỉ ra rằng mặc dù con người không thể dự đoán được bối cảnh công nghệ cụ thể của vài năm hoặc vài thập kỷ tới, nhưng vẫn có thể nắm bắt được các xu hướng. Do đó, Joshua tin rằng nhân loại nên duy trì lập trường thực sự khách quan, tránh những khẳng định quá mức, vì tương lai còn rộng mở và đa dạng. Ông cũng cho biết hiện đang liên hệ với các chuyên gia quốc tế để cùng theo dõi tiến trình, định hướng, rủi ro tiềm ẩn và các biện pháp đối phó của AI.
Yann LeCun tin rằng bong bóng AI thực sự tồn tại - nó dựa trên niềm tin rằng mô hình mô hình ngôn ngữ lớn hiện tại sẽ được nâng cấp trực tiếp lên mức trí tuệ con người. Trước khi con người có thể tạo ra những cỗ máy có trí thông minh như con người (không chỉ con người mà cả động vật), cần có một số đột phá cơ bản.
Với tư cách là nhà khoa học trưởng của Nvidia, Bill Dally đã chỉ ra rằng AI nên lấp đầy những khoảng trống trong khả năng của con người. Con người không thể nhận dạng 22.000 vật thể, và hầu hết mọi người không thể giải quyết các vấn đề liên quan đến methylamphetamine; những vấn đề này có thể được giao cho AI. Điều này sẽ giải phóng năng lượng của con người cho những công việc lấy con người làm trung tâm hơn: chẳng hạn như sáng tạo, đồng cảm và tương tác giữa các cá nhân.
Sau đây là bản ghi lại cuộc trò chuyện, được mình biên tập mà không làm thay đổi ý nghĩa ban đầu:
Sáu người nói về những khoảnh khắc quan trọng trong cuộc đời họ
Người dẫn chương trình: Xin chào mọi người, dù là buổi chiều hay buổi sáng. Tôi rất vui khi được mời giới thiệu những cá nhân đáng chú ý đang tụ họp quanh chiếc bàn này, những người mà tôi tin là sáu trong số những người xuất sắc và có ảnh hưởng nhất trên thế giới hiện nay. Và tôi tin rằng điều này không hề phóng đại. Họ là những người nhận Giải thưởng Nữ hoàng Elizabeth năm 2025 về Kỹ thuật. Giải thưởng này ghi nhận tác động độc đáo của những người đoạt giải này đối với công nghệ AI ngày nay. Tôi muốn nghe từ mỗi người trong số các bạn: Trong sự nghiệp của mình, đã bao giờ có khoảnh khắc bất ngờ nào truyền cảm hứng khiến bạn cảm thấy như nó đã thay đổi hướng đi công việc của mình chưa? Khoảnh khắc thức tỉnh thực sự mang tính cá nhân nào đã gây ấn tượng với bạn? Và nó đã ảnh hưởng đến sự phát triển của công nghệ này như thế nào? Tôi có thể bắt đầu với bạn không, Yoshua?
Yoshua Bengio: Hai khoảnh khắc quan trọng vẫn còn sống động trong ký ức của tôi. Khoảnh khắc đầu tiên là trong thời gian học sau đại học, khi tôi đang vật lộn để tìm một chủ đề nghiên cứu hấp dẫn. Khi tôi đọc các bài báo đầu tiên của Geoffrey, đó là một sự khám phá. Tôi vô cùng phấn khích, cảm thấy rằng chúng có thể chứa đựng những nguyên lý đẹp đẽ và cơ bản như các định luật vật lý, hướng dẫn chúng ta hiểu bản chất của trí thông minh và cuối cùng là chế tạo ra những cỗ máy thông minh. Khoảnh khắc thứ hai là khoảng hai năm rưỡi trước khi ChatGPT xuất hiện. Nó đập vào tôi như một tấn gạch, buộc tôi phải suy nghĩ: Chúng ta đang làm gì? Điều gì sẽ xảy ra nếu chúng ta phát triển những cỗ máy hiểu ngôn ngữ, có mục tiêu riêng nhưng không thể kiểm soát chúng? Điều gì sẽ xảy ra nếu chúng thông minh hơn chúng ta? Điều gì sẽ xảy ra nếu ai đó lạm dụng sức mạnh này? Chính cảm giác khủng hoảng dữ dội này đã thúc đẩy tôi thay đổi hoàn toàn quỹ đạo nghiên cứu và con đường sự nghiệp của mình, làm mọi thứ có thể để giải quyết vấn đề này.
Bill Dally: Trải nghiệm của tôi cũng khá giống với Joshua. Đó là vào cuối những năm 1990, khi tôi đang nghiên cứu cách vượt qua cái gọi là vấn đề "bức tường bộ nhớ" tại Đại học Stanford - năng lượng và thời gian cần thiết để truy xuất dữ liệu từ bộ nhớ vượt xa khả năng tính toán. Tôi nảy ra một ý tưởng: tổ chức tính toán thành các mô-đun lõi được kết nối bằng các luồng dữ liệu. Điều này sẽ giảm đáng kể việc truy cập bộ nhớ trong khi thực hiện một lượng lớn các phép tính số học. Ý tưởng này thực sự đã đặt nền móng cho cái mà sau này được gọi là "xử lý luồng" và cuối cùng là điện toán GPU. Vì vậy, khi chúng tôi bắt đầu xây dựng nó, chúng tôi nhận ra nó không chỉ có thể được áp dụng cho xử lý đồ họa mà còn cho điện toán khoa học nói chung. Khoảnh khắc quan trọng thứ hai của tôi đến trong bữa sáng tại Stanford với đồng nghiệp Andrew Ang. Anh ấy đang làm việc tại Google và sử dụng một kỹ thuật gọi là "mạng nơ-ron" để tìm kiếm ảnh mèo trên internet - sử dụng 16.000 CPU. Anh ấy đã thuyết phục tôi rằng đó là một kỹ thuật tuyệt vời. Vì vậy, tôi đã hợp tác với những người khác để tái tạo toàn bộ thí nghiệm bằng 48 GPU Nvidia
Người dẫn chương trình: Chính xác là khi nào? Và anh đang nhắc đến sự kiện nào?
Bill Dally: Bữa sáng đó diễn ra vào năm 2010. Nếu tôi nhớ không nhầm thì chúng tôi đã lặp lại thí nghiệm vào năm sau, năm 2011.
Người dẫn chương trình: Geoffrey, đến lượt anh kể cho chúng tôi nghe rồi.
Geoffrey Hinton: Một khoảnh khắc vô cùng quan trọng đối với tôi xảy ra vào khoảng năm 1984. Tôi đang thử nghiệm backpropagation, cố gắng dạy một mô hình dự đoán từ tiếp theo trong một chuỗi từ. Về cơ bản, đó là một mô hình ngôn ngữ nhỏ. Các thí nghiệm cho thấy mô hình này có thể tự động học các đặc điểm thú vị về nghĩa của từ. Nói cách khác, chỉ cần cho một chuỗi ký hiệu, nó có thể học, dựa trên một số quy tắc nội bộ, cách chuyển đổi các từ thành một tập hợp các đặc điểm. Các đặc điểm này không chỉ nắm bắt được ngữ nghĩa của các từ mà còn dự đoán biểu diễn đặc điểm của từ tiếp theo thông qua các tương tác giữa chúng. Trên thực tế, tôi tin rằng mô hình ngôn ngữ nhỏ này, được xây dựng vào cuối năm 1984, là nguyên mẫu của các mô hình ngôn ngữ lớn ngày nay. Các nguyên tắc cốt lõi vẫn giống nhau. Mặc dù có quy mô nhỏ và chỉ được đào tạo 100 lần, nhưng nó đã tiết lộ mô hình cơ bản.
Người dẫn chương trình: Tuy nhiên, chúng ta phải mất tới bốn mươi năm mới có thể đạt được bước đột phá như ngày hôm nay.
Geoffrey Hinton: Đúng vậy, chúng tôi mất bốn mươi năm mới đạt được thành tựu này. Lý do rất đơn giản: hồi đó, chúng tôi thiếu năng lực tính toán và dữ liệu, và chúng tôi thậm chí còn không nhận thức được vấn đề. Chúng tôi không thể hiểu nổi tại sao ý tưởng hay ho đó lại không thể thực hiện được.
Người dẫn chương trình: Suy ngẫm này tự nhiên làm tôi nhớ đến Jensen Huang . Như đã đề cập trước đó, chúng ta đã bị hạn chế bởi sự thiếu hụt năng lực tính toán trong bốn mươi năm. Và giờ đây, chính anh đang giải quyết vấn đề này. Anh có thể chia sẻ với chúng tôi một số khoảnh khắc quan trọng trong hành trình đã mang lại cho anh sự giác ngộ không?
Jensen Huang: Trong sự nghiệp của mình, tôi thuộc thế hệ kỹ sư đầu tiên có khả năng sử dụng các công cụ thiết kế và trừu tượng hóa cấp cao để thiết kế chip. Nền tảng này khiến tôi rất nhạy bén với các xu hướng mới trong phát triển phần mềm.
Khoảng năm 2010, tôi gần như đồng thời bắt gặp nghiên cứu từ ba phòng thí nghiệm khác nhau tại Đại học Toronto ở Canada, Đại học New York ở Hoa Kỳ và Đại học Stanford ở Hoa Kỳ. Tất cả họ đều chỉ cho tôi một kỹ thuật mà sau này được chứng minh là một hình thức ban đầu của học sâu—sử dụng các khuôn khổ và thiết kế có cấu trúc để tạo ra phần mềm, và phần mềm này tỏ ra cực kỳ hiệu quả. Điều này dẫn đến khám phá thứ hai của tôi: bằng cách tái sử dụng các khuôn khổ, trừu tượng hóa cấp cao hơn và các mẫu có cấu trúc như mạng học sâu, chúng ta có thể phát triển phần mềm mạnh mẽ. Tôi nhận ra rằng thiết kế chip rất giống với việc xây dựng các mẫu này. Vào thời điểm đó, tôi nghĩ rằng có lẽ chúng ta có thể tạo ra phần mềm và khả năng liên tục phát triển và tiến hóa, giống như sự mở rộng của chip trong vài thập kỷ qua.
Người dẫn chương trình: Theo ông, khi nào sẽ là bước ngoặt then chốt cho sự phát triển quy mô lớn của các mô hình ngôn ngữ sử dụng chip? Xét cho cùng, năm 2010, năm mà ông đã nhắc đến, đã là mười lăm năm trước rồi.
Jensen Huang: Ưu điểm cốt lõi của kiến trúc NVIDIA nằm ở chỗ: khi một thuật toán có thể chạy hiệu quả song song trên một GPU duy nhất, nó có thể mở rộng gần như liền mạch sang nhiều GPU, nhiều hệ thống và thậm chí nhiều trung tâm dữ liệu. Logic cơ bản là như nhau. Khi chúng tôi nhận ra rằng chúng tôi có thể đạt được khả năng mở rộng này một cách hiệu quả, câu hỏi chính trở thành: chúng tôi có thể đẩy khả năng này đi xa đến đâu? Chúng tôi có bao nhiêu dữ liệu? Mạng có thể lớn đến mức nào? Mô hình có thể nắm bắt được bao nhiêu chiều? Cuối cùng, nó có thể giải quyết những vấn đề phức tạp nào? Chính ở giai đoạn đó, tôi đã khám phá ra giá trị cốt lõi của học sâu đã được chứng minh bằng hiệu quả của các mô hình, điều này chắc chắn là một điểm nhấn lớn. Và hầu hết công việc tiếp theo về cơ bản là mở rộng và phát triển kỹ thuật.
Người dẫn chương trình: Feifei, hãy kể cho chúng tôi nghe về những khoảnh khắc quan trọng của bạn.
Fei-Fei Li: Tôi cũng có hai khoảnh khắc quan trọng muốn chia sẻ. Khoảng năm 2006 hoặc 2007, tôi chuyển từ nghiên cứu sinh tiến sĩ sang trợ lý giáo sư trẻ. Là một trong những nghiên cứu sinh tiến sĩ đầu tiên tập trung vào học máy, tôi đã đọc các bài báo của các học giả như Yoshua và Geoffrey và trở nên vô cùng hứng thú với việc giải quyết vấn đề nhận dạng hình ảnh - khả năng của máy móc trong việc hiểu ý nghĩa của các vật thể trong hình ảnh hàng ngày. Chúng tôi liên tục vật lộn với vấn đề khái quát hóa của mã máy học: liệu một mô hình có thể nhận dạng thành công các mẫu hoàn toàn mới, chưa từng thấy trước đây sau khi học từ một số lượng mẫu hạn chế hay không? Tôi đã thử nhiều thuật toán khác nhau, từ mạng cơ bản và máy vectơ hỗ trợ đến mạng nơ-ron. Cuối cùng, tôi và các sinh viên của mình nhận ra rằng yếu tố then chốt còn thiếu chính là dữ liệu. Chúng tôi quan sát thấy rằng các sinh vật thông minh như con người phải tiếp xúc với một lượng dữ liệu khổng lồ trong giai đoạn phát triển ban đầu, trong khi máy móc của chúng tôi lại đang trong tình trạng khan hiếm dữ liệu. Vì vậy, chúng tôi quyết định làm một điều có vẻ điên rồ vào thời điểm đó: dành ba năm để tạo ra một bộ dữ liệu quy mô internet. Bộ dữ liệu này chứa 15 triệu hình ảnh được người dùng internet trên toàn thế giới dán nhãn thủ công, bao gồm 22.000 danh mục. Vì vậy, đối với tôi, khoảnh khắc giác ngộ đó chính là nhận ra rằng dữ liệu lớn đang thúc đẩy tương lai của học máy.
Người dẫn chương trình: Và hiện tại, nó đã trở thành nền tảng của mọi mô hình thuật toán.
Fei-Fei Li: Đúng vậy, điều này giờ đã trở thành một phần của quy luật mở rộng AI. Sự giác ngộ thứ hai của tôi đến vào năm 2018. Khi đó, tôi là Nhà khoa học AI Trưởng đầu tiên của Google Cloud, và công việc của chúng tôi bao gồm tất cả các ngành dọc, từ chăm sóc sức khỏe và dịch vụ tài chính đến giải trí, sản xuất, thậm chí cả nông nghiệp và năng lượng. Vài năm sau hình ảnh được gọi là "Khoảnh khắc Alex" và sự xuất hiện của AlphaGo, tôi mới nhận ra vấn đề then chốt. Trong thời gian làm Nhà khoa học Trưởng tại Google, tôi nhận ra rằng tác động của công nghệ này sẽ đạt đến "cấp độ văn minh", chạm đến tất cả mọi người và mọi ngành nghề. Đối mặt với quá trình lịch sử của nhân loại đang tiến tới kỷ nguyên AI, chúng ta phải cân nhắc: Những nguyên tắc chỉ đạo nào có thể đảm bảo rằng khi chúng ta đổi mới mạnh mẽ, công nghệ mạnh mẽ này cuối cùng sẽ mang lại lợi ích cho tất cả mọi người? Ý tưởng này đã thôi thúc tôi trở lại Stanford để giảng dạy, và sau đó chúng tôi đã thành lập Viện AI Lấy Con Người Làm Trung Tâm (HAI) của Stanford, với mục tiêu cốt lõi là xây dựng một khuôn khổ đặt nhân tính và các giá trị con người trở lại vị trí trung tâm của tiến bộ công nghệ. (Ghi chú của biên tập viên: "Khoảnh khắc Alex" mà Fei-Fei Li nhắc đến ám chỉ đến một mạng nơ-ron tích chập sâu có tên là AlexNet, đạt được kết quả vượt trội hơn nhiều so với các phương pháp truyền thống trong cuộc thi nhận dạng hình ảnh ImageNet năm 2012, với bước đột phá lớn về độ chính xác.)
Người dẫn chương trình: Vậy nên, chúng ta không chỉ cần phát triển công nghệ mà còn phải xem xét tác động của nó và cân nhắc hướng đi tương lai. Đây chính là nơi tất cả chúng ta cùng đóng góp.
Ông (Yann LeCun) có thể tóm tắt lại cho chúng tôi được không? Xin cứ tự nhiên phát biểu.
Yann LeCun: Hồi còn là sinh viên đại học, tôi rất hứng thú với các vấn đề AI trong lĩnh vực trí tuệ tổng quát, và tôi phát hiện ra rằng các nhà nghiên cứu trong những năm 1950 và 1960 tập trung vào việc "huấn luyện" máy móc hơn là "lập trình" chúng. Ý tưởng này thực sự thu hút tôi, có lẽ vì tôi cảm thấy mình không đủ thông minh hoặc đủ siêng năng để chế tạo một cỗ máy thông minh ngay từ đầu. Vậy, cách tiếp cận tốt nhất chẳng phải là để máy móc tự đào tạo và tự tiến hóa hay sao? Chẳng phải điều này cũng giống như cách trí thông minh được hình thành trong các sinh vật sống sao? Đó là tự tổ chức. Vì vậy, tôi thấy khái niệm này cực kỳ hấp dẫn, nhưng vào thời điểm đó, tôi không tìm được người cùng chí hướng. Tôi tốt nghiệp với bằng kỹ sư và đã làm việc trên các thiết kế chi phí thấp đồng thời cũng dự định theo đuổi chương trình sau đại học. Tôi không tìm được ai làm nghiên cứu liên quan, nhưng tôi vẫn giữ liên lạc với một số người quan tâm, chẳng hạn như những người đã phát hiện ra các bài báo của Geoffrey. Khi tôi bắt đầu học sau đại học vào năm 1983, ông ấy đã trở thành học giả mà tôi muốn gặp nhất. Cuối cùng, hai năm sau, chúng tôi gặp lại nhau. Chúng tôi đã ăn trưa cùng nhau vào năm 1985, và dường như chúng tôi đã hợp nhau ngay lập tức, có một cuộc trò chuyện rất hiệu quả. Tôi đã trình bày một bài báo bằng tiếng Pháp tại một hội nghị, nơi anh ấy có bài phát biểu chính, và thật bất ngờ là anh ấy đã đọc và hiểu được phần toán học trong đó—bài báo thảo luận về một phương pháp lan truyền để huấn luyện mạng đa lớp. Bạn thấy đấy, kể từ những năm 1960, một hạn chế đã trở nên rõ ràng: chúng tôi không thể huấn luyện các mô hình đa lớp. Đây trở thành một bài toán mà tôi bị ám ảnh bởi việc giải quyết, và sau đó nó cũng trở thành nỗi ám ảnh của anh ấy. Sau đó, tôi đã viết một bài báo đề xuất một giải pháp, và anh ấy đã hiểu được phần toán học trong đó. Đó là cách chúng tôi gặp nhau và bắt đầu hợp tác.
Người dẫn chương trình: Và đó chính xác là lý do khiến bạn bắt đầu cuộc hành trình này.
Yann LeCun: Chắc chắn rồi. Vậy nên, một khi bạn có khả năng huấn luyện những hệ thống phức tạp như vậy, câu hỏi tự nhiên tiếp theo sẽ là: làm thế nào để xây dựng chúng thực hiện những nhiệm vụ có ý nghĩa như nhận dạng hình ảnh? Trở lại cuối những năm 1980, khi tôi còn là nghiên cứu sinh sau tiến sĩ, Geoffrey và tôi đã có một cuộc tranh luận. Tôi nghĩ rằng con đường khả thi duy nhất là học máy được thiết kế tốt hoạt động trong khuôn khổ mô hình học có giám sát - bạn cho máy xem một hình ảnh và nói với nó câu trả lời đúng. Ông ấy không đồng ý, lập luận rằng tiến bộ thực sự đòi hỏi phải vượt ra ngoài học có giám sát. Có một thời gian, tôi đã không hoàn toàn nắm bắt được ý tưởng này. Mãi đến giữa những năm 2000, khi Yoshua và tôi bắt đầu hợp tác để khơi dậy lại sự quan tâm của giới học thuật đối với học sâu, thì chúng tôi mới thực sự tập trung vào học không giám sát và các lĩnh vực liên quan.
Người dẫn chương trình: Về cơ bản, đây là một quá trình tự củng cố.
Yann LeCun: Đây không phải là học tăng cường. Bản chất của nó là khám phá các mẫu trong dữ liệu có cấu trúc mà không cần huấn luyện máy cho bất kỳ tác vụ cụ thể nào. Mặc dù các mô hình ngôn ngữ tự nhiên được huấn luyện để dự đoán từ tiếp theo, nhưng đây không phải là một mục tiêu nhiệm vụ thực sự. Nó chỉ đơn giản là một cách để hệ thống học cách biểu diễn dữ liệu chất lượng cao, hay nói đúng hơn là nắm bắt các mẫu vốn có trong dữ liệu.
Người dẫn chương trình: Có thứ gì đó trong hệ thống đang điều khiển nó không? Xin lỗi, nhưng nói một cách kỹ thuật hơn, có cơ chế cơ bản nào có thể xác định xem hệ thống có đang chạy đúng và giữ cho nó đi đúng hướng không?
Yann LeCun: Nếu bạn có thể dự đoán chính xác từ tiếp theo thì điều đó tự nó chứng minh được tính chính xác của dự đoán.
Geoffrey Hinton: Cái gọi là phần thưởng trong học tăng cường giống như lời nói "Làm tốt lắm" với hệ thống.
Yann LeCun: Thành thật mà nói, điều này "phải đổ lỗi" cho Geoffrey. Như bạn đã biết, Geoffrey đã xây dựng bộ dữ liệu lớn được gắn nhãn ImageNet, cho phép chúng tôi huấn luyện hệ thống bằng phương pháp học có giám sát. Kết quả thực tế là hiệu suất của mạng vượt xa mong đợi của chúng tôi. Vì vậy, chúng tôi đã tạm gác lại toàn bộ kế hoạch dự án về học tự giám sát, bởi vì các phương pháp học có giám sát đã hoạt động rất tốt. Tất nhiên, chúng tôi cũng đã tìm ra một số mẹo để cải thiện hiệu suất. Nhưng ở một mức độ nào đó, chúng tôi đã dẫn dắt toàn bộ ngành công nghiệp và cộng đồng nghiên cứu tập trung vào học sâu, học có giám sát, v.v. Phải đến vài năm sau, khoảng năm 2016 hoặc 2017, mọi người mới nhận ra rằng điều này không thể đạt được mục tiêu cuối cùng của chúng tôi và bắt đầu chuyển sang học tự giám sát. Đúng vậy, đây thực sự là một ví dụ hoàn hảo về sự chuyển đổi mô hình. Công việc hiện tại của chúng tôi là áp dụng nó vào các loại dữ liệu mới như dữ liệu video và cảm biến. Tuy nhiên, các kiến trúc như mô hình ngôn ngữ tự nhiên thực sự không hiệu quả trong việc xử lý loại dữ liệu này, đây sẽ là thách thức mới mà chúng ta phải đối mặt trong những năm tới.
Có bong bóng AI không?
Người dẫn chương trình: Điều này đưa chúng ta đến tình hình hiện tại. Tôi nghĩ mọi người đều nhận thấy một hiện tượng: những người trước đây hoàn toàn thờ ơ với AI giờ đây lại vô cùng nhiệt tình. Đột nhiên, mọi người đổ xô vào lĩnh vực này. Nó đã vượt qua cả sự đổi mới công nghệ, phát triển thành một cơ hội kinh doanh khổng lồ và thậm chí trở thành một trọng tâm chiến lược trong cuộc cạnh tranh giữa các cường quốc. Mọi người đều đang cố gắng khám phá bản chất thực sự của nó và liên tục suy ngẫm về những hàm ý của nó. Câu hỏi đầu tiên của tôi dành cho Jensen Huang, và tôi hy vọng mọi người ở đây có thể xem xét khoảnh khắc này: đặc biệt là Nvidia, công ty gần như là tin tức hàng ngày và đã trở thành công ty có giá trị nhất thế giới. Điều này cho thấy nhu cầu thị trường thực sự là có.
Bạn có lo ngại rằng chúng ta đang bước vào giai đoạn hành động quá vội vàng do thiếu hiểu biết chung, điều này cuối cùng có thể dẫn đến bong bóng vỡ và một giai đoạn điều chỉnh trước khi mọi thứ trở lại bình thường không? Nếu không, đâu là những khác biệt đáng kể nhất và ít được hiểu rõ nhất trong nhu cầu về AI của mọi người hiện nay so với bong bóng dot-com trước đây?
Jensen Huang: Trong thời kỳ bong bóng dot-com, phần lớn cáp quang được lắp đặt đều bị bỏ không, đồng nghĩa với việc nguồn cung trong ngành vượt xa nhu cầu thực tế. Ngày nay, hầu hết mọi GPU hiện có đều đang hoạt động hết công suất. Do đó, tôi nghĩ điều quan trọng là phải lùi lại một bước và hiểu "AI thực sự là gì". Đối với nhiều người, AI là ChatGPT hay tạo hình ảnh, điều này đúng, nhưng đây chỉ là những ứng dụng cụ thể của nó. Trong vài năm qua, AI đã có những tiến bộ vượt bậc; nó không chỉ có thể ghi nhớ và tóm tắt, mà còn có thể lập luận và tư duy hiệu quả, và thiết lập quan điểm thông qua nghiên cứu. Giờ đây, nó có thể tạo ra câu trả lời, hoàn thành nhiều nhiệm vụ có giá trị hơn và hoạt động tốt hơn nhiều. Hơn nữa, các công ty xây dựng các công cụ hữu ích cho các doanh nghiệp khác, chẳng hạn như các công ty phần mềm lập trình AI mà chúng tôi sử dụng, như Cursor, đang có lợi nhuận cao và chúng tôi sử dụng rộng rãi các sản phẩm của họ. AI cũng đã cho thấy tính hữu ích tuyệt vời trong các lĩnh vực như chăm sóc sức khỏe. Khả năng của AI đã đạt được bước nhảy vọt về chất. Kết quả là, chúng ta đang chứng kiến hai thay đổi theo cấp số nhân đồng thời: thứ nhất, nhu cầu tính toán để tạo ra câu trả lời đã tăng lên đáng kể; và thứ hai, việc sử dụng các mô hình AI này đang tăng theo cấp số nhân. Hai đường cong hàm mũ này tạo ra nhu cầu tính toán khổng lồ. Giờ đây, nếu bạn lùi lại và tự hỏi mình câu hỏi cơ bản: sự khác biệt cốt lõi giữa AI ngày nay và ngành công nghiệp phần mềm trong quá khứ là gì? Phần mềm trước đây được biên dịch sẵn và yêu cầu tương đối ít tính toán. Nhưng để AI hoạt động, nó phải có nhận thức theo ngữ cảnh. Giờ đây, nó có thể tạo ra trí thông minh, nhưng bạn không thể tạo và lưu trữ trí thông minh đó trước - đó được gọi là "nội dung được tạo sẵn". Trí thông minh phải được tạo ra theo thời gian thực. Do đó, nhu cầu tính toán cần thiết để tạo ra các sản phẩm có giá trị thực sự, nhu cầu cao trong ngành của chúng ta là chưa từng có. Chúng ta đang tạo ra giá trị trong một ngành công nghiệp cần "nhà máy". Đây là lý do tại sao tôi thường tự nhắc nhở mình: AI cần nhà máy để sản xuất những "thẻ thông minh" này. Điều này là chưa từng có; bản thân máy tính đã trở thành cốt lõi của nhà máy. Chúng ta cần đầu tư hàng trăm tỷ đô la để xây dựng những nhà máy này nhằm phục vụ các ngành công nghiệp tương lai trị giá hàng nghìn tỷ đô la. Nhìn lại phần mềm trong quá khứ, về cơ bản nó là một công cụ, một phương tiện tự động hóa được con người sử dụng lần đầu tiên. Mặt khác, AI là trí thông minh giúp nâng cao năng lực của con người. Do đó, vấn đề nằm ở lao động, ở công việc, và nó thực sự có tác động thiết thực. Theo tôi, chúng ta đang ở giai đoạn đầu của việc xây dựng trí tuệ nhân tạo. Một thực tế cơ bản là AI vẫn chưa thể tiếp cận được với hầu hết mọi người. Có thể thấy trước rằng trong tương lai gần, hầu như mọi hoạt động hàng ngày của chúng ta, mọi khoảnh khắc trong ngày, đều sẽ được AI đồng hành theo một cách nào đó. Điều này có nghĩa là chúng ta cần phải có một bước nhảy vọt từ mức sử dụng thấp hiện nay lên mức sử dụng gần như liên tục trong tương lai, và quy mô của dự án này là điều hiển nhiên.
Người dẫn chương trình: Giả sử tiến độ phát triển các mô hình ngôn ngữ lớn chậm lại, bạn có nghĩ GPU và cơ sở hạ tầng bạn đã xây dựng vẫn có thể thích ứng với các mô hình công nghệ mới và duy trì giá trị của chúng không? Sau câu trả lời của bạn, tôi cũng rất muốn nghe ý kiến của những người khác trong khán phòng.
Jensen Huang: Mô hình ngôn ngữ lớn là một phần của công nghệ AI. Tuy nhiên, phạm vi của AI bao gồm một thế giới rộng lớn với nhiều hệ thống mô hình khác nhau, và mô hình ngôn ngữ lớn chỉ là một thành phần quan trọng. Chúng ta đã có một số hệ thống mô hình và các công nghệ cần thiết để AI trở nên hiệu quả hơn, hay nói cách khác là "có khả năng" hơn. Bất kể chúng ta gọi nó là gì, vẫn còn rất nhiều công nghệ đang chờ chúng ta khám phá và phát triển trong tương lai.
Người dẫn chương trình: Có ai ở đây có điều gì muốn nói không?
Yoshua Bengio: Tôi không nghĩ chúng ta nên tiếp tục sử dụng thuật ngữ "mô hình ngôn ngữ lớn" vì chức năng của chúng đã vượt xa phạm vi ngôn ngữ. Đúng vậy, chúng bắt đầu với các mô hình ngôn ngữ, và tiền huấn luyện là nền tảng của chúng. Nhưng gần đây, công nghệ đã có bước nhảy vọt về chất, hướng tới "tác nhân thông minh": có khả năng đối thoại nhiều chiều, tương tác với môi trường và con người theo thời gian thực để đạt được mục tiêu, và thậm chí tương tác sâu sắc với cơ sở hạ tầng điện toán cơ bản. Nó hoàn toàn khác so với ba năm trước. Chúng ta không thể dự đoán bối cảnh công nghệ cụ thể của vài năm hoặc vài thập kỷ tới, nhưng các xu hướng thì có thể nắm bắt được. Vì mục đích này, tôi đang làm việc với các chuyên gia quốc tế để theo dõi tiến độ, định hướng, rủi ro tiềm ẩn và các biện pháp đối phó của AI. Hiện tại, các xu hướng trong nhiều bài kiểm tra chuẩn đã được nhận thấy rõ ràng. Các xác nhận công nghệ trước đây đã rất thành công, nhưng điều này không có nghĩa là sẽ không có thách thức trong tương lai. Tôi thừa nhận rằng những kỳ vọng không được đáp ứng có thể mang lại rủi ro tài chính. Nhưng từ góc độ dài hạn, tôi hoàn toàn đồng ý về tầm quan trọng của nó. Tuy nhiên, chúng ta vẫn cần phải cảnh giác.
Người dẫn chương trình: Vậy những người khác trong khán phòng nghĩ gì?
Bill Dally: Các xu hướng hiện tại phần nào giải thích tình hình hiện tại. Thứ nhất, các mô hình đang ngày càng hiệu quả hơn. Hãy lấy sự phát triển của các cơ chế chú ý làm ví dụ: từ chú ý thông thường đến chú ý truy vấn nhóm, rồi đến chú ý đa đầu... Ngày nay, con người có thể đạt được kết quả tương tự hoặc thậm chí tốt hơn với chi phí tính toán thấp hơn nhiều. Điều này, ở một mức độ nào đó, đã thúc đẩy những nhu cầu mới: nhiều ứng dụng trước đây quá đắt đỏ giờ đây đủ khả thi để cho phép AI thâm nhập vào nhiều lĩnh vực hơn. Đồng thời, khả năng của bản thân các mô hình AI cũng liên tục được cải thiện. Có lẽ nó sẽ được cải thiện nhờ việc tối ưu hóa kiến trúc Transformer, hoặc có lẽ các kiến trúc hoàn toàn mới sẽ xuất hiện. Nhưng hướng phát triển công nghệ rất rõ ràng: chúng ta chắc chắn sẽ có những mô hình có khả năng hơn và hiệu quả tương đương. Trên thực tế, chúng có giá trị hơn các giải pháp chức năng cụ thể vì chúng linh hoạt hơn và có thể phát triển tốt hơn cùng với mô hình. Điểm quan trọng nhất là tôi nghĩ rằng việc khám phá các ứng dụng AI của chúng ta chỉ là phần nổi của tảng băng chìm. Hầu như mọi ngóc ngách của cuộc sống con người, từ sự nghiệp đến công việc hàng ngày, đều có thể được cải thiện với sự trợ giúp của AI. Tôi nghĩ chúng ta thậm chí còn chưa đáp ứng được 1% nhu cầu cuối cùng của nó. Khi AI tiếp tục phát triển, các kịch bản ứng dụng sẽ chỉ ngày càng tăng. Do đó, tôi không nghĩ có bất kỳ bong bóng nào ở đây cả. Như Jensen Huang đã nói, chúng ta đang vẽ nên một đường cong tăng trưởng theo cấp số nhân, và đây chỉ là khởi đầu. Con đường này sẽ tiếp tục mở rộng.
Người dẫn chương trình: Ở một mức độ nào đó, Nvidia đã thích nghi với điều này. Bởi vì dù mô hình có thay đổi thế nào, hay AI hay kiến trúc mới nào xuất hiện, những thành phần phần cứng cốt lõi đó vẫn luôn cần thiết. Feifei, anh có ý kiến gì về vấn đề này không?
Fei-Fei Li: Tôi đồng ý rằng xét về mặt thị trường, AI có những quy luật riêng và đôi khi tự điều chỉnh. Tuy nhiên, nếu chúng ta tập trung vào các xu hướng dài hạn, chúng ta phải nhận ra rằng AI vẫn còn là một lĩnh vực rất non trẻ. Nhìn quanh căn phòng này, chúng ta thấy các phương trình vật lý được viết trên tường. Vật lý có lịch sử hơn bốn trăm năm. Ngay cả khi so sánh với vật lý hiện đại, lịch sử của AI cũng chưa đến bảy mươi năm, và chỉ khoảng bảy mươi lăm năm kể từ Alan Turing. Do đó, vẫn còn nhiều lĩnh vực mới đang chờ đợi để xuất hiện. Chúng ta biết Jensen Huang thường nói về các mô hình ngôn ngữ lớn và các tác nhân thông minh, hầu hết đều xoay quanh ngôn ngữ. Nhưng ngay cả khi suy ngẫm về bản thân trí thông minh của con người, khả năng của nó còn vượt xa ngôn ngữ. Tôi luôn tập trung vào trí thông minh không gian, nghiên cứu sự kết hợp giữa nhận thức và hành động. Về mặt này, nhận thức, lý luận, tương tác và sáng tạo được thể hiện bởi con người và động vật vượt xa phạm vi mà ngôn ngữ có thể bao hàm. Ngôn ngữ tiên tiến nhất hiện nay hoặc các mô hình ngôn ngữ lớn vẫn hoạt động kém trong các bài kiểm tra trí thông minh không gian cơ bản. Điều này cho thấy rằng với tư cách là một khoa học và một ngành học, chúng ta vẫn còn những lãnh thổ rộng lớn để chinh phục và khám phá. Điều này cũng có nghĩa là nhiều khả năng ứng dụng đa dạng hơn sẽ được mở ra trong tương lai.
Người dẫn chương trình: Anh (Yann LeCun) làm việc trong một công ty, vì vậy anh có cả góc nhìn nghiên cứu lẫn kinh doanh. Anh có tin rằng tình trạng phát triển AI hiện tại là hợp lý và anh có thể hiểu được những lý do cơ bản không? Hay anh cảm thấy chúng ta đang đứng trước một ngã ba đường đầy bất định và phải tìm một hướng đi mới?
Yann LeCun: Tôi nghĩ có một số lập luận ủng hộ quan điểm cho rằng chúng ta không ở trong bong bóng, nhưng ít nhất một lập luận cho thấy chúng ta đang ở trong đó. Đây thực sự là một vấn đề khác cần khám phá. Theo một nghĩa nào đó, kết quả không được định trước. Bởi vì vẫn còn rất nhiều ứng dụng cần được phát triển dựa trên các mô hình ngôn ngữ lớn. Các mô hình ngôn ngữ lớn là mô hình thống trị hiện nay, và có tiềm năng to lớn để khai thác. Đây chính xác là điều Bill đã đề cập - sử dụng công nghệ hiện có để cải thiện cuộc sống hàng ngày của con người. Công nghệ cần được thúc đẩy, điều này biện minh cho tất cả các khoản đầu tư vào phần mềm và cơ sở hạ tầng. Một khi chúng ta có trợ lý thông minh trong tay mọi người, như Jensen Huang đã nói, lượng sức mạnh tính toán cần thiết để phục vụ một lượng người dùng lớn như vậy sẽ là vô cùng lớn. Do đó, từ góc độ này, những khoản đầu tư này không hề bị lãng phí. Tuy nhiên, theo một nghĩa khác, bong bóng thực sự tồn tại - nó phản ánh niềm tin rằng mô hình mô hình ngôn ngữ lớn hiện tại sẽ được thúc đẩy trực tiếp đến trí thông minh ở cấp độ con người. Cá nhân tôi không tin điều này. Chúng ta cần đạt được một số đột phá cơ bản trước khi có thể chế tạo những cỗ máy thực sự sở hữu loại trí thông minh mà chúng ta quan sát được (không chỉ ở con người mà còn ở động vật). Ví dụ, chúng ta thậm chí còn chưa có robot thông minh như mèo, phải không? Do đó, chúng ta vẫn còn thiếu một điều cốt yếu. Đây chính xác là lý do tại sao sự tiến bộ trong AI không thể chỉ dựa vào cơ sở hạ tầng, dữ liệu, đầu tư và sự phát triển Python hiện có. Trên thực tế, đây là một câu hỏi khoa học về cách chúng ta có thể đạt được những đột phá hướng tới thế hệ AI tiếp theo.
Sử dụng "năm" để đưa ra dự báo AGI
Người dẫn chương trình: Xin mỗi người vui lòng chia sẻ suy nghĩ của mình về việc cần bao lâu để đạt đến giai đoạn mà các bạn tin tưởng vững chắc - tức là tạo ra trí thông minh máy móc ngang ngửa với con người, hoặc thậm chí là những loài động vật cực kỳ thông minh như bạch tuộc? Chúng ta còn cách mục tiêu này bao xa? Xin hãy ước tính theo năm.
Yann LeCun: Đây sẽ không phải là một phong trào tồn tại trong thời gian ngắn. Bởi vì nhiều năng lực khác nhau sẽ dần được phát triển trong các lĩnh vực khác nhau.
Người dẫn chương trình: Bạn dự kiến sẽ mất bao lâu?
Yann LeCun: Có lẽ trong năm đến mười năm tới, chúng ta sẽ đạt được những đột phá công nghệ đáng kể, từ đó tạo ra một mô hình hoàn toàn mới. Tuy nhiên, các ứng dụng thương mại tiếp theo và sự phát triển ở cấp độ công ty có thể mất nhiều thời gian hơn chúng ta mong đợi.
Fei-Fei Li: Một số khả năng của máy móc sẽ vượt trội hơn trí tuệ con người, nhưng một số khía cạnh khác của trí tuệ máy móc sẽ không bao giờ hội tụ hoặc ngang bằng với trí tuệ con người. Điều này là do ý định thiết kế của chúng khác với con người; chúng được tạo ra cho những mục đích khác nhau.
Người dẫn chương trình: Khi nào quá trình máy móc thay thế con người dự kiến sẽ bắt đầu?
Fei-Fei Li: Một số khả năng này đã trở thành hiện thực. Bao nhiêu người trong chúng ta có thể nhận dạng tất cả 22.000 vật thể trên thế giới? AI thì có thể. Bao nhiêu người lớn có thể dịch 100 ngôn ngữ? AI thì có thể. Do đó, tôi tin rằng tư duy của chúng ta nên tinh tế hơn và dựa trên các bằng chứng khoa học - giống như máy bay có thể bay, nhưng cách bay của chúng về cơ bản khác với chim. Trí tuệ nhân tạo chắc chắn sẽ đóng nhiều vai trò quan trọng. Tuy nhiên, trong khuôn khổ xã hội loài người, giá trị của trí tuệ con người vẫn là trung tâm và không thể thay thế.
Người dẫn chương trình: Jensen Huang, anh có điều gì muốn nói không?
Jensen Huang: Chúng ta đã sở hữu đủ trí tuệ tổng quát để biến công nghệ này thành vô số ứng dụng hữu ích cho xã hội trong những năm tới. Từ nay trở đi, trọng tâm của chúng ta là sử dụng công nghệ để giải quyết nhiều thách thức lớn. Tôi tin rằng chúng ta đã có những năng lực cơ bản. Do đó, tôi nghĩ những hạn chế hiện tại là không đáng kể.
Người dẫn chương trình: Đó là lý do tại sao bây giờ chính là thời điểm thích hợp, đúng vậy.
Geoffrey Hinton: Nếu bạn đặt câu hỏi cụ thể hơn một chút, ví dụ như "cần bao lâu để một cỗ máy chiến thắng vĩnh viễn trong một cuộc tranh luận?", tôi nghĩ điều đó chắc chắn sẽ trở thành hiện thực trong vòng hai mươi năm tới. Chúng ta chưa đạt đến mức đó, nhưng tôi có thể tự tin dự đoán rằng nó sẽ đạt được trong vòng hai mươi năm tới. Vì vậy, nếu bạn định nghĩa "AGI" là luôn chiến thắng con người trong một cuộc tranh luận, thì chúng ta có thể sẽ đạt được mục tiêu đó trong vòng chưa đầy hai mươi năm.
Bill Dally: Ý định ban đầu của chúng tôi không phải là tạo ra một AI có thể thay thế hoặc vượt trội hơn con người.
Người dẫn chương trình: Nhưng về cơ bản, đây là một câu hỏi khoa học. Mục đích cốt lõi của nó không phải là thay thế con người. Câu hỏi thực sự là: liệu chúng ta, với tư cách là một xã hội nói chung, có đủ khả năng tạo ra một thứ như vậy không?
Bill Dally: Mục tiêu của chúng tôi là tạo ra AI giúp nâng cao năng lực của con người. Nói cách khác, chúng tôi muốn AI lấp đầy những khoảng trống trong khả năng của con người. Con người không thể nhận dạng 22.000 vật thể, và hầu hết mọi người không thể giải quyết các vấn đề liên quan đến methylamphetamine; những vấn đề này có thể để AI giải quyết. Mục tiêu là giải phóng năng lượng của con người cho các nhiệm vụ lấy con người làm trung tâm hơn: chẳng hạn như sáng tạo, đồng cảm và tương tác giữa các cá nhân. Liệu AI có thể tự mình làm những điều này hay không vẫn chưa chắc chắn. Nhưng chắc chắn nó có thể trở thành một trợ lý đắc lực cho nhân loại.
Yoshua Bengio: Tôi không đồng tình với quan điểm này. Tôi tin rằng không có lý do cơ bản nào khiến chúng ta không thể tạo ra những cỗ máy có khả năng thực hiện hầu hết mọi nhiệm vụ của con người trong tương lai. Tất nhiên, trong các lĩnh vực như nhận thức không gian và robot, chúng ta hiện đang tụt hậu, nhưng về mặt lý thuyết, không có trở ngại nào không thể vượt qua ngăn cản chúng ta đạt được mục tiêu này. Do đó, tôi nghĩ rằng có sự không chắc chắn đáng kể về mốc thời gian cụ thể, và việc lập kế hoạch của chúng ta nên cân nhắc đầy đủ điều này. Tuy nhiên, tôi đã nhận thấy một số dữ liệu rất thú vị: trong sáu năm qua, khả năng lập kế hoạch của các hệ thống AI trên các khung thời gian khác nhau đã tăng trưởng theo cấp số nhân. Nếu xu hướng này tiếp tục, trong khoảng năm năm nữa, AI sẽ có thể thực hiện hầu hết các nhiệm vụ thường được thực hiện bởi nhân viên bình thường. Điều quan trọng cần làm rõ là đây chỉ là một loại nhiệm vụ kỹ thuật; còn rất nhiều khía cạnh quan trọng khác. Ví dụ, một xu hướng có khả năng thay đổi cuộc chơi là nhiều công ty đang nỗ lực phát triển khả năng "nghiên cứu AI do AI dẫn dắt" - tức là cho phép AI thực hiện nghiên cứu kỹ thuật và khoa học máy tính, đồng thời thiết kế thế hệ hệ thống AI tiếp theo, có thể bao gồm những cải tiến về robot và khả năng hiểu biết không gian. Tôi không khẳng định điều này chắc chắn sẽ xảy ra, nhưng khả năng lập trình và hiểu thuật toán của AI đang được cải thiện nhanh chóng, có khả năng mở ra nhiều khả năng mà chúng ta chưa thể lường trước. Do đó, chúng ta nên duy trì lập trường thực sự khách quan và tránh đưa ra những khẳng định quá mức, bởi vì tương lai còn rộng mở và đa dạng.
Trong cuộc thảo luận, sáu cá nhân đã chia sẻ quan điểm của họ về việc liệu có phải đang có bong bóng trong sự phát triển hiện tại của AI hay không và tất cả đều đồng ý rằng AI sẽ dần dần tiếp cận trí thông minh của con người.
Jensen Huang cho rằng phần mềm trước đây về cơ bản là một công cụ, một hình thức tự động hóa ban đầu được con người sử dụng. Mặt khác, AI là trí tuệ nhân tạo giúp nâng cao năng lực của con người; do đó, nó liên quan đến lao động và công việc, và nó thực sự đang đóng một vai trò thiết thực. Theo quan điểm của Huang, nhân loại đang ở giai đoạn đầu của việc xây dựng trí tuệ. Ông chỉ ra một sự thật cơ bản: AI vẫn chưa phổ biến trong hầu hết mọi người. Ông tin rằng trong tương lai gần, hầu như mọi hoạt động hàng ngày của chúng ta, mọi khoảnh khắc trong ngày, sẽ được AI đồng hành theo một cách nào đó. Điều này có nghĩa là nhân loại cần có một bước nhảy vọt từ mức sử dụng thấp hiện nay sang mức sử dụng gần như không bị gián đoạn trong tương lai, và kỹ thuật mở rộng đằng sau điều này là hiển nhiên.
Lý Phi Phi chỉ ra rằng AI vẫn còn là một lĩnh vực rất non trẻ. Ngay cả khi so sánh với vật lý hiện đại, AI mới chỉ có lịch sử chưa đầy bảy mươi năm, và chỉ khoảng bảy mươi lăm năm kể từ Alan Turing. Do đó, vẫn còn rất nhiều lĩnh vực mới đang chờ đợi để xuất hiện. Bà tin rằng một số khả năng của máy móc sẽ vượt trội hơn trí thông minh của con người, trong khi những khía cạnh khác của trí thông minh máy móc sẽ không bao giờ hội tụ hoặc tương đương với trí thông minh của con người. Điều này là do ý định thiết kế của chúng khác với con người; chúng được tạo ra cho những mục đích khác nhau.
Hinton tin rằng nếu được hỏi "Mất bao lâu để một cỗ máy có thể thắng bạn một cách vĩnh viễn trong một cuộc tranh luận?", ông sẽ trả lời rằng điều đó sẽ trở thành hiện thực trong vòng hai mươi năm. Con người vẫn chưa đạt đến trình độ đó, nhưng Hinton tin rằng điều đó sẽ xảy ra trong vòng hai mươi năm tới. Tuy nhiên, ông cũng chỉ ra rằng nếu chúng ta xem xét AGI...Nếu chúng ta định nghĩa nó là khả năng luôn đánh bại con người trong tranh luận, thì con người có thể đạt được mục tiêu này trong vòng chưa đầy hai mươi năm.
Joshua lập luận rằng nhân loại nên ngừng sử dụng thuật ngữ "mô hình ngôn ngữ lớn" vì chức năng của chúng vượt xa ngôn ngữ. Ông chỉ ra rằng mặc dù con người không thể dự đoán được bối cảnh công nghệ cụ thể của vài năm hoặc vài thập kỷ tới, nhưng vẫn có thể nắm bắt được các xu hướng. Do đó, Joshua tin rằng nhân loại nên duy trì lập trường thực sự khách quan, tránh những khẳng định quá mức, vì tương lai còn rộng mở và đa dạng. Ông cũng cho biết hiện đang liên hệ với các chuyên gia quốc tế để cùng theo dõi tiến trình, định hướng, rủi ro tiềm ẩn và các biện pháp đối phó của AI.
Yann LeCun tin rằng bong bóng AI thực sự tồn tại - nó dựa trên niềm tin rằng mô hình mô hình ngôn ngữ lớn hiện tại sẽ được nâng cấp trực tiếp lên mức trí tuệ con người. Trước khi con người có thể tạo ra những cỗ máy có trí thông minh như con người (không chỉ con người mà cả động vật), cần có một số đột phá cơ bản.
Với tư cách là nhà khoa học trưởng của Nvidia, Bill Dally đã chỉ ra rằng AI nên lấp đầy những khoảng trống trong khả năng của con người. Con người không thể nhận dạng 22.000 vật thể, và hầu hết mọi người không thể giải quyết các vấn đề liên quan đến methylamphetamine; những vấn đề này có thể được giao cho AI. Điều này sẽ giải phóng năng lượng của con người cho những công việc lấy con người làm trung tâm hơn: chẳng hạn như sáng tạo, đồng cảm và tương tác giữa các cá nhân.
Sau đây là bản ghi lại cuộc trò chuyện, được mình biên tập mà không làm thay đổi ý nghĩa ban đầu:
Sáu người nói về những khoảnh khắc quan trọng trong cuộc đời họ
Người dẫn chương trình: Xin chào mọi người, dù là buổi chiều hay buổi sáng. Tôi rất vui khi được mời giới thiệu những cá nhân đáng chú ý đang tụ họp quanh chiếc bàn này, những người mà tôi tin là sáu trong số những người xuất sắc và có ảnh hưởng nhất trên thế giới hiện nay. Và tôi tin rằng điều này không hề phóng đại. Họ là những người nhận Giải thưởng Nữ hoàng Elizabeth năm 2025 về Kỹ thuật. Giải thưởng này ghi nhận tác động độc đáo của những người đoạt giải này đối với công nghệ AI ngày nay. Tôi muốn nghe từ mỗi người trong số các bạn: Trong sự nghiệp của mình, đã bao giờ có khoảnh khắc bất ngờ nào truyền cảm hứng khiến bạn cảm thấy như nó đã thay đổi hướng đi công việc của mình chưa? Khoảnh khắc thức tỉnh thực sự mang tính cá nhân nào đã gây ấn tượng với bạn? Và nó đã ảnh hưởng đến sự phát triển của công nghệ này như thế nào? Tôi có thể bắt đầu với bạn không, Yoshua?
Yoshua Bengio: Hai khoảnh khắc quan trọng vẫn còn sống động trong ký ức của tôi. Khoảnh khắc đầu tiên là trong thời gian học sau đại học, khi tôi đang vật lộn để tìm một chủ đề nghiên cứu hấp dẫn. Khi tôi đọc các bài báo đầu tiên của Geoffrey, đó là một sự khám phá. Tôi vô cùng phấn khích, cảm thấy rằng chúng có thể chứa đựng những nguyên lý đẹp đẽ và cơ bản như các định luật vật lý, hướng dẫn chúng ta hiểu bản chất của trí thông minh và cuối cùng là chế tạo ra những cỗ máy thông minh. Khoảnh khắc thứ hai là khoảng hai năm rưỡi trước khi ChatGPT xuất hiện. Nó đập vào tôi như một tấn gạch, buộc tôi phải suy nghĩ: Chúng ta đang làm gì? Điều gì sẽ xảy ra nếu chúng ta phát triển những cỗ máy hiểu ngôn ngữ, có mục tiêu riêng nhưng không thể kiểm soát chúng? Điều gì sẽ xảy ra nếu chúng thông minh hơn chúng ta? Điều gì sẽ xảy ra nếu ai đó lạm dụng sức mạnh này? Chính cảm giác khủng hoảng dữ dội này đã thúc đẩy tôi thay đổi hoàn toàn quỹ đạo nghiên cứu và con đường sự nghiệp của mình, làm mọi thứ có thể để giải quyết vấn đề này.
Bill Dally: Trải nghiệm của tôi cũng khá giống với Joshua. Đó là vào cuối những năm 1990, khi tôi đang nghiên cứu cách vượt qua cái gọi là vấn đề "bức tường bộ nhớ" tại Đại học Stanford - năng lượng và thời gian cần thiết để truy xuất dữ liệu từ bộ nhớ vượt xa khả năng tính toán. Tôi nảy ra một ý tưởng: tổ chức tính toán thành các mô-đun lõi được kết nối bằng các luồng dữ liệu. Điều này sẽ giảm đáng kể việc truy cập bộ nhớ trong khi thực hiện một lượng lớn các phép tính số học. Ý tưởng này thực sự đã đặt nền móng cho cái mà sau này được gọi là "xử lý luồng" và cuối cùng là điện toán GPU. Vì vậy, khi chúng tôi bắt đầu xây dựng nó, chúng tôi nhận ra nó không chỉ có thể được áp dụng cho xử lý đồ họa mà còn cho điện toán khoa học nói chung. Khoảnh khắc quan trọng thứ hai của tôi đến trong bữa sáng tại Stanford với đồng nghiệp Andrew Ang. Anh ấy đang làm việc tại Google và sử dụng một kỹ thuật gọi là "mạng nơ-ron" để tìm kiếm ảnh mèo trên internet - sử dụng 16.000 CPU. Anh ấy đã thuyết phục tôi rằng đó là một kỹ thuật tuyệt vời. Vì vậy, tôi đã hợp tác với những người khác để tái tạo toàn bộ thí nghiệm bằng 48 GPU Nvidia
Người dẫn chương trình: Chính xác là khi nào? Và anh đang nhắc đến sự kiện nào?
Bill Dally: Bữa sáng đó diễn ra vào năm 2010. Nếu tôi nhớ không nhầm thì chúng tôi đã lặp lại thí nghiệm vào năm sau, năm 2011.
Người dẫn chương trình: Geoffrey, đến lượt anh kể cho chúng tôi nghe rồi.
Geoffrey Hinton: Một khoảnh khắc vô cùng quan trọng đối với tôi xảy ra vào khoảng năm 1984. Tôi đang thử nghiệm backpropagation, cố gắng dạy một mô hình dự đoán từ tiếp theo trong một chuỗi từ. Về cơ bản, đó là một mô hình ngôn ngữ nhỏ. Các thí nghiệm cho thấy mô hình này có thể tự động học các đặc điểm thú vị về nghĩa của từ. Nói cách khác, chỉ cần cho một chuỗi ký hiệu, nó có thể học, dựa trên một số quy tắc nội bộ, cách chuyển đổi các từ thành một tập hợp các đặc điểm. Các đặc điểm này không chỉ nắm bắt được ngữ nghĩa của các từ mà còn dự đoán biểu diễn đặc điểm của từ tiếp theo thông qua các tương tác giữa chúng. Trên thực tế, tôi tin rằng mô hình ngôn ngữ nhỏ này, được xây dựng vào cuối năm 1984, là nguyên mẫu của các mô hình ngôn ngữ lớn ngày nay. Các nguyên tắc cốt lõi vẫn giống nhau. Mặc dù có quy mô nhỏ và chỉ được đào tạo 100 lần, nhưng nó đã tiết lộ mô hình cơ bản.
Người dẫn chương trình: Tuy nhiên, chúng ta phải mất tới bốn mươi năm mới có thể đạt được bước đột phá như ngày hôm nay.
Geoffrey Hinton: Đúng vậy, chúng tôi mất bốn mươi năm mới đạt được thành tựu này. Lý do rất đơn giản: hồi đó, chúng tôi thiếu năng lực tính toán và dữ liệu, và chúng tôi thậm chí còn không nhận thức được vấn đề. Chúng tôi không thể hiểu nổi tại sao ý tưởng hay ho đó lại không thể thực hiện được.
Người dẫn chương trình: Suy ngẫm này tự nhiên làm tôi nhớ đến Jensen Huang . Như đã đề cập trước đó, chúng ta đã bị hạn chế bởi sự thiếu hụt năng lực tính toán trong bốn mươi năm. Và giờ đây, chính anh đang giải quyết vấn đề này. Anh có thể chia sẻ với chúng tôi một số khoảnh khắc quan trọng trong hành trình đã mang lại cho anh sự giác ngộ không?
Jensen Huang: Trong sự nghiệp của mình, tôi thuộc thế hệ kỹ sư đầu tiên có khả năng sử dụng các công cụ thiết kế và trừu tượng hóa cấp cao để thiết kế chip. Nền tảng này khiến tôi rất nhạy bén với các xu hướng mới trong phát triển phần mềm.
Khoảng năm 2010, tôi gần như đồng thời bắt gặp nghiên cứu từ ba phòng thí nghiệm khác nhau tại Đại học Toronto ở Canada, Đại học New York ở Hoa Kỳ và Đại học Stanford ở Hoa Kỳ. Tất cả họ đều chỉ cho tôi một kỹ thuật mà sau này được chứng minh là một hình thức ban đầu của học sâu—sử dụng các khuôn khổ và thiết kế có cấu trúc để tạo ra phần mềm, và phần mềm này tỏ ra cực kỳ hiệu quả. Điều này dẫn đến khám phá thứ hai của tôi: bằng cách tái sử dụng các khuôn khổ, trừu tượng hóa cấp cao hơn và các mẫu có cấu trúc như mạng học sâu, chúng ta có thể phát triển phần mềm mạnh mẽ. Tôi nhận ra rằng thiết kế chip rất giống với việc xây dựng các mẫu này. Vào thời điểm đó, tôi nghĩ rằng có lẽ chúng ta có thể tạo ra phần mềm và khả năng liên tục phát triển và tiến hóa, giống như sự mở rộng của chip trong vài thập kỷ qua.
Người dẫn chương trình: Theo ông, khi nào sẽ là bước ngoặt then chốt cho sự phát triển quy mô lớn của các mô hình ngôn ngữ sử dụng chip? Xét cho cùng, năm 2010, năm mà ông đã nhắc đến, đã là mười lăm năm trước rồi.
Jensen Huang: Ưu điểm cốt lõi của kiến trúc NVIDIA nằm ở chỗ: khi một thuật toán có thể chạy hiệu quả song song trên một GPU duy nhất, nó có thể mở rộng gần như liền mạch sang nhiều GPU, nhiều hệ thống và thậm chí nhiều trung tâm dữ liệu. Logic cơ bản là như nhau. Khi chúng tôi nhận ra rằng chúng tôi có thể đạt được khả năng mở rộng này một cách hiệu quả, câu hỏi chính trở thành: chúng tôi có thể đẩy khả năng này đi xa đến đâu? Chúng tôi có bao nhiêu dữ liệu? Mạng có thể lớn đến mức nào? Mô hình có thể nắm bắt được bao nhiêu chiều? Cuối cùng, nó có thể giải quyết những vấn đề phức tạp nào? Chính ở giai đoạn đó, tôi đã khám phá ra giá trị cốt lõi của học sâu đã được chứng minh bằng hiệu quả của các mô hình, điều này chắc chắn là một điểm nhấn lớn. Và hầu hết công việc tiếp theo về cơ bản là mở rộng và phát triển kỹ thuật.
Người dẫn chương trình: Feifei, hãy kể cho chúng tôi nghe về những khoảnh khắc quan trọng của bạn.
Fei-Fei Li: Tôi cũng có hai khoảnh khắc quan trọng muốn chia sẻ. Khoảng năm 2006 hoặc 2007, tôi chuyển từ nghiên cứu sinh tiến sĩ sang trợ lý giáo sư trẻ. Là một trong những nghiên cứu sinh tiến sĩ đầu tiên tập trung vào học máy, tôi đã đọc các bài báo của các học giả như Yoshua và Geoffrey và trở nên vô cùng hứng thú với việc giải quyết vấn đề nhận dạng hình ảnh - khả năng của máy móc trong việc hiểu ý nghĩa của các vật thể trong hình ảnh hàng ngày. Chúng tôi liên tục vật lộn với vấn đề khái quát hóa của mã máy học: liệu một mô hình có thể nhận dạng thành công các mẫu hoàn toàn mới, chưa từng thấy trước đây sau khi học từ một số lượng mẫu hạn chế hay không? Tôi đã thử nhiều thuật toán khác nhau, từ mạng cơ bản và máy vectơ hỗ trợ đến mạng nơ-ron. Cuối cùng, tôi và các sinh viên của mình nhận ra rằng yếu tố then chốt còn thiếu chính là dữ liệu. Chúng tôi quan sát thấy rằng các sinh vật thông minh như con người phải tiếp xúc với một lượng dữ liệu khổng lồ trong giai đoạn phát triển ban đầu, trong khi máy móc của chúng tôi lại đang trong tình trạng khan hiếm dữ liệu. Vì vậy, chúng tôi quyết định làm một điều có vẻ điên rồ vào thời điểm đó: dành ba năm để tạo ra một bộ dữ liệu quy mô internet. Bộ dữ liệu này chứa 15 triệu hình ảnh được người dùng internet trên toàn thế giới dán nhãn thủ công, bao gồm 22.000 danh mục. Vì vậy, đối với tôi, khoảnh khắc giác ngộ đó chính là nhận ra rằng dữ liệu lớn đang thúc đẩy tương lai của học máy.
Người dẫn chương trình: Và hiện tại, nó đã trở thành nền tảng của mọi mô hình thuật toán.
Fei-Fei Li: Đúng vậy, điều này giờ đã trở thành một phần của quy luật mở rộng AI. Sự giác ngộ thứ hai của tôi đến vào năm 2018. Khi đó, tôi là Nhà khoa học AI Trưởng đầu tiên của Google Cloud, và công việc của chúng tôi bao gồm tất cả các ngành dọc, từ chăm sóc sức khỏe và dịch vụ tài chính đến giải trí, sản xuất, thậm chí cả nông nghiệp và năng lượng. Vài năm sau hình ảnh được gọi là "Khoảnh khắc Alex" và sự xuất hiện của AlphaGo, tôi mới nhận ra vấn đề then chốt. Trong thời gian làm Nhà khoa học Trưởng tại Google, tôi nhận ra rằng tác động của công nghệ này sẽ đạt đến "cấp độ văn minh", chạm đến tất cả mọi người và mọi ngành nghề. Đối mặt với quá trình lịch sử của nhân loại đang tiến tới kỷ nguyên AI, chúng ta phải cân nhắc: Những nguyên tắc chỉ đạo nào có thể đảm bảo rằng khi chúng ta đổi mới mạnh mẽ, công nghệ mạnh mẽ này cuối cùng sẽ mang lại lợi ích cho tất cả mọi người? Ý tưởng này đã thôi thúc tôi trở lại Stanford để giảng dạy, và sau đó chúng tôi đã thành lập Viện AI Lấy Con Người Làm Trung Tâm (HAI) của Stanford, với mục tiêu cốt lõi là xây dựng một khuôn khổ đặt nhân tính và các giá trị con người trở lại vị trí trung tâm của tiến bộ công nghệ. (Ghi chú của biên tập viên: "Khoảnh khắc Alex" mà Fei-Fei Li nhắc đến ám chỉ đến một mạng nơ-ron tích chập sâu có tên là AlexNet, đạt được kết quả vượt trội hơn nhiều so với các phương pháp truyền thống trong cuộc thi nhận dạng hình ảnh ImageNet năm 2012, với bước đột phá lớn về độ chính xác.)
Người dẫn chương trình: Vậy nên, chúng ta không chỉ cần phát triển công nghệ mà còn phải xem xét tác động của nó và cân nhắc hướng đi tương lai. Đây chính là nơi tất cả chúng ta cùng đóng góp.
Ông (Yann LeCun) có thể tóm tắt lại cho chúng tôi được không? Xin cứ tự nhiên phát biểu.
Yann LeCun: Hồi còn là sinh viên đại học, tôi rất hứng thú với các vấn đề AI trong lĩnh vực trí tuệ tổng quát, và tôi phát hiện ra rằng các nhà nghiên cứu trong những năm 1950 và 1960 tập trung vào việc "huấn luyện" máy móc hơn là "lập trình" chúng. Ý tưởng này thực sự thu hút tôi, có lẽ vì tôi cảm thấy mình không đủ thông minh hoặc đủ siêng năng để chế tạo một cỗ máy thông minh ngay từ đầu. Vậy, cách tiếp cận tốt nhất chẳng phải là để máy móc tự đào tạo và tự tiến hóa hay sao? Chẳng phải điều này cũng giống như cách trí thông minh được hình thành trong các sinh vật sống sao? Đó là tự tổ chức. Vì vậy, tôi thấy khái niệm này cực kỳ hấp dẫn, nhưng vào thời điểm đó, tôi không tìm được người cùng chí hướng. Tôi tốt nghiệp với bằng kỹ sư và đã làm việc trên các thiết kế chi phí thấp đồng thời cũng dự định theo đuổi chương trình sau đại học. Tôi không tìm được ai làm nghiên cứu liên quan, nhưng tôi vẫn giữ liên lạc với một số người quan tâm, chẳng hạn như những người đã phát hiện ra các bài báo của Geoffrey. Khi tôi bắt đầu học sau đại học vào năm 1983, ông ấy đã trở thành học giả mà tôi muốn gặp nhất. Cuối cùng, hai năm sau, chúng tôi gặp lại nhau. Chúng tôi đã ăn trưa cùng nhau vào năm 1985, và dường như chúng tôi đã hợp nhau ngay lập tức, có một cuộc trò chuyện rất hiệu quả. Tôi đã trình bày một bài báo bằng tiếng Pháp tại một hội nghị, nơi anh ấy có bài phát biểu chính, và thật bất ngờ là anh ấy đã đọc và hiểu được phần toán học trong đó—bài báo thảo luận về một phương pháp lan truyền để huấn luyện mạng đa lớp. Bạn thấy đấy, kể từ những năm 1960, một hạn chế đã trở nên rõ ràng: chúng tôi không thể huấn luyện các mô hình đa lớp. Đây trở thành một bài toán mà tôi bị ám ảnh bởi việc giải quyết, và sau đó nó cũng trở thành nỗi ám ảnh của anh ấy. Sau đó, tôi đã viết một bài báo đề xuất một giải pháp, và anh ấy đã hiểu được phần toán học trong đó. Đó là cách chúng tôi gặp nhau và bắt đầu hợp tác.
Người dẫn chương trình: Và đó chính xác là lý do khiến bạn bắt đầu cuộc hành trình này.
Yann LeCun: Chắc chắn rồi. Vậy nên, một khi bạn có khả năng huấn luyện những hệ thống phức tạp như vậy, câu hỏi tự nhiên tiếp theo sẽ là: làm thế nào để xây dựng chúng thực hiện những nhiệm vụ có ý nghĩa như nhận dạng hình ảnh? Trở lại cuối những năm 1980, khi tôi còn là nghiên cứu sinh sau tiến sĩ, Geoffrey và tôi đã có một cuộc tranh luận. Tôi nghĩ rằng con đường khả thi duy nhất là học máy được thiết kế tốt hoạt động trong khuôn khổ mô hình học có giám sát - bạn cho máy xem một hình ảnh và nói với nó câu trả lời đúng. Ông ấy không đồng ý, lập luận rằng tiến bộ thực sự đòi hỏi phải vượt ra ngoài học có giám sát. Có một thời gian, tôi đã không hoàn toàn nắm bắt được ý tưởng này. Mãi đến giữa những năm 2000, khi Yoshua và tôi bắt đầu hợp tác để khơi dậy lại sự quan tâm của giới học thuật đối với học sâu, thì chúng tôi mới thực sự tập trung vào học không giám sát và các lĩnh vực liên quan.
Người dẫn chương trình: Về cơ bản, đây là một quá trình tự củng cố.
Yann LeCun: Đây không phải là học tăng cường. Bản chất của nó là khám phá các mẫu trong dữ liệu có cấu trúc mà không cần huấn luyện máy cho bất kỳ tác vụ cụ thể nào. Mặc dù các mô hình ngôn ngữ tự nhiên được huấn luyện để dự đoán từ tiếp theo, nhưng đây không phải là một mục tiêu nhiệm vụ thực sự. Nó chỉ đơn giản là một cách để hệ thống học cách biểu diễn dữ liệu chất lượng cao, hay nói đúng hơn là nắm bắt các mẫu vốn có trong dữ liệu.
Người dẫn chương trình: Có thứ gì đó trong hệ thống đang điều khiển nó không? Xin lỗi, nhưng nói một cách kỹ thuật hơn, có cơ chế cơ bản nào có thể xác định xem hệ thống có đang chạy đúng và giữ cho nó đi đúng hướng không?
Yann LeCun: Nếu bạn có thể dự đoán chính xác từ tiếp theo thì điều đó tự nó chứng minh được tính chính xác của dự đoán.
Geoffrey Hinton: Cái gọi là phần thưởng trong học tăng cường giống như lời nói "Làm tốt lắm" với hệ thống.
Yann LeCun: Thành thật mà nói, điều này "phải đổ lỗi" cho Geoffrey. Như bạn đã biết, Geoffrey đã xây dựng bộ dữ liệu lớn được gắn nhãn ImageNet, cho phép chúng tôi huấn luyện hệ thống bằng phương pháp học có giám sát. Kết quả thực tế là hiệu suất của mạng vượt xa mong đợi của chúng tôi. Vì vậy, chúng tôi đã tạm gác lại toàn bộ kế hoạch dự án về học tự giám sát, bởi vì các phương pháp học có giám sát đã hoạt động rất tốt. Tất nhiên, chúng tôi cũng đã tìm ra một số mẹo để cải thiện hiệu suất. Nhưng ở một mức độ nào đó, chúng tôi đã dẫn dắt toàn bộ ngành công nghiệp và cộng đồng nghiên cứu tập trung vào học sâu, học có giám sát, v.v. Phải đến vài năm sau, khoảng năm 2016 hoặc 2017, mọi người mới nhận ra rằng điều này không thể đạt được mục tiêu cuối cùng của chúng tôi và bắt đầu chuyển sang học tự giám sát. Đúng vậy, đây thực sự là một ví dụ hoàn hảo về sự chuyển đổi mô hình. Công việc hiện tại của chúng tôi là áp dụng nó vào các loại dữ liệu mới như dữ liệu video và cảm biến. Tuy nhiên, các kiến trúc như mô hình ngôn ngữ tự nhiên thực sự không hiệu quả trong việc xử lý loại dữ liệu này, đây sẽ là thách thức mới mà chúng ta phải đối mặt trong những năm tới.
Có bong bóng AI không?
Người dẫn chương trình: Điều này đưa chúng ta đến tình hình hiện tại. Tôi nghĩ mọi người đều nhận thấy một hiện tượng: những người trước đây hoàn toàn thờ ơ với AI giờ đây lại vô cùng nhiệt tình. Đột nhiên, mọi người đổ xô vào lĩnh vực này. Nó đã vượt qua cả sự đổi mới công nghệ, phát triển thành một cơ hội kinh doanh khổng lồ và thậm chí trở thành một trọng tâm chiến lược trong cuộc cạnh tranh giữa các cường quốc. Mọi người đều đang cố gắng khám phá bản chất thực sự của nó và liên tục suy ngẫm về những hàm ý của nó. Câu hỏi đầu tiên của tôi dành cho Jensen Huang, và tôi hy vọng mọi người ở đây có thể xem xét khoảnh khắc này: đặc biệt là Nvidia, công ty gần như là tin tức hàng ngày và đã trở thành công ty có giá trị nhất thế giới. Điều này cho thấy nhu cầu thị trường thực sự là có.
Bạn có lo ngại rằng chúng ta đang bước vào giai đoạn hành động quá vội vàng do thiếu hiểu biết chung, điều này cuối cùng có thể dẫn đến bong bóng vỡ và một giai đoạn điều chỉnh trước khi mọi thứ trở lại bình thường không? Nếu không, đâu là những khác biệt đáng kể nhất và ít được hiểu rõ nhất trong nhu cầu về AI của mọi người hiện nay so với bong bóng dot-com trước đây?
Jensen Huang: Trong thời kỳ bong bóng dot-com, phần lớn cáp quang được lắp đặt đều bị bỏ không, đồng nghĩa với việc nguồn cung trong ngành vượt xa nhu cầu thực tế. Ngày nay, hầu hết mọi GPU hiện có đều đang hoạt động hết công suất. Do đó, tôi nghĩ điều quan trọng là phải lùi lại một bước và hiểu "AI thực sự là gì". Đối với nhiều người, AI là ChatGPT hay tạo hình ảnh, điều này đúng, nhưng đây chỉ là những ứng dụng cụ thể của nó. Trong vài năm qua, AI đã có những tiến bộ vượt bậc; nó không chỉ có thể ghi nhớ và tóm tắt, mà còn có thể lập luận và tư duy hiệu quả, và thiết lập quan điểm thông qua nghiên cứu. Giờ đây, nó có thể tạo ra câu trả lời, hoàn thành nhiều nhiệm vụ có giá trị hơn và hoạt động tốt hơn nhiều. Hơn nữa, các công ty xây dựng các công cụ hữu ích cho các doanh nghiệp khác, chẳng hạn như các công ty phần mềm lập trình AI mà chúng tôi sử dụng, như Cursor, đang có lợi nhuận cao và chúng tôi sử dụng rộng rãi các sản phẩm của họ. AI cũng đã cho thấy tính hữu ích tuyệt vời trong các lĩnh vực như chăm sóc sức khỏe. Khả năng của AI đã đạt được bước nhảy vọt về chất. Kết quả là, chúng ta đang chứng kiến hai thay đổi theo cấp số nhân đồng thời: thứ nhất, nhu cầu tính toán để tạo ra câu trả lời đã tăng lên đáng kể; và thứ hai, việc sử dụng các mô hình AI này đang tăng theo cấp số nhân. Hai đường cong hàm mũ này tạo ra nhu cầu tính toán khổng lồ. Giờ đây, nếu bạn lùi lại và tự hỏi mình câu hỏi cơ bản: sự khác biệt cốt lõi giữa AI ngày nay và ngành công nghiệp phần mềm trong quá khứ là gì? Phần mềm trước đây được biên dịch sẵn và yêu cầu tương đối ít tính toán. Nhưng để AI hoạt động, nó phải có nhận thức theo ngữ cảnh. Giờ đây, nó có thể tạo ra trí thông minh, nhưng bạn không thể tạo và lưu trữ trí thông minh đó trước - đó được gọi là "nội dung được tạo sẵn". Trí thông minh phải được tạo ra theo thời gian thực. Do đó, nhu cầu tính toán cần thiết để tạo ra các sản phẩm có giá trị thực sự, nhu cầu cao trong ngành của chúng ta là chưa từng có. Chúng ta đang tạo ra giá trị trong một ngành công nghiệp cần "nhà máy". Đây là lý do tại sao tôi thường tự nhắc nhở mình: AI cần nhà máy để sản xuất những "thẻ thông minh" này. Điều này là chưa từng có; bản thân máy tính đã trở thành cốt lõi của nhà máy. Chúng ta cần đầu tư hàng trăm tỷ đô la để xây dựng những nhà máy này nhằm phục vụ các ngành công nghiệp tương lai trị giá hàng nghìn tỷ đô la. Nhìn lại phần mềm trong quá khứ, về cơ bản nó là một công cụ, một phương tiện tự động hóa được con người sử dụng lần đầu tiên. Mặt khác, AI là trí thông minh giúp nâng cao năng lực của con người. Do đó, vấn đề nằm ở lao động, ở công việc, và nó thực sự có tác động thiết thực. Theo tôi, chúng ta đang ở giai đoạn đầu của việc xây dựng trí tuệ nhân tạo. Một thực tế cơ bản là AI vẫn chưa thể tiếp cận được với hầu hết mọi người. Có thể thấy trước rằng trong tương lai gần, hầu như mọi hoạt động hàng ngày của chúng ta, mọi khoảnh khắc trong ngày, đều sẽ được AI đồng hành theo một cách nào đó. Điều này có nghĩa là chúng ta cần phải có một bước nhảy vọt từ mức sử dụng thấp hiện nay lên mức sử dụng gần như liên tục trong tương lai, và quy mô của dự án này là điều hiển nhiên.
Người dẫn chương trình: Giả sử tiến độ phát triển các mô hình ngôn ngữ lớn chậm lại, bạn có nghĩ GPU và cơ sở hạ tầng bạn đã xây dựng vẫn có thể thích ứng với các mô hình công nghệ mới và duy trì giá trị của chúng không? Sau câu trả lời của bạn, tôi cũng rất muốn nghe ý kiến của những người khác trong khán phòng.
Jensen Huang: Mô hình ngôn ngữ lớn là một phần của công nghệ AI. Tuy nhiên, phạm vi của AI bao gồm một thế giới rộng lớn với nhiều hệ thống mô hình khác nhau, và mô hình ngôn ngữ lớn chỉ là một thành phần quan trọng. Chúng ta đã có một số hệ thống mô hình và các công nghệ cần thiết để AI trở nên hiệu quả hơn, hay nói cách khác là "có khả năng" hơn. Bất kể chúng ta gọi nó là gì, vẫn còn rất nhiều công nghệ đang chờ chúng ta khám phá và phát triển trong tương lai.
Người dẫn chương trình: Có ai ở đây có điều gì muốn nói không?
Yoshua Bengio: Tôi không nghĩ chúng ta nên tiếp tục sử dụng thuật ngữ "mô hình ngôn ngữ lớn" vì chức năng của chúng đã vượt xa phạm vi ngôn ngữ. Đúng vậy, chúng bắt đầu với các mô hình ngôn ngữ, và tiền huấn luyện là nền tảng của chúng. Nhưng gần đây, công nghệ đã có bước nhảy vọt về chất, hướng tới "tác nhân thông minh": có khả năng đối thoại nhiều chiều, tương tác với môi trường và con người theo thời gian thực để đạt được mục tiêu, và thậm chí tương tác sâu sắc với cơ sở hạ tầng điện toán cơ bản. Nó hoàn toàn khác so với ba năm trước. Chúng ta không thể dự đoán bối cảnh công nghệ cụ thể của vài năm hoặc vài thập kỷ tới, nhưng các xu hướng thì có thể nắm bắt được. Vì mục đích này, tôi đang làm việc với các chuyên gia quốc tế để theo dõi tiến độ, định hướng, rủi ro tiềm ẩn và các biện pháp đối phó của AI. Hiện tại, các xu hướng trong nhiều bài kiểm tra chuẩn đã được nhận thấy rõ ràng. Các xác nhận công nghệ trước đây đã rất thành công, nhưng điều này không có nghĩa là sẽ không có thách thức trong tương lai. Tôi thừa nhận rằng những kỳ vọng không được đáp ứng có thể mang lại rủi ro tài chính. Nhưng từ góc độ dài hạn, tôi hoàn toàn đồng ý về tầm quan trọng của nó. Tuy nhiên, chúng ta vẫn cần phải cảnh giác.
Người dẫn chương trình: Vậy những người khác trong khán phòng nghĩ gì?
Bill Dally: Các xu hướng hiện tại phần nào giải thích tình hình hiện tại. Thứ nhất, các mô hình đang ngày càng hiệu quả hơn. Hãy lấy sự phát triển của các cơ chế chú ý làm ví dụ: từ chú ý thông thường đến chú ý truy vấn nhóm, rồi đến chú ý đa đầu... Ngày nay, con người có thể đạt được kết quả tương tự hoặc thậm chí tốt hơn với chi phí tính toán thấp hơn nhiều. Điều này, ở một mức độ nào đó, đã thúc đẩy những nhu cầu mới: nhiều ứng dụng trước đây quá đắt đỏ giờ đây đủ khả thi để cho phép AI thâm nhập vào nhiều lĩnh vực hơn. Đồng thời, khả năng của bản thân các mô hình AI cũng liên tục được cải thiện. Có lẽ nó sẽ được cải thiện nhờ việc tối ưu hóa kiến trúc Transformer, hoặc có lẽ các kiến trúc hoàn toàn mới sẽ xuất hiện. Nhưng hướng phát triển công nghệ rất rõ ràng: chúng ta chắc chắn sẽ có những mô hình có khả năng hơn và hiệu quả tương đương. Trên thực tế, chúng có giá trị hơn các giải pháp chức năng cụ thể vì chúng linh hoạt hơn và có thể phát triển tốt hơn cùng với mô hình. Điểm quan trọng nhất là tôi nghĩ rằng việc khám phá các ứng dụng AI của chúng ta chỉ là phần nổi của tảng băng chìm. Hầu như mọi ngóc ngách của cuộc sống con người, từ sự nghiệp đến công việc hàng ngày, đều có thể được cải thiện với sự trợ giúp của AI. Tôi nghĩ chúng ta thậm chí còn chưa đáp ứng được 1% nhu cầu cuối cùng của nó. Khi AI tiếp tục phát triển, các kịch bản ứng dụng sẽ chỉ ngày càng tăng. Do đó, tôi không nghĩ có bất kỳ bong bóng nào ở đây cả. Như Jensen Huang đã nói, chúng ta đang vẽ nên một đường cong tăng trưởng theo cấp số nhân, và đây chỉ là khởi đầu. Con đường này sẽ tiếp tục mở rộng.
Người dẫn chương trình: Ở một mức độ nào đó, Nvidia đã thích nghi với điều này. Bởi vì dù mô hình có thay đổi thế nào, hay AI hay kiến trúc mới nào xuất hiện, những thành phần phần cứng cốt lõi đó vẫn luôn cần thiết. Feifei, anh có ý kiến gì về vấn đề này không?
Fei-Fei Li: Tôi đồng ý rằng xét về mặt thị trường, AI có những quy luật riêng và đôi khi tự điều chỉnh. Tuy nhiên, nếu chúng ta tập trung vào các xu hướng dài hạn, chúng ta phải nhận ra rằng AI vẫn còn là một lĩnh vực rất non trẻ. Nhìn quanh căn phòng này, chúng ta thấy các phương trình vật lý được viết trên tường. Vật lý có lịch sử hơn bốn trăm năm. Ngay cả khi so sánh với vật lý hiện đại, lịch sử của AI cũng chưa đến bảy mươi năm, và chỉ khoảng bảy mươi lăm năm kể từ Alan Turing. Do đó, vẫn còn nhiều lĩnh vực mới đang chờ đợi để xuất hiện. Chúng ta biết Jensen Huang thường nói về các mô hình ngôn ngữ lớn và các tác nhân thông minh, hầu hết đều xoay quanh ngôn ngữ. Nhưng ngay cả khi suy ngẫm về bản thân trí thông minh của con người, khả năng của nó còn vượt xa ngôn ngữ. Tôi luôn tập trung vào trí thông minh không gian, nghiên cứu sự kết hợp giữa nhận thức và hành động. Về mặt này, nhận thức, lý luận, tương tác và sáng tạo được thể hiện bởi con người và động vật vượt xa phạm vi mà ngôn ngữ có thể bao hàm. Ngôn ngữ tiên tiến nhất hiện nay hoặc các mô hình ngôn ngữ lớn vẫn hoạt động kém trong các bài kiểm tra trí thông minh không gian cơ bản. Điều này cho thấy rằng với tư cách là một khoa học và một ngành học, chúng ta vẫn còn những lãnh thổ rộng lớn để chinh phục và khám phá. Điều này cũng có nghĩa là nhiều khả năng ứng dụng đa dạng hơn sẽ được mở ra trong tương lai.
Người dẫn chương trình: Anh (Yann LeCun) làm việc trong một công ty, vì vậy anh có cả góc nhìn nghiên cứu lẫn kinh doanh. Anh có tin rằng tình trạng phát triển AI hiện tại là hợp lý và anh có thể hiểu được những lý do cơ bản không? Hay anh cảm thấy chúng ta đang đứng trước một ngã ba đường đầy bất định và phải tìm một hướng đi mới?
Yann LeCun: Tôi nghĩ có một số lập luận ủng hộ quan điểm cho rằng chúng ta không ở trong bong bóng, nhưng ít nhất một lập luận cho thấy chúng ta đang ở trong đó. Đây thực sự là một vấn đề khác cần khám phá. Theo một nghĩa nào đó, kết quả không được định trước. Bởi vì vẫn còn rất nhiều ứng dụng cần được phát triển dựa trên các mô hình ngôn ngữ lớn. Các mô hình ngôn ngữ lớn là mô hình thống trị hiện nay, và có tiềm năng to lớn để khai thác. Đây chính xác là điều Bill đã đề cập - sử dụng công nghệ hiện có để cải thiện cuộc sống hàng ngày của con người. Công nghệ cần được thúc đẩy, điều này biện minh cho tất cả các khoản đầu tư vào phần mềm và cơ sở hạ tầng. Một khi chúng ta có trợ lý thông minh trong tay mọi người, như Jensen Huang đã nói, lượng sức mạnh tính toán cần thiết để phục vụ một lượng người dùng lớn như vậy sẽ là vô cùng lớn. Do đó, từ góc độ này, những khoản đầu tư này không hề bị lãng phí. Tuy nhiên, theo một nghĩa khác, bong bóng thực sự tồn tại - nó phản ánh niềm tin rằng mô hình mô hình ngôn ngữ lớn hiện tại sẽ được thúc đẩy trực tiếp đến trí thông minh ở cấp độ con người. Cá nhân tôi không tin điều này. Chúng ta cần đạt được một số đột phá cơ bản trước khi có thể chế tạo những cỗ máy thực sự sở hữu loại trí thông minh mà chúng ta quan sát được (không chỉ ở con người mà còn ở động vật). Ví dụ, chúng ta thậm chí còn chưa có robot thông minh như mèo, phải không? Do đó, chúng ta vẫn còn thiếu một điều cốt yếu. Đây chính xác là lý do tại sao sự tiến bộ trong AI không thể chỉ dựa vào cơ sở hạ tầng, dữ liệu, đầu tư và sự phát triển Python hiện có. Trên thực tế, đây là một câu hỏi khoa học về cách chúng ta có thể đạt được những đột phá hướng tới thế hệ AI tiếp theo.
Sử dụng "năm" để đưa ra dự báo AGI
Người dẫn chương trình: Xin mỗi người vui lòng chia sẻ suy nghĩ của mình về việc cần bao lâu để đạt đến giai đoạn mà các bạn tin tưởng vững chắc - tức là tạo ra trí thông minh máy móc ngang ngửa với con người, hoặc thậm chí là những loài động vật cực kỳ thông minh như bạch tuộc? Chúng ta còn cách mục tiêu này bao xa? Xin hãy ước tính theo năm.
Yann LeCun: Đây sẽ không phải là một phong trào tồn tại trong thời gian ngắn. Bởi vì nhiều năng lực khác nhau sẽ dần được phát triển trong các lĩnh vực khác nhau.
Người dẫn chương trình: Bạn dự kiến sẽ mất bao lâu?
Yann LeCun: Có lẽ trong năm đến mười năm tới, chúng ta sẽ đạt được những đột phá công nghệ đáng kể, từ đó tạo ra một mô hình hoàn toàn mới. Tuy nhiên, các ứng dụng thương mại tiếp theo và sự phát triển ở cấp độ công ty có thể mất nhiều thời gian hơn chúng ta mong đợi.
Fei-Fei Li: Một số khả năng của máy móc sẽ vượt trội hơn trí tuệ con người, nhưng một số khía cạnh khác của trí tuệ máy móc sẽ không bao giờ hội tụ hoặc ngang bằng với trí tuệ con người. Điều này là do ý định thiết kế của chúng khác với con người; chúng được tạo ra cho những mục đích khác nhau.
Người dẫn chương trình: Khi nào quá trình máy móc thay thế con người dự kiến sẽ bắt đầu?
Fei-Fei Li: Một số khả năng này đã trở thành hiện thực. Bao nhiêu người trong chúng ta có thể nhận dạng tất cả 22.000 vật thể trên thế giới? AI thì có thể. Bao nhiêu người lớn có thể dịch 100 ngôn ngữ? AI thì có thể. Do đó, tôi tin rằng tư duy của chúng ta nên tinh tế hơn và dựa trên các bằng chứng khoa học - giống như máy bay có thể bay, nhưng cách bay của chúng về cơ bản khác với chim. Trí tuệ nhân tạo chắc chắn sẽ đóng nhiều vai trò quan trọng. Tuy nhiên, trong khuôn khổ xã hội loài người, giá trị của trí tuệ con người vẫn là trung tâm và không thể thay thế.
Người dẫn chương trình: Jensen Huang, anh có điều gì muốn nói không?
Jensen Huang: Chúng ta đã sở hữu đủ trí tuệ tổng quát để biến công nghệ này thành vô số ứng dụng hữu ích cho xã hội trong những năm tới. Từ nay trở đi, trọng tâm của chúng ta là sử dụng công nghệ để giải quyết nhiều thách thức lớn. Tôi tin rằng chúng ta đã có những năng lực cơ bản. Do đó, tôi nghĩ những hạn chế hiện tại là không đáng kể.
Người dẫn chương trình: Đó là lý do tại sao bây giờ chính là thời điểm thích hợp, đúng vậy.
Geoffrey Hinton: Nếu bạn đặt câu hỏi cụ thể hơn một chút, ví dụ như "cần bao lâu để một cỗ máy chiến thắng vĩnh viễn trong một cuộc tranh luận?", tôi nghĩ điều đó chắc chắn sẽ trở thành hiện thực trong vòng hai mươi năm tới. Chúng ta chưa đạt đến mức đó, nhưng tôi có thể tự tin dự đoán rằng nó sẽ đạt được trong vòng hai mươi năm tới. Vì vậy, nếu bạn định nghĩa "AGI" là luôn chiến thắng con người trong một cuộc tranh luận, thì chúng ta có thể sẽ đạt được mục tiêu đó trong vòng chưa đầy hai mươi năm.
Bill Dally: Ý định ban đầu của chúng tôi không phải là tạo ra một AI có thể thay thế hoặc vượt trội hơn con người.
Người dẫn chương trình: Nhưng về cơ bản, đây là một câu hỏi khoa học. Mục đích cốt lõi của nó không phải là thay thế con người. Câu hỏi thực sự là: liệu chúng ta, với tư cách là một xã hội nói chung, có đủ khả năng tạo ra một thứ như vậy không?
Bill Dally: Mục tiêu của chúng tôi là tạo ra AI giúp nâng cao năng lực của con người. Nói cách khác, chúng tôi muốn AI lấp đầy những khoảng trống trong khả năng của con người. Con người không thể nhận dạng 22.000 vật thể, và hầu hết mọi người không thể giải quyết các vấn đề liên quan đến methylamphetamine; những vấn đề này có thể để AI giải quyết. Mục tiêu là giải phóng năng lượng của con người cho các nhiệm vụ lấy con người làm trung tâm hơn: chẳng hạn như sáng tạo, đồng cảm và tương tác giữa các cá nhân. Liệu AI có thể tự mình làm những điều này hay không vẫn chưa chắc chắn. Nhưng chắc chắn nó có thể trở thành một trợ lý đắc lực cho nhân loại.
Yoshua Bengio: Tôi không đồng tình với quan điểm này. Tôi tin rằng không có lý do cơ bản nào khiến chúng ta không thể tạo ra những cỗ máy có khả năng thực hiện hầu hết mọi nhiệm vụ của con người trong tương lai. Tất nhiên, trong các lĩnh vực như nhận thức không gian và robot, chúng ta hiện đang tụt hậu, nhưng về mặt lý thuyết, không có trở ngại nào không thể vượt qua ngăn cản chúng ta đạt được mục tiêu này. Do đó, tôi nghĩ rằng có sự không chắc chắn đáng kể về mốc thời gian cụ thể, và việc lập kế hoạch của chúng ta nên cân nhắc đầy đủ điều này. Tuy nhiên, tôi đã nhận thấy một số dữ liệu rất thú vị: trong sáu năm qua, khả năng lập kế hoạch của các hệ thống AI trên các khung thời gian khác nhau đã tăng trưởng theo cấp số nhân. Nếu xu hướng này tiếp tục, trong khoảng năm năm nữa, AI sẽ có thể thực hiện hầu hết các nhiệm vụ thường được thực hiện bởi nhân viên bình thường. Điều quan trọng cần làm rõ là đây chỉ là một loại nhiệm vụ kỹ thuật; còn rất nhiều khía cạnh quan trọng khác. Ví dụ, một xu hướng có khả năng thay đổi cuộc chơi là nhiều công ty đang nỗ lực phát triển khả năng "nghiên cứu AI do AI dẫn dắt" - tức là cho phép AI thực hiện nghiên cứu kỹ thuật và khoa học máy tính, đồng thời thiết kế thế hệ hệ thống AI tiếp theo, có thể bao gồm những cải tiến về robot và khả năng hiểu biết không gian. Tôi không khẳng định điều này chắc chắn sẽ xảy ra, nhưng khả năng lập trình và hiểu thuật toán của AI đang được cải thiện nhanh chóng, có khả năng mở ra nhiều khả năng mà chúng ta chưa thể lường trước. Do đó, chúng ta nên duy trì lập trường thực sự khách quan và tránh đưa ra những khẳng định quá mức, bởi vì tương lai còn rộng mở và đa dạng.