Theo một biểu đồ lan truyền trên Internet, mẫu o3 mới của OpenAI có số điểm 2727 trên Codeforces, tương đương với điểm IQ của con người là 157, tức là một phần triệu.
Và thậm chí còn cường điệu hơn nữa, từ GPT-4o lên o3, chỉ số IQ của AI đã tăng vọt 42 điểm chỉ sau 7 tháng.
Bao gồm cả những gì được quảng cáo đặc biệt cách đây không lâu, mô hình o1 của OpenAI đạt điểm cao tới 133 trong bài kiểm tra IQ Mensa, vượt quá mức IQ của hầu hết con người.
Tuy nhiên, đừng vội than thở về sự thất bại hoàn toàn của con người trước AI. Bạn cũng có thể dừng lại và suy nghĩ về một câu hỏi cơ bản hơn, đó là liệu việc sử dụng thước đo cụ thể để đo chỉ số IQ của con người để đánh giá AI có thực sự phù hợp hay không?
AI thông minh cũng có thể mắc những lỗi cơ bản nhất
Bất kỳ người dùng nào có kinh nghiệm sử dụng AI đều có thể rút ra kết luận rõ ràng. Mặc dù việc kiểm tra chỉ số IQ của con người trên AI là rất có ý nghĩa nhưng nó cũng có những hạn chế nghiêm trọng.
Hạn chế này trước hết xuất phát từ ý định thiết kế ban đầu của chính cuộc thử nghiệm.
Bài kiểm tra IQ truyền thống là một tập hợp các hệ thống đánh giá đặc biệt nhằm vào khả năng nhận thức của con người. Nó dựa trên các kiểu suy nghĩ độc đáo của con người và bao gồm nhiều khía cạnh như lý luận logic, nhận thức không gian và hiểu ngôn ngữ.
Rõ ràng, việc sử dụng bộ “tiêu chuẩn con người” như vậy để đánh giá AI vốn dĩ đã có những thành kiến về phương pháp luận.
Nhìn sâu hơn vào sự khác biệt giữa bộ não con người và AI, sự thiên vị này thậm chí còn rõ ràng hơn.
Bộ não con người có khoảng 86 tỷ tế bào thần kinh, nhưng nghiên cứu cho thấy số lượng và độ phức tạp của các kết nối khớp thần kinh có thể quan trọng hơn số lượng tế bào thần kinh, trong đó bộ não con người có khoảng 100 nghìn tỷ kết nối khớp thần kinh.
Ngược lại, nghiên cứu trên tạp chí Nature năm 2023 cho thấy ngay cả GPT-4, có khối lượng tham số 1,76 nghìn tỷ, cũng có kiểu kết nối mạng thần kinh ít phức tạp hơn nhiều so với não người.
Từ góc độ dòng chảy của quá trình nhận thức, con người suy nghĩ theo con đường "đầu vào nhận thức → lọc sự chú ý → trí nhớ làm việc → lưu trữ trí nhớ dài hạn → tích hợp kiến thức".
Hệ thống AI đi theo con đường "đầu vào dữ liệu → trích xuất tính năng → khớp mẫu → tính toán xác suất → quyết định đầu ra", có hình thức tương tự nhưng có vẻ ngoài kỳ diệu.
Do đó, mặc dù mô hình AI hiện tại bắt chước các chức năng nhận thức của con người ở một số khía cạnh, nhưng về cơ bản nó vẫn là một cỗ máy xác suất dựa trên một thuật toán cụ thể và tất cả đầu ra của nó đều bắt nguồn từ quá trình xử lý dữ liệu đầu vào được lập trình.
Cách đây không lâu, Apple đã xuất bản một bài nghiên cứu chỉ ra rằng họ không thể tìm thấy bất kỳ khả năng suy luận hình thức thực sự nào trong các mô hình ngôn ngữ và rằng các mô hình này hoạt động giống như khớp mẫu phức tạp hơn.
Và cơ chế so khớp này cực kỳ mong manh, chỉ cần thay đổi một tên cũng có thể khiến kết quả sai lệch khoảng 10%.
Đánh giá một con cá qua khả năng trèo cây của nó và nó sẽ dành cả cuộc đời để cảm thấy mình như một kẻ ngốc. Tương tự như vậy, việc đo lường AI theo tiêu chuẩn của con người cũng có thể dẫn đến những đánh giá sai lệch.
Lấy GPT-4o làm ví dụ. Đằng sau hào quang dường như có chỉ số IQ cao hơn nhiều so với mức trung bình của con người là 100 điểm, có một thực tế đáng xấu hổ là nó thậm chí không thể phân biệt được sự khác biệt giữa 9,8 và 9,11 và nó thường tạo ra ảo giác về AI.
OpenAI cũng thừa nhận trong nghiên cứu của mình rằng GPT-4 vẫn mắc những lỗi cơ bản khi xử lý các phép so sánh số đơn giản. Cái gọi là "IQ" của AI có thể gần với sức mạnh tính toán thuần túy hơn là trí thông minh thực sự.
Không khó hiểu tại sao chúng ta lại thấy một số cuộc tranh cãi bạo lực.
Ví dụ, CEO Deepmind và Yann Lecun cho rằng chỉ số IQ thực tế của AI hiện tại thậm chí còn thấp hơn cả loài mèo. Mặc dù điều này nghe có vẻ khắc nghiệt nhưng nó không hề thô.
Trên thực tế, con người đang tìm kiếm một hệ thống đánh giá phù hợp để định lượng trí thông minh của AI, hệ thống này phải dễ đo lường, toàn diện và khách quan.
Nổi tiếng nhất trong số này là bài kiểm tra Turing . Nếu một cỗ máy có thể giao tiếp với con người mà không bị phát hiện thì nó có thể được coi là thông minh, nhưng các vấn đề với bài kiểm tra Turing cũng rất rõ ràng. Nó tập trung quá nhiều vào kỹ năng giao tiếp bằng lời nói mà bỏ qua những khía cạnh quan trọng khác của trí thông minh.
Đồng thời, kết quả kiểm tra phụ thuộc rất nhiều vào thành kiến và phán đoán cá nhân của người đánh giá. Ngay cả khi một chiếc máy vượt qua bài kiểm tra Turing, điều đó không có nghĩa là nó thực sự có khả năng hiểu và có ý thức. Nó có thể chỉ bắt chước hành vi của con người. trên bề mặt.
Ngay cả bài kiểm tra Mensa, được gọi là "bài kiểm tra IQ chính thức", cũng không thể cung cấp điểm IQ "thực tế và đáng tin cậy" cho AI vì các đặc điểm tiêu chuẩn hóa của nó dành cho con người ở một nhóm tuổi cụ thể.
Vì vậy, làm thế nào chúng ta có thể chứng minh một cách trực quan sự tiến bộ của AI cho công chúng?
Câu trả lời có thể nằm ở việc chuyển trọng tâm đánh giá sang khả năng giải quyết các vấn đề thực tế của AI. So với các bài kiểm tra IQ, các tiêu chuẩn đánh giá chuyên môn (bài kiểm tra điểm chuẩn) được thiết kế cho các tình huống ứng dụng cụ thể có thể có ý nghĩa hơn.
Từ "hiểu" đến "ghi nhớ câu hỏi", tại sao việc kiểm tra AI lại trở nên khó khăn đến vậy?
Các bài kiểm tra được tạo ra từ các kích thước khác nhau và các bài kiểm tra điểm chuẩn có thể được mô tả là đa dạng.
Ví dụ: GSM8K phổ biến kiểm tra toán tiểu học, MATH cũng kiểm tra toán nhưng có tính cạnh tranh cao hơn, bao gồm đại số, hình học và phép tính, v.v. và HumanEval kiểm tra lập trình Python.
Ngoài toán học và vật lý, AI còn thực hiện "đọc hiểu". DROP cho phép mô hình thực hiện các lý luận phức tạp bằng cách đọc các đoạn văn và kết hợp thông tin. Ngược lại, HellaSwag tập trung vào lý luận thông thường và kết hợp nó với các tình huống cuộc sống.
Tuy nhiên, có một vấn đề chung với điểm chuẩn. Nếu tập dữ liệu thử nghiệm được công khai thì một số mô hình có thể đã "xem trước" những câu hỏi này trong quá trình đào tạo.
Điều này cũng giống như việc một học sinh làm bài kiểm tra sau khi hoàn thành đầy đủ bộ câu hỏi mô phỏng hoặc thậm chí là những câu hỏi thực tế. Điểm cao cuối cùng có thể không phản ánh đúng thực lực của người đó.
Trong trường hợp này, hiệu suất của AI có thể chỉ đơn giản là nhận dạng mẫu đơn giản và khớp câu trả lời, thay vì hiểu biết thực sự và giải quyết vấn đề. Bản ghi có vẻ xuất sắc nhưng lại mất đi giá trị tham khảo.
Hơn nữa, từ việc chỉ đơn giản là tranh giành điểm số cho đến bí mật “đánh bại bảng xếp hạng”, AI cũng sẽ bị lây nhiễm chứng lo âu của con người. Ví dụ, Reflection 70B, được mệnh danh là mô hình lớn nguồn mở mạnh mẽ nhất, đã bị cáo buộc lừa đảo, khiến độ tin cậy của nhiều danh sách mô hình lớn giảm mạnh.
Ngay cả khi không có thứ hạng độc hại, khi khả năng của AI được cải thiện, kết quả điểm chuẩn thường sẽ trở nên "bão hòa".
Như CEO Deepmind, Demis Hassabis đã đề xuất, lĩnh vực AI cần có điểm chuẩn tốt hơn. Có một số tiêu chuẩn học thuật nổi tiếng hiện có, nhưng hiện tại chúng đã bão hòa và thực sự không thể phân biệt được sự khác biệt tinh tế giữa các mô hình hàng đầu khác nhau.
Ví dụ: kết quả kiểm tra GPT-3.5 trên MMLU là 70,0, GPT-4 là 86,4 và OpenAI o1 là 92,3 điểm. Nhìn bề ngoài, có vẻ như tốc độ phát triển AI đang chậm lại, nhưng thực tế nó phản ánh điều đó. bài kiểm tra này đã bị AI vượt qua, nó không còn có thể đo lường khoảng cách sức mạnh giữa các mô hình một cách hiệu quả nữa.
Giống như trò chơi mèo vờn chuột không bao giờ kết thúc, khi AI học cách đối phó với một đánh giá, ngành phải tìm ra các phương pháp đánh giá mới. Trong số hai cách tiếp cận phổ biến hơn, một là thử nghiệm mù trong đó người dùng trực tiếp bỏ phiếu, trong khi hai là liên tục giới thiệu các bài kiểm tra điểm chuẩn mới.
Chúng ta đã quen thuộc với nền tảng trước đây. Nền tảng Chatbot Arena là một đấu trường mô hình lớn dựa trên các mô hình đánh giá sở thích của con người và chatbot. Thay vì cung cấp điểm tuyệt đối, người dùng chỉ cần so sánh hai mô hình ẩn danh và bỏ phiếu cho mô hình tốt hơn.
Loại thứ hai thu hút nhiều sự chú ý gần đây là thử nghiệm ARC-AGI do OpenAI giới thiệu.
Được thiết kế bởi nhà khoa học máy tính người Pháp François Chollet, ARC-AGI được sử dụng đặc biệt để đánh giá khả năng suy luận trừu tượng và hiệu quả học tập của AI đối với các nhiệm vụ chưa biết. Nó được nhiều người coi là tiêu chuẩn quan trọng để đo lường khả năng AGI.
Dễ dàng với con người nhưng lại rất khó khăn với AI. ARC-AGI bao gồm một loạt các nhiệm vụ suy luận trực quan trừu tượng, mỗi nhiệm vụ cung cấp một số lưới đầu vào và đầu ra tương ứng, đồng thời các đối tượng được yêu cầu suy ra các quy tắc và tạo ra kết quả đầu ra lưới chính xác dựa trên các ví dụ này.
Mỗi nhiệm vụ của ARC-AGI yêu cầu các kỹ năng khác nhau và cố tình tránh trùng lặp. Nó loại bỏ hoàn toàn khả năng mô hình dựa vào "học vẹt" và thực sự kiểm tra khả năng học hỏi và áp dụng các kỹ năng mới của mô hình trong thời gian thực.
Trong điều kiện điện toán tiêu chuẩn, o3 đạt 75,7% trên ARC-AGI, trong khi ở chế độ điện toán cao, điểm cao tới 87,5% và điểm 85% gần với mức bình thường của con người.
Tuy nhiên, ngay cả khi OpenAI o3 đưa ra bảng báo cáo xuất sắc thì điều đó không có nghĩa là o3 đã đạt được AGI. Thậm chí, François Chollet đã xuất bản một bài viết về nền tảng X và nhấn mạnh rằng vẫn còn nhiều nhiệm vụ ARC-AGI-1 dễ dàng đối với con người, nhưng mô hình o3 không thể giải quyết được chúng.
Tóm lại, thay vì tập trung làm cho AI đạt được điểm cao trong các bài kiểm tra khác nhau do con người thiết kế, tốt hơn nên nghĩ đến việc làm thế nào để AI phục vụ tốt hơn nhu cầu thực tế của xã hội loài người. Đây có thể là khía cạnh có ý nghĩa nhất để đánh giá sự tiến bộ của loài người. AI.
Và thậm chí còn cường điệu hơn nữa, từ GPT-4o lên o3, chỉ số IQ của AI đã tăng vọt 42 điểm chỉ sau 7 tháng.
Bao gồm cả những gì được quảng cáo đặc biệt cách đây không lâu, mô hình o1 của OpenAI đạt điểm cao tới 133 trong bài kiểm tra IQ Mensa, vượt quá mức IQ của hầu hết con người.
Tuy nhiên, đừng vội than thở về sự thất bại hoàn toàn của con người trước AI. Bạn cũng có thể dừng lại và suy nghĩ về một câu hỏi cơ bản hơn, đó là liệu việc sử dụng thước đo cụ thể để đo chỉ số IQ của con người để đánh giá AI có thực sự phù hợp hay không?
AI thông minh cũng có thể mắc những lỗi cơ bản nhất
Bất kỳ người dùng nào có kinh nghiệm sử dụng AI đều có thể rút ra kết luận rõ ràng. Mặc dù việc kiểm tra chỉ số IQ của con người trên AI là rất có ý nghĩa nhưng nó cũng có những hạn chế nghiêm trọng.
Hạn chế này trước hết xuất phát từ ý định thiết kế ban đầu của chính cuộc thử nghiệm.
Bài kiểm tra IQ truyền thống là một tập hợp các hệ thống đánh giá đặc biệt nhằm vào khả năng nhận thức của con người. Nó dựa trên các kiểu suy nghĩ độc đáo của con người và bao gồm nhiều khía cạnh như lý luận logic, nhận thức không gian và hiểu ngôn ngữ.
Rõ ràng, việc sử dụng bộ “tiêu chuẩn con người” như vậy để đánh giá AI vốn dĩ đã có những thành kiến về phương pháp luận.
Nhìn sâu hơn vào sự khác biệt giữa bộ não con người và AI, sự thiên vị này thậm chí còn rõ ràng hơn.
Bộ não con người có khoảng 86 tỷ tế bào thần kinh, nhưng nghiên cứu cho thấy số lượng và độ phức tạp của các kết nối khớp thần kinh có thể quan trọng hơn số lượng tế bào thần kinh, trong đó bộ não con người có khoảng 100 nghìn tỷ kết nối khớp thần kinh.
Ngược lại, nghiên cứu trên tạp chí Nature năm 2023 cho thấy ngay cả GPT-4, có khối lượng tham số 1,76 nghìn tỷ, cũng có kiểu kết nối mạng thần kinh ít phức tạp hơn nhiều so với não người.
Từ góc độ dòng chảy của quá trình nhận thức, con người suy nghĩ theo con đường "đầu vào nhận thức → lọc sự chú ý → trí nhớ làm việc → lưu trữ trí nhớ dài hạn → tích hợp kiến thức".
Hệ thống AI đi theo con đường "đầu vào dữ liệu → trích xuất tính năng → khớp mẫu → tính toán xác suất → quyết định đầu ra", có hình thức tương tự nhưng có vẻ ngoài kỳ diệu.
Do đó, mặc dù mô hình AI hiện tại bắt chước các chức năng nhận thức của con người ở một số khía cạnh, nhưng về cơ bản nó vẫn là một cỗ máy xác suất dựa trên một thuật toán cụ thể và tất cả đầu ra của nó đều bắt nguồn từ quá trình xử lý dữ liệu đầu vào được lập trình.
Cách đây không lâu, Apple đã xuất bản một bài nghiên cứu chỉ ra rằng họ không thể tìm thấy bất kỳ khả năng suy luận hình thức thực sự nào trong các mô hình ngôn ngữ và rằng các mô hình này hoạt động giống như khớp mẫu phức tạp hơn.
Và cơ chế so khớp này cực kỳ mong manh, chỉ cần thay đổi một tên cũng có thể khiến kết quả sai lệch khoảng 10%.
Đánh giá một con cá qua khả năng trèo cây của nó và nó sẽ dành cả cuộc đời để cảm thấy mình như một kẻ ngốc. Tương tự như vậy, việc đo lường AI theo tiêu chuẩn của con người cũng có thể dẫn đến những đánh giá sai lệch.
Lấy GPT-4o làm ví dụ. Đằng sau hào quang dường như có chỉ số IQ cao hơn nhiều so với mức trung bình của con người là 100 điểm, có một thực tế đáng xấu hổ là nó thậm chí không thể phân biệt được sự khác biệt giữa 9,8 và 9,11 và nó thường tạo ra ảo giác về AI.
OpenAI cũng thừa nhận trong nghiên cứu của mình rằng GPT-4 vẫn mắc những lỗi cơ bản khi xử lý các phép so sánh số đơn giản. Cái gọi là "IQ" của AI có thể gần với sức mạnh tính toán thuần túy hơn là trí thông minh thực sự.
Không khó hiểu tại sao chúng ta lại thấy một số cuộc tranh cãi bạo lực.
Ví dụ, CEO Deepmind và Yann Lecun cho rằng chỉ số IQ thực tế của AI hiện tại thậm chí còn thấp hơn cả loài mèo. Mặc dù điều này nghe có vẻ khắc nghiệt nhưng nó không hề thô.
Trên thực tế, con người đang tìm kiếm một hệ thống đánh giá phù hợp để định lượng trí thông minh của AI, hệ thống này phải dễ đo lường, toàn diện và khách quan.
Nổi tiếng nhất trong số này là bài kiểm tra Turing . Nếu một cỗ máy có thể giao tiếp với con người mà không bị phát hiện thì nó có thể được coi là thông minh, nhưng các vấn đề với bài kiểm tra Turing cũng rất rõ ràng. Nó tập trung quá nhiều vào kỹ năng giao tiếp bằng lời nói mà bỏ qua những khía cạnh quan trọng khác của trí thông minh.
Đồng thời, kết quả kiểm tra phụ thuộc rất nhiều vào thành kiến và phán đoán cá nhân của người đánh giá. Ngay cả khi một chiếc máy vượt qua bài kiểm tra Turing, điều đó không có nghĩa là nó thực sự có khả năng hiểu và có ý thức. Nó có thể chỉ bắt chước hành vi của con người. trên bề mặt.
Ngay cả bài kiểm tra Mensa, được gọi là "bài kiểm tra IQ chính thức", cũng không thể cung cấp điểm IQ "thực tế và đáng tin cậy" cho AI vì các đặc điểm tiêu chuẩn hóa của nó dành cho con người ở một nhóm tuổi cụ thể.
Vì vậy, làm thế nào chúng ta có thể chứng minh một cách trực quan sự tiến bộ của AI cho công chúng?
Câu trả lời có thể nằm ở việc chuyển trọng tâm đánh giá sang khả năng giải quyết các vấn đề thực tế của AI. So với các bài kiểm tra IQ, các tiêu chuẩn đánh giá chuyên môn (bài kiểm tra điểm chuẩn) được thiết kế cho các tình huống ứng dụng cụ thể có thể có ý nghĩa hơn.
Từ "hiểu" đến "ghi nhớ câu hỏi", tại sao việc kiểm tra AI lại trở nên khó khăn đến vậy?
Các bài kiểm tra được tạo ra từ các kích thước khác nhau và các bài kiểm tra điểm chuẩn có thể được mô tả là đa dạng.
Ví dụ: GSM8K phổ biến kiểm tra toán tiểu học, MATH cũng kiểm tra toán nhưng có tính cạnh tranh cao hơn, bao gồm đại số, hình học và phép tính, v.v. và HumanEval kiểm tra lập trình Python.
Ngoài toán học và vật lý, AI còn thực hiện "đọc hiểu". DROP cho phép mô hình thực hiện các lý luận phức tạp bằng cách đọc các đoạn văn và kết hợp thông tin. Ngược lại, HellaSwag tập trung vào lý luận thông thường và kết hợp nó với các tình huống cuộc sống.
Tuy nhiên, có một vấn đề chung với điểm chuẩn. Nếu tập dữ liệu thử nghiệm được công khai thì một số mô hình có thể đã "xem trước" những câu hỏi này trong quá trình đào tạo.
Điều này cũng giống như việc một học sinh làm bài kiểm tra sau khi hoàn thành đầy đủ bộ câu hỏi mô phỏng hoặc thậm chí là những câu hỏi thực tế. Điểm cao cuối cùng có thể không phản ánh đúng thực lực của người đó.
Trong trường hợp này, hiệu suất của AI có thể chỉ đơn giản là nhận dạng mẫu đơn giản và khớp câu trả lời, thay vì hiểu biết thực sự và giải quyết vấn đề. Bản ghi có vẻ xuất sắc nhưng lại mất đi giá trị tham khảo.
Hơn nữa, từ việc chỉ đơn giản là tranh giành điểm số cho đến bí mật “đánh bại bảng xếp hạng”, AI cũng sẽ bị lây nhiễm chứng lo âu của con người. Ví dụ, Reflection 70B, được mệnh danh là mô hình lớn nguồn mở mạnh mẽ nhất, đã bị cáo buộc lừa đảo, khiến độ tin cậy của nhiều danh sách mô hình lớn giảm mạnh.
Ngay cả khi không có thứ hạng độc hại, khi khả năng của AI được cải thiện, kết quả điểm chuẩn thường sẽ trở nên "bão hòa".
Như CEO Deepmind, Demis Hassabis đã đề xuất, lĩnh vực AI cần có điểm chuẩn tốt hơn. Có một số tiêu chuẩn học thuật nổi tiếng hiện có, nhưng hiện tại chúng đã bão hòa và thực sự không thể phân biệt được sự khác biệt tinh tế giữa các mô hình hàng đầu khác nhau.
Ví dụ: kết quả kiểm tra GPT-3.5 trên MMLU là 70,0, GPT-4 là 86,4 và OpenAI o1 là 92,3 điểm. Nhìn bề ngoài, có vẻ như tốc độ phát triển AI đang chậm lại, nhưng thực tế nó phản ánh điều đó. bài kiểm tra này đã bị AI vượt qua, nó không còn có thể đo lường khoảng cách sức mạnh giữa các mô hình một cách hiệu quả nữa.
Giống như trò chơi mèo vờn chuột không bao giờ kết thúc, khi AI học cách đối phó với một đánh giá, ngành phải tìm ra các phương pháp đánh giá mới. Trong số hai cách tiếp cận phổ biến hơn, một là thử nghiệm mù trong đó người dùng trực tiếp bỏ phiếu, trong khi hai là liên tục giới thiệu các bài kiểm tra điểm chuẩn mới.
Chúng ta đã quen thuộc với nền tảng trước đây. Nền tảng Chatbot Arena là một đấu trường mô hình lớn dựa trên các mô hình đánh giá sở thích của con người và chatbot. Thay vì cung cấp điểm tuyệt đối, người dùng chỉ cần so sánh hai mô hình ẩn danh và bỏ phiếu cho mô hình tốt hơn.
Loại thứ hai thu hút nhiều sự chú ý gần đây là thử nghiệm ARC-AGI do OpenAI giới thiệu.
Được thiết kế bởi nhà khoa học máy tính người Pháp François Chollet, ARC-AGI được sử dụng đặc biệt để đánh giá khả năng suy luận trừu tượng và hiệu quả học tập của AI đối với các nhiệm vụ chưa biết. Nó được nhiều người coi là tiêu chuẩn quan trọng để đo lường khả năng AGI.
Dễ dàng với con người nhưng lại rất khó khăn với AI. ARC-AGI bao gồm một loạt các nhiệm vụ suy luận trực quan trừu tượng, mỗi nhiệm vụ cung cấp một số lưới đầu vào và đầu ra tương ứng, đồng thời các đối tượng được yêu cầu suy ra các quy tắc và tạo ra kết quả đầu ra lưới chính xác dựa trên các ví dụ này.
Mỗi nhiệm vụ của ARC-AGI yêu cầu các kỹ năng khác nhau và cố tình tránh trùng lặp. Nó loại bỏ hoàn toàn khả năng mô hình dựa vào "học vẹt" và thực sự kiểm tra khả năng học hỏi và áp dụng các kỹ năng mới của mô hình trong thời gian thực.
Trong điều kiện điện toán tiêu chuẩn, o3 đạt 75,7% trên ARC-AGI, trong khi ở chế độ điện toán cao, điểm cao tới 87,5% và điểm 85% gần với mức bình thường của con người.
Tuy nhiên, ngay cả khi OpenAI o3 đưa ra bảng báo cáo xuất sắc thì điều đó không có nghĩa là o3 đã đạt được AGI. Thậm chí, François Chollet đã xuất bản một bài viết về nền tảng X và nhấn mạnh rằng vẫn còn nhiều nhiệm vụ ARC-AGI-1 dễ dàng đối với con người, nhưng mô hình o3 không thể giải quyết được chúng.
Chúng tôi có những dấu hiệu ban đầu cho thấy sứ mệnh ARC-AGI-2 vẫn cực kỳ khó khăn đối với mô hình này.
Điều này cho thấy vẫn có thể tạo ra một số tiêu chí đánh giá đơn giản, thú vị, không liên quan đến kiến thức chuyên môn của con người nhưng AI lại khó hoàn thành.
Khi chúng ta không thể tạo ra những tiêu chí đánh giá như vậy thì chúng ta thực sự có trí tuệ nhân tạo tổng hợp (AGI).
Tóm lại, thay vì tập trung làm cho AI đạt được điểm cao trong các bài kiểm tra khác nhau do con người thiết kế, tốt hơn nên nghĩ đến việc làm thế nào để AI phục vụ tốt hơn nhu cầu thực tế của xã hội loài người. Đây có thể là khía cạnh có ý nghĩa nhất để đánh giá sự tiến bộ của loài người. AI.