IQ vượt 99,9% con người, ChatGPT thông minh cỡ nào?

VNR Content · 15/04/2023

Trong hai tháng qua, ChatGPT đã khơi dậy những cuộc thảo luận sôi nổi trong giới học thuật, công nghệ và truyền thông. Chỉ mất 5 ngày để con robot trò chuyện trí tuệ nhân tạo được mệnh danh là mạnh nhất thế giới này đã vượt mốc 1 triệu người dùng, trở thành ứng dụng đạt một triệu người dùng nhanh nhất thế giới.
ChatGPT không chỉ có thể nói chuyện với bạn mà còn có thể hoàn thành hàng loạt tác vụ cơ bản như viết email, kịch bản video, viết quảng cáo, dịch thuật liên quan đến lịch sử, công nghệ, văn hóa và nhiều lĩnh vực khác, thậm chí có thể viết thơ, viết báo, viết mã và sửa lỗi, tìm kiếm lời khuyên y tế… Một số người không khỏi hoang mang rằng con người cuối cùng sẽ bị trí tuệ nhân tạo thay thế. Vậy, ChatGPT, rất phổ biến hiện nay, có IQ và mức độ tinh thần giống như con người không?

IQ vượt 99,9% con người, ChatGPT thông minh cỡ nào?

Eka Roivainen là nhà tâm lý học đánh giá tại Bệnh viện Đại học Oulu, Phần Lan. Lĩnh vực nghiên cứu của ông bao gồm tâm lý học nhận thức và tính cách cũng như giá trị của các bài kiểm tra tâm lý. Sau khi tìm hiểu về các kỹ năng khác nhau của con người mà ChatGPT sở hữu, Roivainen không khỏi thắc mắc: ChatGPT thông minh đến mức nào theo tiêu chuẩn của con người?

Vượt xa 99,9% con người: ChatGPT cho thấy IQ siêu cao

Vì vậy, Roivainen bắt đầu kiểm tra chỉ số IQ của ChatGPT. Ông ấy nói rằng ChatGPT rất phù hợp để làm đối tượng kiểm tra, nó không những không thể hiện sự lo lắng, thiếu tập trung hay bỏ rơi trong bài kiểm tra mà còn không đặt câu hỏi cho bài kiểm tra IQ và người kiểm tra.
Roivainen đã tiến hành kiểm tra IQ trên ChatGPT bằng cách sử dụng phiên bản thứ ba của thang đo trí thông minh dành cho người lớn Wechsler (WAIS). Thang điểm bao gồm 6 nhóm tiểu kiểm tra ngôn ngữ và 5 nhóm tiểu kiểm tra phi ngôn ngữ, và điểm cuối cùng của bài kiểm tra IQ dựa trên điểm của tất cả 11 nhóm tiểu kiểm tra. Chỉ số IQ trung bình được đặt ở mức 100 và độ lệch chuẩn của thang đo kiểm tra là 15, nghĩa là 10% và 1% thông minh nhất có chỉ số IQ lần lượt là 120 và 133. Trong 6 bộ kiểm tra ngôn ngữ, bộ kiểm tra phụ thứ 6 là digital span, đánh giá khả năng chú ý và trí nhớ ngắn hạn, do không thể hiển thị lên ChatGPT dưới dạng văn bản nên không thực hiện kiểm tra này trên ChatGPT. Ông ấy bắt đầu với bài kiểm tra IQ ChatGPT từ bộ bài kiểm tra phụ từ vựng. Vì ChatGPT đã được đào tạo trên một lượng lớn văn bản trực tuyến, Roivainen mong rằng bài kiểm tra ChatGPT sẽ tương đối dễ dàng (bộ bài kiểm tra từ vựng kiểm tra sự hình thành từ, khái niệm ngôn ngữ).
Đúng như dự đoán, ChatGPT hoạt động tốt và các câu trả lời mà nó đưa ra thường rất chi tiết và toàn diện, thậm chí vượt quá tiêu chuẩn về câu trả lời đúng được đưa ra trong sách hướng dẫn kiểm tra. ChatGPT cũng đạt điểm cao nhất trong bộ bài kiểm tra kiến thức và sự tương đồng (bộ bài kiểm tra kiến thức phụ là bài kiểm tra kiến thức chung phản ánh trí tò mò, trình độ học vấn và khả năng học và ghi nhớ sự kiện). Bộ phép thử tương đồng kiểm tra khả năng lập luận trừu tượng và khả năng hình thành khái niệm. Trong bài kiểm tra phụ này, các chatbot có xu hướng đưa ra các câu trả lời rất chi tiết và phức tạp. Trong bộ kiểm tra phụ số học, ChatGPT đã trả lời đúng tất cả các câu hỏi số học được cung cấp, bao gồm cả việc lấy giá trị trung bình...
Sau khi kết hợp điểm của năm bộ kiểm tra phụ ngôn ngữ, ChatGPT có chỉ số IQ ngôn ngữ là 155, cao hơn 99,9% trong số 2450 người tạo nên mẫu chuẩn WAIS III ở Hoa Kỳ. Vì ChatGPT thiếu mắt, tai và tay cần thiết nên nó không thể tham gia vào bộ kiểm tra phụ phi ngôn ngữ WAIS. Nhưng trong các mẫu được chuẩn hóa, thang đo IQ bằng lời nói và IQ toàn cầu có mối tương quan cao, vì vậy ChatGPT khá thông minh theo bất kỳ tiêu chuẩn nào của con người. Trong mẫu tiêu chuẩn hóa của WAIS, chỉ số IQ lời nói trung bình của người Mỹ có trình độ đại học là 113, với 5% đạt 132 hoặc cao hơn. Roivainen cho biết bài kiểm tra IQ bằng lời nói ở trường đại học không đạt mức ChatGPT.

ChatGPT có IQ cao vẫn fail

Vì vậy, liệu công việc của các nhà tâm lý học lâm sàng và các chuyên gia khác có bị đe dọa bởi trí tuệ nhân tạo?
Mặc dù có chỉ số IQ cao, ChatGPT nổi tiếng là thất bại trong các nhiệm vụ đòi hỏi khả năng suy luận hoặc hiểu biết thực sự của con người về thế giới vật chất và xã hội.
ChatGPT có thể dễ dàng thất bại trong một số câu đố rõ ràng, chẳng hạn như:
Hỏi: "Tên cha của đứa trẻ Sebastian là gì?"
ChatGPT: Xin lỗi, tôi không thể trả lời câu hỏi này vì tôi không có đủ thông tin cơ bản để chắc chắn bạn đang đề cập đến Sebastian nào.
ChatGPT dường như không suy luận logic, thay vào đó cố gắng dựa vào cơ sở dữ liệu khổng lồ về "Sebastian" được đề cập trong các văn bản web.
Bài kiểm tra IQ là một phép đo lường cổ điển về chỉ số IQ bắt nguồn từ một bài luận năm 1923 của nhà tâm lý học nhận thức tiên phong Edwin Boring. Định nghĩa này dựa trên quan sát rằng các kỹ năng có vẻ như là các nhiệm vụ khác nhau trên thực tế lại có mối tương quan cao, chẳng hạn như giải câu đố, định nghĩa từ, ghi nhớ các con số và tìm các mục còn thiếu trong tranh. Người phát minh ra phân tích nhân tố, Charles Spearman, đã kết luận vào năm 1904 rằng một nhân tố chung của chỉ số IQ, nhân tố g, phải là cơ sở cho sự nhất quán trong việc đo lường các kỹ năng nhận thức khác nhau ở con người. Các bài kiểm tra IQ như WAIS dựa trên giả định này. Tuy nhiên, chỉ số IQ ngôn ngữ cao của ChatGPT và sự thất bại trong một số vấn đề có nghĩa là định nghĩa về IQ của Boring không thể đo lường đầy đủ mức độ IQ của trí tuệ nhân tạo, cho thấy rằng một số khía cạnh của IQ không thể đo lường chỉ bằng các bài kiểm tra IQ.
ChatGPT là một mô hình xử lý ngôn ngữ tự nhiên, chỉ số IQ của nó khác với chỉ số IQ của con người vì nó không có cảm xúc, đạo đức, giá trị và các yếu tố khác giống con người. Bằng cách mô phỏng mẫu ngôn ngữ của con người, ChatGPT có thể thực hiện các tác vụ như tạo văn bản, hiểu ngôn ngữ, trả lời câu hỏi... và có thể thể hiện "trí thông minh" và "sự hiểu biết" ấn tượng trong một số trường hợp. Ngoài ra, hiệu suất của ChatGPT cũng phụ thuộc vào nhiều yếu tố khác nhau, chẳng hạn như dữ liệu đào tạo và thuật toán đào tạo mà nó nhận được và nó không có khả năng suy nghĩ độc lập. So sánh "IQ" của ChatGPT với con người là một phép loại suy không phù hợp. Do đó, điều quan trọng là phải mở rộng và mở rộng khái niệm IQ một cách thích hợp để thích ứng với môi trường công nghệ và xã hội đang thay đổi. Chỉ số IQ của các đối tượng không phải con người, chẳng hạn như động vật và trí tuệ nhân tạo, cũng đòi hỏi các phương pháp đánh giá phù hợp và đánh giá nghiêm ngặt về khả năng và đặc điểm của chúng.

ChatGPT cách con người bao xa?

Chưa đầy một tháng trước, Giáo sư Michal Kosinski từ Đại học Stanford đã xuất bản một bài báo cho thấy một hệ thống mô hình ngôn ngữ lớn có thể tự động tạo ra một lý thuyết về khả năng trí óc, chẳng hạn như ChatGPT có thể có lý thuyết về khả năng trí óc của một đứa trẻ 9 tuổi.
Lưu ý: Khả năng Theory of Mind (ToM), đôi khi được dịch là "khả năng suy luận tinh thần", thường đề cập đến khả năng hiểu được trạng thái bên trong của người khác, bao gồm suy luận ý định, niềm tin, cảm xúc của người khác...
Dựa trên nghiên cứu về lý thuyết tâm trí, Giáo sư Kosinski đã tiến hành hai thử nghiệm cổ điển trên chín mẫu ChatGPT bao gồm ChatGPT-3.5 và so sánh khả năng của chúng. Bài kiểm tra đầu tiên là bài kiểm tra nội dung bất ngờ, chủ yếu kiểm tra khả năng phán đoán những điều bất ngờ của AI. Trong thử nghiệm, ChatGPT-3.5 đã trả lời thành công 17 trên 20 câu hỏi với tỷ lệ chính xác là 85%. Bài kiểm tra thứ hai, nhiệm vụ chuyển giao bất ngờ, kiểm tra khả năng của AI trong việc dự đoán suy nghĩ của người khác. Tác giả đã thử nghiệm 9 mẫu ChatGPT, kết quả cho thấy chỉ có ChatGPT-3.0 và ChatGPT-3.5 (hoàn thành 100%) hoạt động tốt.
Tuy nhiên, điều này không có nghĩa là các mô hình trí tuệ nhân tạo như ChatGPT-3.5 thực sự có khả năng về lý thuyết tâm trí. ChatGPT chỉ hiểu vấn đề này ở mức độ “thực luật” mới có thể trả lời đúng câu hỏi, hay có thể thực sự “hiểu được suy nghĩ của người khác”? Ít nhất là chưa. Có lẽ chính con người cho đến bây giờ vẫn chưa thể thực sự hiểu được tâm trí con người.
Do đó, vẫn có những nghi ngờ về việc liệu ChatGPT có "thực sự" có mức IQ và mức độ tinh thần giống như người lớn hay không. ChatGPT sử dụng chế độ tư duy phi con người để tạo văn bản. Nó tìm kiếm các quy luật thống kê trong văn bản bao gồm 500 tỷ từ và nắm bắt các mẫu thống kê thông qua 100 tỷ tham số, nhưng phương pháp này cũng làm cho nó trong một số vấn đề. Lỗi trở nên nổi bật hơn.
Thay vì khám phá liệu ChatGPT có thực sự có cùng mức IQ hay trí lực của con người hay không, các nhà nghiên cứu cũng nên suy nghĩ về tính hợp lệ của các bộ kiểm tra hiện đang được sử dụng và kết luận mà các nhà tâm lý học đã rút ra dựa trên các bộ kiểm tra này trong nhiều thập kỷ.
Đối với nỗi sợ bị "trí tuệ nhân tạo thay thế" của mọi người, chúng ta nên nhận ra rằng ngành công nghiệp của chúng ta không bị "thay thế" mà đang được "định hình lại", và chúng ta nên học cách chung sống với trí tuệ nhân tạo và để nó tự nhúng vào quy trình làm việc, giúp giải phóng năng suất của chúng tôi.