Sóng AI
Writer

Nghiên cứu từ đại học Edinburgh tiết lộ các mô hình AI hiện đại vẫn gặp khó khăn với nhiệm vụ cơ bản: đọc thời gian.
Các nhà nghiên cứu đã kiểm tra bảy mô hình ngôn ngữ lớn đa phương thức (multimodal) nổi tiếng bao gồm GPT-4o, GPT-o1 (OpenAI), Gemini 2.0 (Google DeepMind), Claude 3.5 Sonnet (Anthropic), Llama 3.2-11B-Vision-Instruct (Meta), Qwen2-VL7B-Instruct (Alibaba) và MiniCPM-V-2.6 (ModelBest).
Nghiên cứu sẽ chính thức công bố vào tháng 4, hiện đã có trên máy chủ preprint arXiv.
Các nhà nghiên cứu đã thử nghiệm khả năng của AI bằng cách cho chúng xem hình ảnh đồng hồ kim với các kiểu dáng khác nhau (số La Mã, màu sắc mặt đồng hồ khác nhau, thiếu kim giây) và hình ảnh lịch trong 10 năm.
Đối với hình ảnh đồng hồ, họ hỏi các mô hình về thời gian hiển thị trên đồng hồ.
Đối với hình ảnh lịch, họ đặt câu hỏi đơn giản như "ngày đầu năm mới rơi vào thứ mấy?" và câu hỏi khó hơn như "ngày thứ 153 trong năm là ngày nào?".
Kết quả cho thấy, các hệ thống AI đọc đúng thời gian trên đồng hồ kim chưa đến 25% thời gian.
Các AI gặp khó khăn với đồng hồ có số La Mã và kim trang trí, cũng như đồng hồ thiếu kim giây, cho thấy vấn đề có thể nằm ở việc phát hiện kim đồng hồ và diễn giải góc trên mặt đồng hồ.
Gemini-2.0 của Google đạt điểm cao nhất trong bài kiểm tra đồng hồ, trong khi GPT-o1 chính xác trong bài kiểm tra lịch 80% thời gian - kết quả tốt hơn nhiều so với đối thủ.
Tuy nhiên, ngay cả MLLM thành công nhất trong nhiệm vụ lịch vẫn mắc lỗi khoảng 20% thời gian.
Rohit Saxena, đồng tác giả nghiên cứu, nhấn mạnh sự chênh lệch đáng kể giữa khả năng của AI và con người trong các kỹ năng cơ bản này.
Các nhà nghiên cứu kết luận rằng những thiếu sót này cần được khắc phục nếu hệ thống AI muốn được tích hợp thành công vào các ứng dụng thực tế nhạy cảm về thời gian như lập lịch, tự động hóa và công nghệ hỗ trợ.

Nguồn: Songai.vn