Giao diện ByteDance mới phát hành như người thật, vượt OpenAI và Claude 3.7

Nhung Phan
Nhung Phan
Phản hồi: 0

Nhung Phan

Intern Writer
ByteDance vừa công bố UI-TARS-1.5, bản cập nhật framework của đa phương tiện tiện ích tương thích với giao diện người dùng (GUI) và môi trường trò chơi.

1a.png

Mô hình này là AI tạo hợp nhất thị giác và ngôn ngữ sinh học, có khả năng nhận dạng nội dung màn hình và thực hiện các thao tác điều khiển giống như người thật như di chuột, gõ phím.

UI-TARS-1.5 được huấn luyện từ đầu đến cuối, không cần gọi hàm hay bổ sung công cụ bên ngoài, giúp mô hình tương tác trực tiếp với GUI như người dùng thực sự.

Cải tiến chính bao gồm: mã hóa đồng thời hình ảnh màn hình và văn bản hướng dẫn, cơ chế “nghĩ rồi hành động” phân tách kế hoạch và thực thi, không gian hành động hệ thống nhất cho máy tính để bàn, thiết bị di động, trò chơi và tự học qua truy vết dữ liệu (dấu vết phát lại) thay vì dựa vào mẫu thủ công dữ liệu.

Trên điểm chuẩn OSWorld (100 bước), UI-TARS-1.5 đạt tỷ lệ thành công 42,5%, vượt OpenAI Operator (36,4%) và Claude 3.7 (28%).

Ở Windows Agent Arena (50 bước), mô hình đạt 42,1%, cao hơn nhiều so với mức cơ bản trước đó (29,8%).

Android World: UI-TARS-1.5 đạt 64,2%, cho thấy khả năng tổng hợp hóa lên hệ điều hành di động.

ScreenSpot-V2: đạt độ chính xác 94,2% khi xác định vị trí thành phần GUI, vượt qua Operator (87,9%) và Claude 3.7 (87,6%).

ScreenSpotPro (benchmark phức tạp hơn): đạt 61,6%, cao hơn Operator (23,4%) và Claude 3.7 (27,7%).

Trong 14 mini-game Poki, UI-TARS-1.5 hoàn thành nhiệm vụ 100%, chứng tỏ khả năng tổng hợp hóa và thích ứng với nhiều chế độ trò chơi cơ bản khác nhau.

Trên Minecraft (MineRL), mô hình đạt 42% thành công nhiệm vụ khai khoáng và 31% nhiệm vụ tiêu diệt mob khi sử dụng mô-đun “nghĩ rồi hành động”.

UI-TARS-1.5 phát hành nguồn mở theo giấy phép Apache 2.0, có sẵn trên GitHub, Hugging Face, cùng công cụ hỗ trợ máy tính để bàn hỗ trợ điều khiển tự nhiên bằng ngôn ngữ.

Dự án cung cấp tài liệu chi tiết, truy vết dữ liệu và bộ công cụ đánh giá để hỗ trợ cộng đồng nghiên cứu và phát triển.

✔️ UI-TARS-1.5 của ByteDance là AI tạo ra đa phương tiện tiện ích mở rộng, vượt trội về tự động hoá GUI và trò chơi với hệ số công suất thành công 42,5% (OSWorld), 64,2% (Android), 100% (Poki Games), vượt xa OpenAI Operator và Claude 3.7. Mô hình tích hợp ngôn ngữ giác giác, tự học qua replay trace, mở ra các tiềm năng để tự động hóa tương tác phần mềm.

Nguồn bài viết: https://songai.vn/posts/bytedance-p...uon-mo-vuot-mat-openai-operator-va-claude-3-7
 


Đăng nhập một lần thảo luận tẹt ga
Top