Trình làng OpenAI Operator: "AI lướt web hộ" hứa hẹn là bước tiến mới của trí tuệ nhân tạo

Dũng Đỗ · 15:58 Hôm qua

OpenAI vừa ra mắt Operator, một "tác nhân AI" có khả năng tự động hóa các tác vụ trên web. Liệu đây có phải là bước đột phá thực sự hay chỉ là một tính năng hào nhoáng khiến con người ngày càng lười biếng?

homescreenshopping-17379433955081273406019-1738120226338-1738120226529672070589_png_75.jpg

Operator - "Người đại diện" AI trên không gian mạng

Hôm thứ Năm vừa qua, OpenAI đã giới thiệu Operator, một tác nhân AI (AI Agent) được thiết kế để tự động hóa các tác vụ trên web. Operator sử dụng mô hình AI mới mang tên Computer-Using Agent (CUA) để tương tác với máy tính thông qua giao diện trực quan, thực hiện các tác vụ bằng cách "nhìn" và "tương tác" với các thành phần trên màn hình như nút bấm, trường văn bản, tương tự như cách con người vẫn làm.

screenshot-from-2024-11-14-09-16-17-17379435056801161230530-1738120228179-17381202283081527389...jpg

Hiện tại, Operator được cung cấp dưới dạng bản xem trước nghiên cứu cho người dùng ChatGPT Pro với mức phí 200 USD/tháng. OpenAI có kế hoạch tích hợp tính năng này vào ChatGPT và sau đó phát hành CUA thông qua API cho các nhà phát triển.

AI "lướt web hộ" - Vì sao lại cần?

Mặc dù nghe có vẻ đơn giản, nhưng tự động hóa các tác vụ web lặp đi lặp lại có thể tiết kiệm đáng kể thời gian và giảm thiểu lỗi của con người. Ví dụ, Operator có thể giúp người dùng:

Tạo danh sách mua sắm: Dựa trên thói quen mua sắm, quét email/tin nhắn để phát hiện nhu cầu mua hàng, so sánh giá cả và đề xuất nơi mua tiết kiệm nhất.
Quản lý tài chính cá nhân: Thu thập dữ liệu từ các ứng dụng ngân hàng, ví điện tử, phân loại chi tiêu, tạo báo cáo và đề xuất các khoản tiết kiệm.
Thực hiện các tác vụ văn phòng: Tìm kiếm thông tin, soạn thảo văn bản, sắp xếp lịch họp,...

Operator hoạt động ra sao?

CUA, "bộ não" của Operator, hoạt động dựa trên việc chụp ảnh màn hình, phân tích hình ảnh để hiểu ngữ cảnh, sau đó đưa ra quyết định về các thao tác như nhấp chuột, gõ phím, cuộn trang. Vòng lặp này cho phép hệ thống tự sửa lỗi và xử lý các tác vụ phức tạp.

1-openai-introduces-operator-an-ai-agent-to-operate-computers-source-iartificialblog-173794353...jpg

Tuy nhiên, hiệu suất của Operator vẫn còn hạn chế. Theo OpenAI, Operator đạt tỷ lệ thành công 87% trên WebVoyager (bộ công cụ kiểm tra các trang web thực tế) và 58,1% trên WebArena (trang web offline dùng để huấn luyện AI). Đối với các tác vụ hệ điều hành, tỷ lệ thành công chỉ đạt 38,1%.

Cuộc đua "tác nhân AI" đang nóng lên

OpenAI không phải là công ty duy nhất tham gia vào lĩnh vực này. Google đã công bố Project Mariner, cho phép tự động hóa các tác vụ trên trình duyệt Chrome. Anthropic cũng ra mắt công cụ tự động hóa web "Computer Use" dành cho nhà phát triển.

Thị trường tác nhân AI được dự đoán sẽ bùng nổ trong những năm tới, hứa hẹn mang lại giá trị kinh tế khổng lồ.

Vấn đề bảo mật và quyền riêng tư

Mặc dù OpenAI đã tích hợp các biện pháp kiểm soát an toàn và quyền riêng tư, nhưng vẫn còn nhiều lo ngại về khả năng Operator bị tấn công hoặc lạm dụng thông tin người dùng.

Operator là một bước tiến đầy hứa hẹn trong lĩnh vực trí tuệ nhân tạo tạo sinh. Tuy nhiên, vẫn còn nhiều thách thức cần vượt qua trước khi tác nhân AI có thể trở nên phổ biến và đáng tin cậy.