Derpy
Intern Writer
Bạn có bao giờ ước có một "trợ lý" đủ thông minh để giải quyết những tác vụ nhàm chán trên máy tính, trong khi mình thảnh thơi làm việc khác không? Tưởng tượng mà xem, một ngày nọ, gói hàng mua online của bạn bị thất lạc, bạn liên hệ tổng đài và hệ thống báo phải chờ đến 25 phút. Thay vì dán mắt vào màn hình hay cứ vài phút lại chuyển tab kiểm tra, một kỹ sư trải nghiệm phát triển mới gia nhập OpenAI, Jason Liu, đã chọn một giải pháp khác. Anh ấy giao phó việc này cho Codex.
Chỉ thị rất đơn giản: cứ 5 phút kiểm tra cửa sổ chat một lần; nếu nhân viên hỗ trợ trực tuyến, chuyển sang kiểm tra mỗi phút một lần; và cố gắng giúp anh ấy hoàn tất việc hoàn tiền. Sau đó, Jason đi tắm. Khi anh ấy quay lại, Codex đã xử lý xong xuôi việc hoàn tiền. Toàn bộ quá trình không cần viết một dòng mã nào, một tác nhân AI đã âm thầm làm việc, tương tác với hệ thống chăm sóc khách hàng và đòi lại tiền cho chúng ta.
Ngoài việc thay thế con người trò chuyện với tổng đài, Codex còn có thể trực tiếp điều khiển điện thoại của chúng ta thông qua tính năng iPhone Mirroring, giúp các nhà phát triển dễ dàng tái hiện lỗi trong một ứng dụng. Nó có thể quét tin nhắn và tin tức mỗi sáng, lưu trữ những thông tin quan trọng vào thư viện ghi chú; thậm chí mở một trình chỉnh sửa nhạc trực tuyến, viết lại hòa âm và cấu trúc của cả một bản nhạc, điều chỉnh nhịp điệu, lưu lại và để nó tiếp tục phát. Tất cả những điều này đều là khả năng mà OpenAI đang tập trung phát triển trên Codex: giúp AI thực sự có thể thao tác trên máy tính.
Theo chia sẻ từ kỹ sư Jason Liu của OpenAI, Codex hiện có ba khả năng chính để điều khiển máy tính: Computer Use, Chrome Extension và In-app Browser. Nghe có vẻ hơi phức tạp và chức năng có thể chồng chéo, nhưng nhiều người khi mới nghe đến sẽ thắc mắc: tại sao một tác nhân AI lại cần đến ba hệ thống để điều khiển máy tính?
Thực chất, dù cả ba đều cho phép Codex tiếp quản máy tính, nhưng Browser, Chrome và Computer Use đại diện cho một hệ thống phân quyền hành động mà OpenAI đã thiết kế cho các tác nhân AI. Mỗi chế độ hoạt động có những kịch bản phù hợp riêng. Chẳng hạn, nếu có thể dùng plugin thì không nên click vào trang web, nếu có thể gọi API trực tiếp thì đừng để AI dùng cách nhận diện màn hình để thao tác giao diện.
Hãy hình dung thế này: nếu một ứng dụng như Zalo cung cấp giao diện lập trình ứng dụng (API) cho tác nhân AI, thì việc gửi tin nhắn chỉ cần thực hiện một hàm duy nhất. Nhưng nếu không có API, Codex sẽ phải mở Zalo, tìm tin nhắn, chọn người liên hệ, nhấp vào ô nhập liệu, sao chép nội dung rồi nhấn gửi. Về kết quả, cả hai cách đều hoàn thành cùng một việc, nhưng về hiệu quả và độ tin cậy thì hoàn toàn khác biệt. Vì vậy, trong thiết kế của OpenAI, Computer Use giống như một giải pháp "chữa cháy" cuối cùng. Để hiểu rõ hơn khi nào nên dùng Computer Use và khi nào dùng Chrome để điều khiển máy tính, chúng ta hãy cùng tìm hiểu ba chế độ ủy quyền này.
Computer Use: Cánh cửa rộng nhất
Đây là khả năng "lớn" nhất của Codex. Nó có thể "nhìn" màn hình, thao tác gần như mọi giao diện đồ họa, sử dụng bàn phím, menu, clipboard và tương tác với các ứng dụng mà chúng ta đã cấp quyền. Ngay cả những phần mềm không có API, nó vẫn có thể sử dụng, hoàn toàn dựa vào việc "nhìn màn hình và tự phán đoán nên nhấp vào đâu".
Tuy nhiên, cái giá phải trả là tốc độ chậm. Một plugin có cấu trúc có thể gọi trực tiếp một API; Computer Use phải nhận diện giao diện, phán đoán vị trí nhấp, chờ ứng dụng phản hồi, rồi mới xem màn hình tiếp theo. Chu trình thị giác này tốn rất nhiều thời gian. Vậy chậm thì có ích gì? Nó hữu dụng nhất cho những nơi chỉ có giao diện đồ họa mà không có API. Hơn nữa, trên máy Mac, chậm không hẳn là vấn đề, vì nó có thể hoạt động âm thầm trong nền, thao tác các ứng dụng được ủy quyền. Trong khi nó làm việc, chúng ta có thể làm việc khác, và khi quay lại, nó đã hoàn thành một quy trình nào đó. Vụ hoàn tiền ban đầu chính là một ví dụ điển hình: để Codex từ từ tìm cách trò chuyện với tổng đài trong khi Jason đi tắm.
Nhưng khi chúng ta rời đi, cũng có thể cảm thấy không yên tâm, bởi đây là ranh giới tin cậy rộng nhất trong ba chế độ, chúng ta gần như giao toàn bộ quyền kiểm soát máy tính cho AI. OpenAI cũng liên tục nhắc nhở rằng chỉ nên giao cho nó một ứng dụng hoặc quy trình cụ thể, đóng các phần mềm nhạy cảm không liên quan. Đối với các thao tác liên quan đến tiền bạc, tài khoản, mật khẩu, quyền riêng tư hay an ninh hệ thống, chúng ta vẫn nên ở bên cạnh giám sát.
Ứng dụng tuyệt vời nhất của Computer Use có lẽ là để "bù đắp". Hầu hết các tác nhân AI hiện nay đều có thể kết nối với các phần mềm bên thứ ba như Gmail hay Slack. Codex cũng có thể đọc phản hồi từ Slack, sửa mã, kết xuất lại video. Nhưng khi công cụ tích hợp của Slack không thể tải tệp lên, Computer Use sẽ "ra tay", nhấp vào "thêm tệp" để hoàn thành bước đó.
Các kỹ sư OpenAI khuyên rằng nên sử dụng Computer Use khi nhiệm vụ phụ thuộc vào các trường hợp sau:
* Các ứng dụng desktop gốc như Spotify hoặc ứng dụng tài chính.
* Trình giả lập iOS, iPhone Mirroring hoặc các quy trình chỉ có giao diện đồ họa (GUI).
* Cài đặt hệ thống hoặc ứng dụng.
* Nguồn dữ liệu không có plugin hoặc API.
* Quy trình làm việc chuyển đổi giữa nhiều ứng dụng.
* Thiếu một bước trong các tích hợp có cấu trúc hữu ích khác.
Chrome Extension: Cánh cửa mang danh tính của bạn
Đây là cánh cửa hẹp hơn một chút, nó tiếp quản trình duyệt mà chúng ta đã đăng nhập. Trước đây, khi tác nhân AI được yêu cầu tìm kiếm gì đó trên X (Twitter cũ), thường báo lỗi thiếu thông tin xác thực. Chrome Extension giải quyết vấn đề này. Cookie, cấu hình, trạng thái đăng nhập, các tab đang mở – tất cả đều có thể được sử dụng. Vì vậy, các tác vụ yêu cầu đăng nhập để truy cập thông tin web như Gmail, LinkedIn, Salesforce hay các hệ thống nội bộ của công ty, đều có thể giao cho Chrome Extension xử lý.
Điểm khác biệt quan trọng là do Chrome Extension sử dụng trình duyệt với danh tính của chúng ta, trang web sẽ coi các cú nhấp chuột, gửi biểu mẫu, gửi tin nhắn của nó như thể chính chúng ta đang thao tác. Khả năng mạnh hơn, nhưng rủi ro cũng lớn hơn.
Jason Liu đã đưa một trang soạn nhạc trực tuyến đang mở cho Codex và yêu cầu nó "làm cho bản nhạc thú vị hơn". Chrome Extension sẽ tự động chuyển tab đó cùng với các công cụ có sẵn trên trang cho Codex. Nó đọc toàn bộ bản nhạc, viết lại hòa âm, thay đổi cấu trúc 4 phút của bản nhạc, điều chỉnh tốc độ, lưu lại và cuối cùng là để nó tiếp tục phát. Từ việc sửa đổi bản phối đến phát nhạc hoàn hảo, Codex không hề tìm kiếm nút bấm một cách lộn xộn, bởi vì nó có thể kết hợp ngữ cảnh của tab và khả năng mà trang web cung cấp.
Jason cũng đề cập đến một trường hợp khác khi sử dụng Chrome Extension là để theo dõi một chuỗi bài đăng dài trên Twitter được cập nhật thường xuyên. Chỉ thị đại loại là: "Mỗi ngày dùng Chrome kiểm tra tin nhắn riêng, đọc tin tức liên quan, tìm kiếm phản hồi và đề cập đáng chú ý, lưu trữ những gì có thể đúc kết vào thư viện ghi chú, nhưng đừng đăng bài hay gửi tin nhắn." Codex có thể mở Twitter, và điều thú vị hơn là nhiệm vụ này có thể lặp đi lặp lại mỗi ngày trong cùng một trạng thái đăng nhập, kết nối những gì tìm thấy với tệp cục bộ của chúng ta, và cuối cùng cung cấp một kết quả có thể kiểm tra lại.
Vì vậy, nếu toàn bộ công việc diễn ra trong trình duyệt, hãy ưu tiên sử dụng Chrome Extension. Anh ấy cũng đề cập rằng giao diện lý tưởng cho các nhiệm vụ sử dụng Chrome Extension là:
* Gmail hoặc LinkedIn.
* Salesforce hoặc bảng điều khiển hỗ trợ.
* Bảng điều khiển nội bộ.
* Nghiên cứu chuyên sâu trên nhiều trang web.
* Các biểu mẫu phụ thuộc vào tài khoản hoặc tiện ích mở rộng trình duyệt của bạn.
In-app Browser: Cánh cửa sạch sẽ và cô lập
Đây là cánh cửa hẹp nhất, nó nằm ngay trong cuộc hội thoại của Codex, chúng ta và nó cùng nhìn vào một trang được hiển thị. Điểm quan trọng nhất là sự cô lập: trình duyệt trong ứng dụng sẽ không sử dụng cấu hình trình duyệt thông thường của chúng ta, không có cookie, không có plugin và không có trạng thái đăng nhập.
Vì vậy, đối với việc phát triển cục bộ, gỡ lỗi ứng dụng web, tái hiện lỗi hiển thị, hoặc kiểm tra bố cục đáp ứng (responsive layout), trình duyệt trong ứng dụng có lẽ là tiện lợi nhất. Nó có thể trực tiếp sửa mã, thao tác trang, xem kết quả hiển thị, chụp màn hình, sửa xong tự chạy lại cho đến khi đạt được kết quả mong muốn.
Điều thú vị nhất là khả năng chú thích. Dù là Vibe Coding hay hoàn thành các dự án thực tế, khi chúng ta xem xét một trang cục bộ, chúng ta có thể trực tiếp nhấp vào một phần tử hoặc khoanh một khu vực, để lại một câu nhận xét như: "Cấp độ này bị ngược rồi", "Chỗ này đừng làm thành thẻ", "Các điều khiển này cần nới lỏng hơn một chút". Codex sẽ nhận được bình luận kèm ảnh chụp màn hình và ngữ cảnh của phần tử, sửa tệp, rồi mở lại trang đó cho chúng ta xem phiên bản tiếp theo.
Sự khác biệt giữa Browser Use và Chrome Use nằm ở trạng thái đăng nhập, điều này khiến Browser Use phù hợp hơn trong giai đoạn phát triển. Chúng ta có thể trực tiếp chỉ vào một vị trí nào đó và nói với Codex, giống như với đồng nghiệp, thay vì phải gửi đi gửi lại ảnh chụp màn hình và văn bản. Bản thân trang web trở thành tài liệu yêu cầu.
Tuy nhiên, cái giá của sự cô lập là trình duyệt tích hợp trong Codex gần như không thể xử lý việc đăng nhập Google, passkey, hoặc các trang web phụ thuộc vào tiện ích mở rộng trình duyệt của chúng ta.
Theo tóm tắt của Jason trong bài viết, trình duyệt trong ứng dụng đặc biệt phù hợp để xây dựng và gỡ lỗi ứng dụng web:
* Máy chủ phát triển cục bộ.
* Xem trước được hỗ trợ bởi tệp.
* Các trang công khai không yêu cầu đăng nhập.
* Tái hiện lỗi hiển thị.
* Kiểm tra bố cục đáp ứng.
* Để lại phản hồi thiết kế cấp độ phần tử.
Ngoài ba khả năng này, các kỹ sư OpenAI còn đề cập đến một tính năng thứ tư liên quan đến việc sử dụng máy tính là Appshots. Chúng ta đã từng giới thiệu tính năng này: trên macOS, trong bất kỳ tình huống nào, chỉ cần nhấn đồng thời hai phím Command ở hai bên phím cách, ảnh chụp màn hình cửa sổ và thông tin ngữ cảnh của cửa sổ sẽ tự động được gửi đến Codex. Jason đặc biệt nhấn mạnh tính năng này để nói rằng Appshots chịu trách nhiệm "chỉ dẫn", còn Browser, Chrome và Computer Use chịu trách nhiệm "thực hiện".
Ban đầu, khi nghĩ đến "AI sử dụng máy tính", hình ảnh hiện lên trong đầu chúng ta có lẽ là AI di chuyển chuột, gõ bàn phím, nhấp từng chút một như con người. Cứ như thể AI càng giống con người thao tác máy tính thì càng mạnh mẽ. Nhưng thực tế tốt nhất của OpenAI lại chỉ ra hướng ngược lại: việc nhấp chuột như con người là cách chậm nhất, dễ vỡ nhất và có chi phí tin cậy cao nhất. Điều thực sự mong muốn là cung cấp cho tác nhân AI đủ các giao diện có cấu trúc, để nó không cần phải nhấp chuột.
Cái điều trông có vẻ giống nhất với "AI cuối cùng đã biết dùng máy tính", việc điều khiển bằng thị giác , lại chính là một phần "chữa cháy" trong toàn bộ hệ thống. Khi các công cụ có cấu trúc không hoạt động, đó mới là lúc nó được sử dụng.
Tóm lại, để làm việc giữa các ứng dụng, hãy dùng Computer Use. Để làm việc với các trang web cần danh tính/trạng thái đăng nhập, hãy dùng Chrome Extension. Còn với các tác vụ web độc lập, sạch sẽ, hãy dùng In-app Browser.
Chỉ thị rất đơn giản: cứ 5 phút kiểm tra cửa sổ chat một lần; nếu nhân viên hỗ trợ trực tuyến, chuyển sang kiểm tra mỗi phút một lần; và cố gắng giúp anh ấy hoàn tất việc hoàn tiền. Sau đó, Jason đi tắm. Khi anh ấy quay lại, Codex đã xử lý xong xuôi việc hoàn tiền. Toàn bộ quá trình không cần viết một dòng mã nào, một tác nhân AI đã âm thầm làm việc, tương tác với hệ thống chăm sóc khách hàng và đòi lại tiền cho chúng ta.
Ngoài việc thay thế con người trò chuyện với tổng đài, Codex còn có thể trực tiếp điều khiển điện thoại của chúng ta thông qua tính năng iPhone Mirroring, giúp các nhà phát triển dễ dàng tái hiện lỗi trong một ứng dụng. Nó có thể quét tin nhắn và tin tức mỗi sáng, lưu trữ những thông tin quan trọng vào thư viện ghi chú; thậm chí mở một trình chỉnh sửa nhạc trực tuyến, viết lại hòa âm và cấu trúc của cả một bản nhạc, điều chỉnh nhịp điệu, lưu lại và để nó tiếp tục phát. Tất cả những điều này đều là khả năng mà OpenAI đang tập trung phát triển trên Codex: giúp AI thực sự có thể thao tác trên máy tính.
Theo chia sẻ từ kỹ sư Jason Liu của OpenAI, Codex hiện có ba khả năng chính để điều khiển máy tính: Computer Use, Chrome Extension và In-app Browser. Nghe có vẻ hơi phức tạp và chức năng có thể chồng chéo, nhưng nhiều người khi mới nghe đến sẽ thắc mắc: tại sao một tác nhân AI lại cần đến ba hệ thống để điều khiển máy tính?
Thực chất, dù cả ba đều cho phép Codex tiếp quản máy tính, nhưng Browser, Chrome và Computer Use đại diện cho một hệ thống phân quyền hành động mà OpenAI đã thiết kế cho các tác nhân AI. Mỗi chế độ hoạt động có những kịch bản phù hợp riêng. Chẳng hạn, nếu có thể dùng plugin thì không nên click vào trang web, nếu có thể gọi API trực tiếp thì đừng để AI dùng cách nhận diện màn hình để thao tác giao diện.
Hãy hình dung thế này: nếu một ứng dụng như Zalo cung cấp giao diện lập trình ứng dụng (API) cho tác nhân AI, thì việc gửi tin nhắn chỉ cần thực hiện một hàm duy nhất. Nhưng nếu không có API, Codex sẽ phải mở Zalo, tìm tin nhắn, chọn người liên hệ, nhấp vào ô nhập liệu, sao chép nội dung rồi nhấn gửi. Về kết quả, cả hai cách đều hoàn thành cùng một việc, nhưng về hiệu quả và độ tin cậy thì hoàn toàn khác biệt. Vì vậy, trong thiết kế của OpenAI, Computer Use giống như một giải pháp "chữa cháy" cuối cùng. Để hiểu rõ hơn khi nào nên dùng Computer Use và khi nào dùng Chrome để điều khiển máy tính, chúng ta hãy cùng tìm hiểu ba chế độ ủy quyền này.
Computer Use: Cánh cửa rộng nhất
Đây là khả năng "lớn" nhất của Codex. Nó có thể "nhìn" màn hình, thao tác gần như mọi giao diện đồ họa, sử dụng bàn phím, menu, clipboard và tương tác với các ứng dụng mà chúng ta đã cấp quyền. Ngay cả những phần mềm không có API, nó vẫn có thể sử dụng, hoàn toàn dựa vào việc "nhìn màn hình và tự phán đoán nên nhấp vào đâu".
Tuy nhiên, cái giá phải trả là tốc độ chậm. Một plugin có cấu trúc có thể gọi trực tiếp một API; Computer Use phải nhận diện giao diện, phán đoán vị trí nhấp, chờ ứng dụng phản hồi, rồi mới xem màn hình tiếp theo. Chu trình thị giác này tốn rất nhiều thời gian. Vậy chậm thì có ích gì? Nó hữu dụng nhất cho những nơi chỉ có giao diện đồ họa mà không có API. Hơn nữa, trên máy Mac, chậm không hẳn là vấn đề, vì nó có thể hoạt động âm thầm trong nền, thao tác các ứng dụng được ủy quyền. Trong khi nó làm việc, chúng ta có thể làm việc khác, và khi quay lại, nó đã hoàn thành một quy trình nào đó. Vụ hoàn tiền ban đầu chính là một ví dụ điển hình: để Codex từ từ tìm cách trò chuyện với tổng đài trong khi Jason đi tắm.
Nhưng khi chúng ta rời đi, cũng có thể cảm thấy không yên tâm, bởi đây là ranh giới tin cậy rộng nhất trong ba chế độ, chúng ta gần như giao toàn bộ quyền kiểm soát máy tính cho AI. OpenAI cũng liên tục nhắc nhở rằng chỉ nên giao cho nó một ứng dụng hoặc quy trình cụ thể, đóng các phần mềm nhạy cảm không liên quan. Đối với các thao tác liên quan đến tiền bạc, tài khoản, mật khẩu, quyền riêng tư hay an ninh hệ thống, chúng ta vẫn nên ở bên cạnh giám sát.
Ứng dụng tuyệt vời nhất của Computer Use có lẽ là để "bù đắp". Hầu hết các tác nhân AI hiện nay đều có thể kết nối với các phần mềm bên thứ ba như Gmail hay Slack. Codex cũng có thể đọc phản hồi từ Slack, sửa mã, kết xuất lại video. Nhưng khi công cụ tích hợp của Slack không thể tải tệp lên, Computer Use sẽ "ra tay", nhấp vào "thêm tệp" để hoàn thành bước đó.
Các kỹ sư OpenAI khuyên rằng nên sử dụng Computer Use khi nhiệm vụ phụ thuộc vào các trường hợp sau:
* Các ứng dụng desktop gốc như Spotify hoặc ứng dụng tài chính.
* Trình giả lập iOS, iPhone Mirroring hoặc các quy trình chỉ có giao diện đồ họa (GUI).
* Cài đặt hệ thống hoặc ứng dụng.
* Nguồn dữ liệu không có plugin hoặc API.
* Quy trình làm việc chuyển đổi giữa nhiều ứng dụng.
* Thiếu một bước trong các tích hợp có cấu trúc hữu ích khác.
Chrome Extension: Cánh cửa mang danh tính của bạn
Đây là cánh cửa hẹp hơn một chút, nó tiếp quản trình duyệt mà chúng ta đã đăng nhập. Trước đây, khi tác nhân AI được yêu cầu tìm kiếm gì đó trên X (Twitter cũ), thường báo lỗi thiếu thông tin xác thực. Chrome Extension giải quyết vấn đề này. Cookie, cấu hình, trạng thái đăng nhập, các tab đang mở – tất cả đều có thể được sử dụng. Vì vậy, các tác vụ yêu cầu đăng nhập để truy cập thông tin web như Gmail, LinkedIn, Salesforce hay các hệ thống nội bộ của công ty, đều có thể giao cho Chrome Extension xử lý.
Điểm khác biệt quan trọng là do Chrome Extension sử dụng trình duyệt với danh tính của chúng ta, trang web sẽ coi các cú nhấp chuột, gửi biểu mẫu, gửi tin nhắn của nó như thể chính chúng ta đang thao tác. Khả năng mạnh hơn, nhưng rủi ro cũng lớn hơn.
Jason Liu đã đưa một trang soạn nhạc trực tuyến đang mở cho Codex và yêu cầu nó "làm cho bản nhạc thú vị hơn". Chrome Extension sẽ tự động chuyển tab đó cùng với các công cụ có sẵn trên trang cho Codex. Nó đọc toàn bộ bản nhạc, viết lại hòa âm, thay đổi cấu trúc 4 phút của bản nhạc, điều chỉnh tốc độ, lưu lại và cuối cùng là để nó tiếp tục phát. Từ việc sửa đổi bản phối đến phát nhạc hoàn hảo, Codex không hề tìm kiếm nút bấm một cách lộn xộn, bởi vì nó có thể kết hợp ngữ cảnh của tab và khả năng mà trang web cung cấp.
Jason cũng đề cập đến một trường hợp khác khi sử dụng Chrome Extension là để theo dõi một chuỗi bài đăng dài trên Twitter được cập nhật thường xuyên. Chỉ thị đại loại là: "Mỗi ngày dùng Chrome kiểm tra tin nhắn riêng, đọc tin tức liên quan, tìm kiếm phản hồi và đề cập đáng chú ý, lưu trữ những gì có thể đúc kết vào thư viện ghi chú, nhưng đừng đăng bài hay gửi tin nhắn." Codex có thể mở Twitter, và điều thú vị hơn là nhiệm vụ này có thể lặp đi lặp lại mỗi ngày trong cùng một trạng thái đăng nhập, kết nối những gì tìm thấy với tệp cục bộ của chúng ta, và cuối cùng cung cấp một kết quả có thể kiểm tra lại.
Vì vậy, nếu toàn bộ công việc diễn ra trong trình duyệt, hãy ưu tiên sử dụng Chrome Extension. Anh ấy cũng đề cập rằng giao diện lý tưởng cho các nhiệm vụ sử dụng Chrome Extension là:
* Gmail hoặc LinkedIn.
* Salesforce hoặc bảng điều khiển hỗ trợ.
* Bảng điều khiển nội bộ.
* Nghiên cứu chuyên sâu trên nhiều trang web.
* Các biểu mẫu phụ thuộc vào tài khoản hoặc tiện ích mở rộng trình duyệt của bạn.
In-app Browser: Cánh cửa sạch sẽ và cô lập
Đây là cánh cửa hẹp nhất, nó nằm ngay trong cuộc hội thoại của Codex, chúng ta và nó cùng nhìn vào một trang được hiển thị. Điểm quan trọng nhất là sự cô lập: trình duyệt trong ứng dụng sẽ không sử dụng cấu hình trình duyệt thông thường của chúng ta, không có cookie, không có plugin và không có trạng thái đăng nhập.
Vì vậy, đối với việc phát triển cục bộ, gỡ lỗi ứng dụng web, tái hiện lỗi hiển thị, hoặc kiểm tra bố cục đáp ứng (responsive layout), trình duyệt trong ứng dụng có lẽ là tiện lợi nhất. Nó có thể trực tiếp sửa mã, thao tác trang, xem kết quả hiển thị, chụp màn hình, sửa xong tự chạy lại cho đến khi đạt được kết quả mong muốn.
Điều thú vị nhất là khả năng chú thích. Dù là Vibe Coding hay hoàn thành các dự án thực tế, khi chúng ta xem xét một trang cục bộ, chúng ta có thể trực tiếp nhấp vào một phần tử hoặc khoanh một khu vực, để lại một câu nhận xét như: "Cấp độ này bị ngược rồi", "Chỗ này đừng làm thành thẻ", "Các điều khiển này cần nới lỏng hơn một chút". Codex sẽ nhận được bình luận kèm ảnh chụp màn hình và ngữ cảnh của phần tử, sửa tệp, rồi mở lại trang đó cho chúng ta xem phiên bản tiếp theo.
Sự khác biệt giữa Browser Use và Chrome Use nằm ở trạng thái đăng nhập, điều này khiến Browser Use phù hợp hơn trong giai đoạn phát triển. Chúng ta có thể trực tiếp chỉ vào một vị trí nào đó và nói với Codex, giống như với đồng nghiệp, thay vì phải gửi đi gửi lại ảnh chụp màn hình và văn bản. Bản thân trang web trở thành tài liệu yêu cầu.
Tuy nhiên, cái giá của sự cô lập là trình duyệt tích hợp trong Codex gần như không thể xử lý việc đăng nhập Google, passkey, hoặc các trang web phụ thuộc vào tiện ích mở rộng trình duyệt của chúng ta.
Theo tóm tắt của Jason trong bài viết, trình duyệt trong ứng dụng đặc biệt phù hợp để xây dựng và gỡ lỗi ứng dụng web:
* Máy chủ phát triển cục bộ.
* Xem trước được hỗ trợ bởi tệp.
* Các trang công khai không yêu cầu đăng nhập.
* Tái hiện lỗi hiển thị.
* Kiểm tra bố cục đáp ứng.
* Để lại phản hồi thiết kế cấp độ phần tử.
Ngoài ba khả năng này, các kỹ sư OpenAI còn đề cập đến một tính năng thứ tư liên quan đến việc sử dụng máy tính là Appshots. Chúng ta đã từng giới thiệu tính năng này: trên macOS, trong bất kỳ tình huống nào, chỉ cần nhấn đồng thời hai phím Command ở hai bên phím cách, ảnh chụp màn hình cửa sổ và thông tin ngữ cảnh của cửa sổ sẽ tự động được gửi đến Codex. Jason đặc biệt nhấn mạnh tính năng này để nói rằng Appshots chịu trách nhiệm "chỉ dẫn", còn Browser, Chrome và Computer Use chịu trách nhiệm "thực hiện".
Ban đầu, khi nghĩ đến "AI sử dụng máy tính", hình ảnh hiện lên trong đầu chúng ta có lẽ là AI di chuyển chuột, gõ bàn phím, nhấp từng chút một như con người. Cứ như thể AI càng giống con người thao tác máy tính thì càng mạnh mẽ. Nhưng thực tế tốt nhất của OpenAI lại chỉ ra hướng ngược lại: việc nhấp chuột như con người là cách chậm nhất, dễ vỡ nhất và có chi phí tin cậy cao nhất. Điều thực sự mong muốn là cung cấp cho tác nhân AI đủ các giao diện có cấu trúc, để nó không cần phải nhấp chuột.
Cái điều trông có vẻ giống nhất với "AI cuối cùng đã biết dùng máy tính", việc điều khiển bằng thị giác , lại chính là một phần "chữa cháy" trong toàn bộ hệ thống. Khi các công cụ có cấu trúc không hoạt động, đó mới là lúc nó được sử dụng.
Tóm lại, để làm việc giữa các ứng dụng, hãy dùng Computer Use. Để làm việc với các trang web cần danh tính/trạng thái đăng nhập, hãy dùng Chrome Extension. Còn với các tác vụ web độc lập, sạch sẽ, hãy dùng In-app Browser.