Xuất hiện AI Trung Quốc 'đọc vị' được cảm xúc con người, bước tiến mới trong lĩnh vực thị giác máy tính

Khôi Nguyên · 14/03/2025

Những điểm chính:

Alibaba ra mắt mô hình AI R1-Omni, có khả năng phân tích cảm xúc con người qua video.
R1-Omni là mã nguồn mở, cho phép các nhà phát triển tải xuống và sử dụng miễn phí.
Mô hình này có thể mô tả chi tiết về trang phục và môi trường xung quanh, bên cạnh việc nhận diện cảm xúc.
R1-Omni sử dụng thuật toán học tăng cường (reinforcement learning) để cải thiện khả năng nhận dạng cảm xúc.
Đây là phiên bản nâng cấp của mô hình HumanOmni trước đó, cũng do Alibaba phát triển.

Alibaba, tập đoàn công nghệ hàng đầu Trung Quốc, vừa ra mắt R1-Omni, một mô hình trí tuệ nhân tạo (AI) mã nguồn mở có khả năng đọc và phân tích cảm xúc của con người thông qua video. Đây được xem là một bước tiến quan trọng trong lĩnh vực thị giác máy tính và là nỗ lực của Alibaba trong việc cạnh tranh với các "ông lớn" AI trên thế giới.

R1-Omni: Mô hình AI 'hiểu' cảm xúc con người

Phòng thí nghiệm Tongyi của Alibaba đã công bố mô hình R1-Omni vào ngày 11/3/2025. Điểm nổi bật nhất của mô hình này là khả năng suy luận trạng thái cảm xúc của một người trong video, đồng thời mô tả chi tiết về trang phục và môi trường xung quanh.

R1-Omni là phiên bản nâng cấp của mô hình HumanOmni mã nguồn mở trước đó, cũng do Jiaxing Zhao, một nhà nghiên cứu của Alibaba, phát triển.

Công nghệ học tăng cường và khả năng đa phương thức

Báo cáo nghiên cứu về R1-Omni cho biết, mô hình này hiểu rõ hơn về cách thông tin thị giác và thính giác hỗ trợ việc nhận diện cảm xúc. Để nâng cao khả năng này, R1-Omni sử dụng các thuật toán học tăng cường (reinforcement learning).

Học tăng cường là một phương pháp huấn luyện AI, trong đó AI (tác nhân) học cách thực hiện một nhiệm vụ thông qua thử và sai trong một môi trường không chắc chắn. Tác nhân sẽ nhận được phần thưởng hoặc hình phạt tùy thuộc vào hành động của nó, và từ đó dần dần học được cách hành động tối ưu.

Nhờ học tăng cường, R1-Omni có khả năng lập luận, hiểu biết sâu sắc và khái quát hóa mạnh mẽ hơn so với các mô hình AI khác.

Mã nguồn mở: Thúc đẩy sự phát triển của cộng đồng

Alibaba đã phát hành R1-Omni dưới dạng mã nguồn mở, cho phép các nhà phát triển trên toàn thế giới tải xuống và sử dụng miễn phí trên nền tảng Hugging Face. Quyết định này được kỳ vọng sẽ thúc đẩy sự phát triển của cộng đồng AI, và tạo ra nhiều ứng dụng sáng tạo dựa trên R1-Omni.

Sự ra mắt của R1-Omni cho thấy Alibaba đang nỗ lực không ngừng để phát triển các công nghệ AI tiên tiến, có khả năng cạnh tranh với các sản phẩm của các "ông lớn" công nghệ trên thế giới. Việc phát hành mô hình này dưới dạng mã nguồn mở cũng thể hiện cam kết của Alibaba trong việc đóng góp cho cộng đồng AI và thúc đẩy sự đổi mới trong lĩnh vực này.