Apple tung mô hình AI nhận diện văn bản và hình ảnh cạnh tranh với Google, Microsoft

Apple tung ra mô hình AI mới có tên MM1, là 1 mô hình ngôn ngữ lớn đa chế độ (MLLM - Multimodal Large Language Model) với khả năng nhận diện và mô tả lại cho người dùng nhiều dạng dữ liệu đầu vào, từ văn bản cho tới hình ảnh. Đây là sản phẩm cạnh tranh với Microsoft và Google trên đường đua AI hiện nay.
Công ty Mỹ cho biết, mô hình này sở hữu 30 tỷ tham số và được đào tạo dựa trên nguồn dữ liệu gồm nhiều loại đầu vào như hình ảnh có chú thích, văn bản có chữ và hình minh họa, văn bản thuần túy. Apple cho rằng MLLM sẽ là hình thái tiến hóa tiếp theo của LLM, thúc đẩy sự phát triển của ngành AI.

Apple tung mô hình AI nhận diện văn bản và hình ảnh cạnh tranh với Google, Microsoft
Mô hình AI của Apple có thể làm toán theo ngữ cảnh, ví dụ tính trọng lượng các đồ vật được cung cấp trong ảnh hoặc tính giá tiền hóa đơn các món đồ đã mua
Tính năng rất hứa hẹn khi nó có thể nhận diện nhiều yếu tố trong hình ảnh hoặc văn bản. Ví dụ đếm số vật thể trong 1 tấm hình, đoán nội dung tấm hình gồm những gì, mô tả các đối tượng xuất hiện trong tấm hình bằng văn bản,... Ngoài ra, nó cũng có khả năng làm toán đơn giản gồm các phép cộng, trừ, nhân, chia.
Mô hình cũng có khả năng học hỏi dựa theo ngữ cảnh, hiểu nội dung khi được cung cấp thêm ngữ cảnh đang đề cập. Kĩ sư của công ty cho biết đây mới chỉ là khởi đầu, họ sẽ tiếp tục phát triển thêm những mô hình mới mạnh hơn, chính xác hơn.


>>> Chatbot Google Gemini sẽ được đưa lên hàng tỷ iPhone?
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top