Mistral giới thiệu API OCR mới giúp chuyển đổi tài liệu PDF thành định dạng Markdown phù hợp với AI

Sóng AI
Sóng AI
Phản hồi: 0

Sóng AI

Writer
EFadhNKnOD4Ilh1ucfxO.webp


  • Ngày 6/3/2025, công ty phát triển mô hình ngôn ngữ lớn (LLM) Pháp Mistral đã ra mắt API mới có tên Mistral OCR, giúp chuyển đổi bất kỳ tài liệu PDF nào thành tệp văn bản dễ dàng hơn cho các mô hình AI xử lý.


  • Các mô hình ngôn ngữ lớn hoạt động hiệu quả với văn bản thô, nên việc lưu trữ và lập chỉ mục dữ liệu ở định dạng sạch trở nên cực kỳ quan trọng đối với các công ty muốn tạo quy trình AI riêng.


  • Khác với hầu hết API OCR thông thường, Mistral OCR là API đa phương thức (multimodal) có khả năng phát hiện hình minh họa, ảnh xen kẽ với khối văn bản, tạo các hộp giới hạn quanh các yếu tố đồ họa và đưa chúng vào kết quả đầu ra.


  • Kết quả được định dạng theo cú pháp Markdown thay vì chỉ là một khối văn bản lớn, giúp thêm liên kết, tiêu đề và các yếu tố định dạng khác vào tệp văn bản thuần.


  • Guillaume Lample, đồng sáng lập và giám đốc khoa học của Mistral cho biết: "Với Mistral OCR, khách hàng có thể chuyển đổi tài liệu phức tạp thành nội dung có thể đọc được bằng mọi ngôn ngữ, đây là bước quan trọng hướng tới việc áp dụng rộng rãi trợ lý AI trong các công ty."


  • Mistral OCR có sẵn trên nền tảng API của Mistral hoặc thông qua các đối tác đám mây (AWS, Azure, Google Cloud Vertex). Đối với công ty làm việc với dữ liệu mật, Mistral cung cấp triển khai tại chỗ.


  • Theo công ty AI có trụ sở tại Paris, Mistral OCR hiệu quả hơn các API từ Google, Microsoft và OpenAI, đặc biệt với tài liệu phức tạp bao gồm biểu thức toán học (định dạng LaTeX), bố cục nâng cao, bảng biểu và tài liệu không phải tiếng Anh.


  • Mistral sử dụng Mistral OCR cho trợ lý AI Le Chat của mình. Khi người dùng tải lên tệp PDF, công ty sử dụng Mistral OCR để hiểu nội dung tài liệu trước khi xử lý văn bản.


  • Doanh nghiệp và nhà phát triển có thể sử dụng Mistral OCR với hệ thống tạo sinh được tăng cường bởi truy xuất dữ liệu ngoài (RAG) để sử dụng tài liệu đa phương thức làm đầu vào cho LLM, với nhiều ứng dụng tiềm năng như giúp công ty luật xử lý nhanh số lượng lớn tài liệu.

📌 Mistral OCR là API đa phương thức mới biến PDF thành Markdown cho AI, vượt trội hơn các giải pháp của Google, Microsoft và OpenAI về hiệu suất xử lý tài liệu phức tạp đa ngôn ngữ, đặc biệt hữu ích cho hệ thống RAG và ứng dụng doanh nghiệp.

Nguồn: Songai.vn
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top