DeepSeek-OCR ra mắt: "Mắt thần" AI đọc hiểu tài liệu, tuyên bố hiệu quả gấp 20 lần con người

Dũng Đỗ
Dũng Đỗ
Phản hồi: 0
Startup trí tuệ nhân tạo (AI) DeepSeek của Trung Quốc một lần nữa gây bất ngờ cho giới công nghệ khi cho ra mắt DeepSeek-OCR, một mô hình AI đa phương thức mới với khả năng "đọc" và hiểu thông tin tài liệu theo một cách hoàn toàn mới. Thay vì xử lý văn bản theo cách truyền thống, mô hình này sử dụng thị giác máy tính để nén thông tin hình ảnh, giúp giảm đáng kể chi phí tính toán trong khi vẫn giữ được độ chính xác vượt trội.

1761135580586.png


Phương Pháp Tiếp Cận Đột Phá: "Đọc" Bằng Thị Giác Thay Vì Ký Tự


Thách thức lớn nhất của các mô hình ngôn ngữ lớn (LLM) hiện nay là chi phí tính toán khổng lồ khi phải xử lý các văn bản dài. Các mô hình này hoạt động bằng cách chia văn bản thành các đơn vị nhỏ nhất gọi là "token". Một tài liệu càng dài, số lượng token càng lớn, và chi phí xử lý càng tăng theo cấp số nhân.

DeepSeek-OCR giải quyết bài toán này bằng một cách tiếp cận đột phá. Thay vì "đọc" từng chữ, mô hình này chuyển đổi toàn bộ nội dung văn bản thành dạng hình ảnh, sau đó sử dụng khả năng nhận thức thị giác để nén thông tin lại. Quá trình này tương tự như cách con người đọc một trang sách bằng cách lướt qua toàn bộ đoạn văn, thay vì phải đánh vần từng ký tự.

1761135588032.jpeg

Mô hình AI mới nhất của DeepSeek vừa ra mắt với tuyên bố có thể đọc hiểu ngữ cảnh phức tạp trong hình ảnh, ví dụ nhận ra người nào là cô giáo trong hình ảnh vẽ về lớp học

Kết quả mà DeepSeek công bố cho thấy, mô hình có thể giảm số lượng token cần xử lý từ 7 đến 20 lần so với các phương pháp truyền thống. Đây là một bước tiến mang tính cách mạng, hứa hẹn sẽ giải quyết được bài toán về "ngữ cảnh dài" (long context) vốn đang làm đau đầu toàn bộ ngành AI.
Hơn thế nữa, DeepSeek-OCR không chỉ đọc chữ. Nó có khả năng hiểu được toàn bộ bố cục, cấu trúc và ngữ nghĩa của một trang tài liệu, bao gồm cả các bảng biểu, công thức toán học, sơ đồ hình học và hình ảnh bên trong.

Kiến Trúc Kỹ Thuật Đằng Sau "Mắt Thần"


Về mặt kỹ thuật, DeepSeek-OCR bao gồm hai thành phần chính. Thành phần đầu tiên là DeepEncoder, một động cơ nén quang học cốt lõi. Nó có khả năng biến hàng nghìn mảnh hình ảnh thành một bản đồ trực quan chỉ gồm 100-200 token hình ảnh tinh gọn, đồng thời duy trì mức kích hoạt thấp ngay cả khi xử lý đầu vào có độ phân giải cao.

Thành phần thứ hai là bộ giải mã DeepSeek3B-MoE-A570M, một mô hình "Hỗn hợp chuyên gia" (Mixture-of-Experts) có nhiệm vụ tái tạo lại văn bản gốc từ các token hình ảnh đã được nén. Kiến trúc MoE cho phép hệ thống chỉ kích hoạt các mạng con chuyên biệt cần thiết để xử lý dữ liệu, giúp tối ưu hóa hiệu suất mà không cần phải huy động toàn bộ mô hình.

1761135596421.png

Một ví dụ khác về hình ảnh phức tạp như bài tập hóa học kèm với cấu tạo hóa học của hợp chất cũng được AI mới của DeepSeek nhận biết

Hiệu Suất Vượt Trội và Khả Năng Mở Rộng


Để đạt được khả năng "đọc hiểu" đa dạng, mô hình này đã được huấn luyện trên một tập dữ liệu khổng lồ, bao gồm hơn 30 triệu trang PDF bằng 100 ngôn ngữ khác nhau, 10 triệu mẫu OCR cảnh tự nhiên, 10 triệu biểu đồ và hàng triệu công thức toán học, hóa học.

Trong các bài kiểm tra chuẩn, DeepSeek-OCR cho thấy khả năng bảo toàn thông tin mạnh mẽ. Khi tỷ lệ nén dưới 10 lần, mô hình đạt độ chính xác giải mã lên tới 97%. Ngay cả khi nén tới 20 lần, độ chính xác vẫn đạt khoảng 60%. Trên bộ dữ liệu OmniDocBench, DeepSeek-OCR đã vượt trội hơn các mô hình OCR hàng đầu khác trong khi sử dụng ít token hơn đáng kể. Cụ thể, nó chỉ cần khoảng 100 token hình ảnh cho mỗi trang, so với 6.000 token mà một số mô hình khác yêu cầu.

Điểm nổi bật nhất là tốc độ xử lý. Hệ thống này có thể tạo ra hơn 200.000 trang dữ liệu huấn luyện mỗi ngày chỉ với một card đồ họa NVIDIA A100-40G duy nhất, mở ra khả năng mở rộng quy mô chưa từng có.

Ý Nghĩa và Ứng Dụng Tiềm Năng


Động thái mới nhất này của DeepSeek hoàn toàn phù hợp với triết lý mà công ty đã theo đuổi qua các mô hình mã nguồn mở đột phá trước đó: nâng cao hiệu suất AI trong khi hạ thấp chi phí xây dựng và sử dụng.

Việc "nén quang học" có thể được xem là lời giải cho bài toán xử lý ngữ cảnh dài của các LLM. Giờ đây, một tài liệu có một triệu token văn bản có thể được "thu gọn" thành một bản đồ trực quan chỉ 100.000 token, mở đường cho một thế hệ AI mới có khả năng xử lý các tài liệu cực lớn.

Các ứng dụng tiềm năng của công nghệ này là rất rộng lớn. Việc phân tích tài liệu tài chính phức tạp, dịch thuật theo thời gian thực với đầy đủ ngữ cảnh trực quan, hay khả năng tiếp cận thông tin cho người khiếm thị giờ đây đều trở nên khả thi về mặt kinh tế. DeepSeek-OCR không chỉ là một bản nâng cấp OCR thông thường, mà là một sự thay đổi mang tính cách mạng trong cách máy móc nhận thức và xử lý dữ liệu.

#DeepSeekOCR
#DeepSeek
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2RlZXBzZWVrLW9jci1yYS1tYXQtbWF0LXRoYW4tYWktZG9jLWhpZXUtdGFpLWxpZXUtdHV5ZW4tYm8taGlldS1xdWEtZ2FwLTIwLWxhbi1jb24tbmd1b2kuNzIxNjAv
Top