DeepSeek-OCR 2 ra mắt: Trí tuệ nhân tạo học "logic thị giác của con người" và diễn giải hình ảnh thông qua quy luật nhân quả

Christine May
Christine May
Phản hồi: 0

Christine May

Editor
Thành viên BQT
DeepSeek đã cho ra mắt thế hệ hệ thống nhận dạng ký tự quang học mới, đạt được bước đột phá công nghệ trong lĩnh vực nhận dạng hình ảnh bằng cách cho phép trí tuệ nhân tạo (AI) hiểu hình ảnh theo trình tự logic tương tự như con người. Sự tiến bộ này có thể định hình lại các kịch bản ứng dụng dựa trên khả năng hiểu hình ảnh phức tạp, chẳng hạn như xử lý tài liệu và phân tích biểu đồ.

Vào ngày 27/1/2026, DeepSeekDeepSeek-OCR 2 đã được phát hành. Hệ thống này sử dụng tên gọi DeepEncoder V2 .Một phương pháp mới cho phép trí tuệ nhân tạo (AI) "nhìn" hình ảnh một cách logic, giống như con người. Sự đổi mới cốt lõi của công nghệ này nằm ở việc thay đổi cách thức xử lý hình ảnh truyền thống của AI. DeepEncoder V2 cho phép AI sắp xếp lại các mảnh hình ảnh một cách linh hoạt dựa trên ý nghĩa của chúng, thay vì chỉ quét từ trái sang phải một cách cứng nhắc. Phương pháp này mô phỏng cách con người theo dõi dòng chảy logic của một cảnh.

Theo một báo cáo kỹ thuật do DeepSeek công bố, DeepSeek-OCR 2 thể hiện những ưu điểm vượt trội ở một số chỉ số quan trọng. (OmniDocBench v1.5)Trong các bài kiểm tra đánh giá hiệu năng, mô hình này đạt được điểm số 91,09%, cải thiện 3,73% so với phiên bản tiền nhiệm, DeepSeek-OCR.
Điều đáng chú ý là trong khi duy trì độ chính xác cực cao, mô hình này kiểm soát chặt chẽ chi phí tính toán, giới hạn số lượng token hình ảnh trong khoảng từ 256 đến 1120, giới hạn trên tương đồng với Gemini-3 Pro của Google. Trong môi trường sản xuất thực tế, mô hình đã giảm tỷ lệ lặp lại lần lượt là 2,08% và 0,81% khi xử lý nhật ký người dùng trực tuyến và dữ liệu huấn luyện trước dạng PDF, cho thấy độ chín muồi thực tiễn cực kỳ cao.
1769496833144.png

Logic "dòng chảy nhân quả" mô phỏng thị giác con người.​

Theo một báo cáo kỹ thuật được DeepSeek công bố, các mô hình ngôn ngữ hình ảnh (VLM) hiện có thường xử lý các lát cắt hình ảnh bằng cách sử dụng thứ tự quét raster cố định, quét một cách máy móc từ góc trên bên trái xuống góc dưới bên phải. Nhóm DeepSeek chỉ ra rằng cách tiếp cận này tạo ra sự thiên vị quy nạp không cần thiết, trái ngược với nhận thức thị giác của con người. Khi con người đọc các tài liệu phức tạp, bảng biểu hoặc theo dõi các đường xoắn ốc, ánh nhìn của họ là một "dòng chảy nhân quả" được thúc đẩy bởi sự hiểu biết ngữ nghĩa; những ánh nhìn tiếp theo thường phụ thuộc về mặt nhân quả vào những ánh nhìn trước đó, chứ không chỉ đơn thuần là các chuyển động tọa độ không gian.

Lấy cảm hứng từ cơ chế nhận thức này, thành phần cốt lõi của DeepSeek-OCR 2, DeepEncoder V2, được thiết kế để trang bị cho bộ mã hóa khả năng suy luận nhân quả. Điều này đạt được bằng cách giới thiệu các " truy vấn luồng nhân quả" có thể học được.Mô hình này, sử dụng phương pháp "Truy vấn Luồng Nhân quả", sắp xếp lại thông tin hình ảnh một cách thông minh trong giai đoạn mã hóa, trước khi nó đi vào bộ giải mã LLM để diễn giải nội dung. Điều này tạo ra một cấu trúc suy luận nhân quả 1D hai cấp độ: đầu tiên, bộ mã hóa tập hợp lại các mã thông báo hình ảnh về mặt ngữ nghĩa, sau đó bộ giải mã thực hiện suy luận tự hồi quy trên chuỗi đã được sắp xếp. Thiết kế này không chỉ phù hợp với đặc điểm bố cục phi tuyến tính của văn bản quang học, bảng và công thức mà còn thu hẹp khoảng cách giữa cấu trúc hình ảnh 2D và mô hình ngôn ngữ 1D một cách hiệu quả.

Hãy từ bỏ kiến trúc CLIP và chuyển sang bộ mã hóa LLM.​

DeepEncoder V2 đã trải qua một cuộc đại tu kiến trúc lớn, thay thế thành phần CLIP ban đầu trong DeepEncoder bằng một kiến trúc nhỏ gọn kiểu LLM (cụ thể là Qwen2-0.5B). Để đạt được khả năng xử lý song song, kiến trúc mới giới thiệu một tập hợp các vectơ truy vấn có thể học được gọi là "mã thông báo luồng nhân quả" và thêm mã thông báo hình ảnh gốc làm tiền tố vào chuỗi.

Kiến trúc này sử dụng chiến lược mặt nạ chú ý được tùy chỉnh:
  • Phần Visual Token: Cơ chế chú ý hai chiều được giữ lại để đảm bảo mô hình có thể có trường tiếp nhận toàn cục giống như CLIP và nắm bắt được các đặc điểm tổng thể của hình ảnh.
  • Phần Token Luồng Nhân Quả: Một cơ chế chú ý nhân quả (tương tự như LLM chỉ có Bộ Giải Mã) được áp dụng, trong đó mỗi token truy vấn chỉ có thể chú ý đến các token trước đó.
Thông qua thiết kế này, mã thông báo hình ảnh duy trì tương tác thông tin toàn cục, trong khi mã thông báo luồng nhân quả có được khả năng sắp xếp lại thông tin hình ảnh. DeepSeek-OCR 2 sử dụng chiến lược cắt xén đa điểm .(Chiến lược cắt nhiều vùng) Tùy thuộc vào độ phân giải của hình ảnh, tổng số lượng token hình ảnh được sắp xếp lại trong LLM đầu vào cuối cùng dao động từ 256 đến 1120. Con số này thấp hơn đáng kể so với mức tiêu thụ token của một số sản phẩm cạnh tranh, có thể vượt quá 6000, do đó giảm đáng kể chi phí tính toán trong khi vẫn đảm bảo hiệu suất cao.

Cải thiện hiệu năng đáng kể và xác thực môi trường sản xuất.​

Trong đánh giá toàn diện OmniDocBench v1.5, DeepSeek-OCR 2 đã thể hiện xuất sắc. Dữ liệu cho thấy, với cùng nguồn dữ liệu huấn luyện, mô hình mới đã đạt được mức cải thiện hiệu suất 3,73% so với mô hình DeepSeek-OCR cơ bản. Đặc biệt đáng chú ý là sự giảm đáng kể trong chỉ số khoảng cách chỉnh sửa đối với thứ tự đọc, từ 0,085 xuống 0,057, trực tiếp chứng minh hiệu quả của DeepEncoder V2 trong việc sắp xếp lại logic.

Ngoài các bài kiểm tra hiệu năng, DeepSeek cũng công bố hiệu suất của mô hình trong quy trình sản xuất thực tế. DeepSeek-OCR 2 chủ yếu đóng vai trò là dịch vụ OCR trực tuyến cho DeepSeek-LLM và để xử lý dữ liệu huấn luyện trước PDF. Trong môi trường sản xuất không có dữ liệu tham chiếu, tỷ lệ lặp lại là một chỉ số cốt lõi về chất lượng. Dữ liệu cho thấy khi xử lý hình ảnh nhật ký người dùng trực tuyến, DeepSeek-OCR 2 đã giảm tỷ lệ lặp lại từ 6,25% xuống 4,17%; trong quá trình sản xuất dữ liệu PDF, tỷ lệ lặp lại giảm từ 3,69% xuống 2,88%. Điều này chứng tỏ giá trị thực tiễn cao của mô hình mới trong việc tạo ra dữ liệu văn bản chất lượng cao, ít dư thừa.

Hướng tới tư duy đa phương thức bản địa và tư duy 2D thực sự​

Việc phát hành DeepSeek-OCR 2 không chỉ là một bản nâng cấp về hiệu năng OCR, mà còn mang ý nghĩa khám phá kiến trúc sâu sắc. DeepEncoder V2 đã bước đầu xác minh tiềm năng sử dụng kiến trúc mô hình ngôn ngữ làm bộ mã hóa hình ảnh. Kiến trúc này kế thừa một cách tự nhiên những thành tựu của cộng đồng LLM trong việc tối ưu hóa cơ sở hạ tầng, chẳng hạn như kiến trúc Chuyên gia lai (MoE) và các cơ chế chú ý hiệu quả.

Nhóm DeepSeek tin rằng điều này mở ra một hướng đi đầy hứa hẹn hướng tới một bộ mã hóa đa phương thức thống nhất. Trong tương lai, một bộ mã hóa duy nhất có khả năng thực hiện trích xuất đặc trưng và nén hình ảnh, âm thanh và văn bản trong cùng một không gian tham số bằng cách cấu hình các truy vấn có thể học được cho các phương thức cụ thể. Mô hình "hai bộ suy luận nhân quả 1D xếp tầng" được DeepSeek-OCR 2 chứng minh, phân tách khả năng hiểu 2D thành hai nhiệm vụ phụ bổ sung cho nhau, "suy luận logic đọc" và "suy luận nhiệm vụ hình ảnh", có thể đại diện cho một cách tiếp cận kiến trúc đột phá để đạt được khả năng suy luận 2D thực sự. #DeepSeek-OCR 2
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2RlZXBzZWVrLW9jci0yLXJhLW1hdC10cmktdHVlLW5oYW4tdGFvLWhvYy1sb2dpYy10aGktZ2lhYy1jdWEtY29uLW5ndW9pLXZhLWRpZW4tZ2lhaS1oaW5oLWFuaC10aG9uZy1xdWEtcXV5LWx1YXQtbmhhbi1xdWEuNzgxNjYv
Top