Sóng AI
Writer

Hàng tỷ tài liệu kỹ thuật số chứa thông tin quý giá đang bị "mắc kẹt" trong định dạng PDF, gây khó khăn cho việc phân tích dữ liệu tự động. Theo nghiên cứu, khoảng 80-90% dữ liệu tổ chức trên thế giới được lưu trữ dưới dạng phi cấu trúc, nhiều trong số đó nằm trong các định dạng khó trích xuất.
Derek Willis, giảng viên Báo chí Dữ liệu và Tính toán tại Đại học Maryland, giải thích rằng PDF là "sản phẩm in ấn" hơn là kỹ thuật số, với nhiều file PDF chỉ đơn thuần là "hình ảnh thông tin", đòi hỏi công nghệ nhận dạng ký tự quang học (OCR) để chuyển đổi.
Vấn đề trở nên nghiêm trọng hơn với các layout hai cột, bảng biểu, biểu đồ và tài liệu quét có chất lượng hình ảnh kém. Điều này ảnh hưởng đặc biệt tới các lĩnh vực phụ thuộc vào tài liệu và hồ sơ cũ như nghiên cứu khoa học, tài liệu lịch sử, dịch vụ khách hàng và văn học kỹ thuật.
Công nghệ OCR truyền thống đã tồn tại từ những năm 1970, với Ray Kurzweil tiên phong phát triển các hệ thống thương mại như Kurzweil Reading Machine năm 1976. Những hệ thống này hoạt động bằng cách nhận dạng mẫu pixel sáng tối và khớp chúng với hình dạng ký tự đã biết.
Các mô hình ngôn ngữ lớn (LLM) đa phương thức hiện đại như ChatGPT phân tích tài liệu bằng cách nhận biết mối quan hệ giữa các yếu tố hình ảnh và hiểu các dấu hiệu ngữ cảnh, cho phép xử lý tài liệu toàn diện hơn.
Theo Willis, mô hình Google Gemini 2.0 Flash Pro Experimental hiện dẫn đầu trong lĩnh vực này, xử lý được các PDF phức tạp mà các mô hình khác như Mistral OCR gặp khó khăn. Kích thước cửa sổ ngữ cảnh lớn cho phép tải lên tài liệu lớn và xử lý từng phần.
Tuy nhiên, LLM cũng gây ra nhiều vấn đề mới trong xử lý tài liệu. Nhà nghiên cứu AI Simon Willison cảnh báo về nguy cơ "vô tình làm theo hướng dẫn" và lỗi diễn giải bảng biểu có thể gây ra hậu quả nghiêm trọng, như khớp sai dữ liệu với tiêu đề.
Những vấn đề về độ tin cậy trở nên đặc biệt nghiêm trọng khi xử lý báo cáo tài chính, tài liệu pháp lý hoặc hồ sơ y tế, nơi một lỗi nhỏ có thể gây nguy hiểm. Điều này đòi hỏi sự giám sát cẩn thận của con người, hạn chế giá trị của những công cụ này cho việc trích xuất dữ liệu tự động hoàn toàn.
Động lực của các công ty AI trong việc mở khóa PDF có thể liên quan đến việc thu thập dữ liệu huấn luyện. Willis nhận xét rằng thông báo của Mistral là bằng chứng rõ ràng cho thấy tài liệu là một phần chiến lược lớn của họ, vì nó có thể cung cấp dữ liệu huấn luyện bổ sung.

Nguồn: Songai.vn