Tại sao trích xuất dữ liệu từ PDF vẫn là cơn ác mộng với chuyên gia dữ liệu?

Sóng AI · 01:52

Hàng tỷ tài liệu kỹ thuật số chứa thông tin quý giá đang bị "mắc kẹt" trong định dạng PDF, gây khó khăn cho việc phân tích dữ liệu tự động. Theo nghiên cứu, khoảng 80-90% dữ liệu tổ chức trên thế giới được lưu trữ dưới dạng phi cấu trúc, nhiều trong số đó nằm trong các định dạng khó trích xuất.
Derek Willis, giảng viên Báo chí Dữ liệu và Tính toán tại Đại học Maryland, giải thích rằng PDF là "sản phẩm in ấn" hơn là kỹ thuật số, với nhiều file PDF chỉ đơn thuần là "hình ảnh thông tin", đòi hỏi công nghệ nhận dạng ký tự quang học (OCR) để chuyển đổi.
Vấn đề trở nên nghiêm trọng hơn với các layout hai cột, bảng biểu, biểu đồ và tài liệu quét có chất lượng hình ảnh kém. Điều này ảnh hưởng đặc biệt tới các lĩnh vực phụ thuộc vào tài liệu và hồ sơ cũ như nghiên cứu khoa học, tài liệu lịch sử, dịch vụ khách hàng và văn học kỹ thuật.
Công nghệ OCR truyền thống đã tồn tại từ những năm 1970, với Ray Kurzweil tiên phong phát triển các hệ thống thương mại như Kurzweil Reading Machine năm 1976. Những hệ thống này hoạt động bằng cách nhận dạng mẫu pixel sáng tối và khớp chúng với hình dạng ký tự đã biết.
Các mô hình ngôn ngữ lớn (LLM) đa phương thức hiện đại như ChatGPT phân tích tài liệu bằng cách nhận biết mối quan hệ giữa các yếu tố hình ảnh và hiểu các dấu hiệu ngữ cảnh, cho phép xử lý tài liệu toàn diện hơn.
Theo Willis, mô hình Google Gemini 2.0 Flash Pro Experimental hiện dẫn đầu trong lĩnh vực này, xử lý được các PDF phức tạp mà các mô hình khác như Mistral OCR gặp khó khăn. Kích thước cửa sổ ngữ cảnh lớn cho phép tải lên tài liệu lớn và xử lý từng phần.
Tuy nhiên, LLM cũng gây ra nhiều vấn đề mới trong xử lý tài liệu. Nhà nghiên cứu AI Simon Willison cảnh báo về nguy cơ "vô tình làm theo hướng dẫn" và lỗi diễn giải bảng biểu có thể gây ra hậu quả nghiêm trọng, như khớp sai dữ liệu với tiêu đề.
Những vấn đề về độ tin cậy trở nên đặc biệt nghiêm trọng khi xử lý báo cáo tài chính, tài liệu pháp lý hoặc hồ sơ y tế, nơi một lỗi nhỏ có thể gây nguy hiểm. Điều này đòi hỏi sự giám sát cẩn thận của con người, hạn chế giá trị của những công cụ này cho việc trích xuất dữ liệu tự động hoàn toàn.
Động lực của các công ty AI trong việc mở khóa PDF có thể liên quan đến việc thu thập dữ liệu huấn luyện. Willis nhận xét rằng thông báo của Mistral là bằng chứng rõ ràng cho thấy tài liệu là một phần chiến lược lớn của họ, vì nó có thể cung cấp dữ liệu huấn luyện bổ sung.

Trích xuất dữ liệu từ PDF vẫn là thách thức lớn với 80-90% dữ liệu tổ chức thế giới ở dạng phi cấu trúc. Mô hình AI đa phương thức như Google Gemini đang dẫn đầu giải pháp nhưng vẫn cần giám sát con người để tránh các lỗi nghiêm trọng trong tài liệu quan trọng.

Nguồn: Songai.vn

Chủ đề hot

Có thể bạn quan tâm

Tại sao trích xuất dữ liệu từ PDF vẫn là cơn ác mộng với chuyên gia dữ liệu?

Sóng AI

Writer

Sóng AI

Công chức Trung Quốc đối mặt với câu hỏi: có bị AI thay thế không?

Kết quả xổ số là thứ duy nhất trí tuệ nhân tạo bó tay. Vì sao?

Google trình làng Gemma 3, AI siêu nhẹ thách thức mọi đối thủ

Google Gemma 3 trình làng: Mô hình AI nguồn mở 'siêu nhẹ', chạy ngay trên điện thoại

Làn sóng các công ty Trung Quốc đua nhau áp dụng mô hình AI DeepSeek vào mọi lĩnh vực

Tổng quan về hành trình áp dụng AI tạo sinh của Coca-Cola

Samsung thừa nhận thị phần đang giảm sút ở tất cả các mặt trận kinh doanh chủ lực

Bị Mỹ cấm vận, Trung Quốc vẫn có công ty “leo rank” trong top nhà cung cấp thiết bị sản xuất chip hàng đầu thế giới

8 dấu hiệu thận yếu biểu hiện ngay trên da

Nghiên cứu mới làm thay đổi hoàn toàn cách điều trị bệnh nhiễm trùng 1/3 phụ nữ mắc phải

Khảo sát mới tiết lộ Tesla năm nay khó ngóc đầu dậy vì một hành động của Elon Musk

Từ tuần sau Facebook, Instagram... sẽ có tính năng kiểm chứng tương tự X

Sếp Grab: “con người không chấp nhận AI sẽ bị AI thay thế”

Vì sao các chuyên gia dinh dưỡng gọi “trứng là vàng”?

Sáng nay, SpaceX hủy vụ phóng tên lửa để giải cứu các phi hành gia bị mắc kẹt

Ngành xe điện lại vừa đón nhận tin vui mới liên quan đến việc sữa chữa

Đánh giá nổi bật