VnReview
Hà Nội

Hiệp hội Tài liệu PDF: Báo cáo “minh oan” cho Tổng thống Trump là một file PDF “cực kỳ cẩu thả”

Khi Công tố viên đặc biệt Robert Mueller ngày hôm qua công bố báo cáo của mình về sự can thiệp của Nga đối với cuộc bầu cử Tổng thống Mỹ năm 2016, những người quan tâm đến chính trị trên khắp Internet đã nhanh chóng tải xuống bản báo cáo này.

PDF đã âm thầm trở thành định dạng tệp tin quan trọng nhất thế giới như thế nào?

Và nếu bạn đã một người am hiểu về công nghệ thông tin, có lẽ bạn sẽ nhận ra hai điều: chúng ta không thể tìm kiếm các cụm từ cụ thể trên văn bản này, và dung lượng tập tin tải xuống lớn một cách "bất thường". Đừng lo, bạn không phải người duy nhất. Có rất nhiều người dùng Internet khác cũng bày tỏ sự bất bình trước sự làm ăn "cẩu thả" ấy, trong đó có Hiệp hội PDF Quốc tế. Tổ chức này thậm chí còn công bố một văn bản dài chỉ để giải thích vì sao tài liệu PDF của Mueller lại có chất lượng tồi tệ như vậy.

"Báo cáo Đánh giá Kỹ thuật và Văn hoá file PDF báo cáo của Mueller" vừa là một bản "cáo trạng" về kĩ năng tin học của Bộ Tư Pháp Mỹ, vừa là sự tôn vinh đối với định dạng tài liệu đã trở thành một chuẩn công nghiệp của thế giới này. Báo cáo bắt đầu bằng việc chỉ ra rằng: tài liệu dài 448 trang có "chất lượng chấp nhận được", nhưng nó không tuân theo các tiêu chuẩn về lưu trữ tài liệu cơ bản. Văn bản được tạo ra ngày 17 tháng 4 "có lẽ bởi một chiếc máy in/photocopy văn phòng điển hình", và sử dụng công nghệ nén có thất thoát dữ liệu (lossy) "vốn phù hợp để nén hình ảnh hơn là văn bản". Bộ Tư Pháp Mỹ có lẽ đã nhận được một tài liệu PDF chất lượng cao từ Mueller, in nó ra rồi scan lại thành file PDF này, hoặc Mueller đã chuyển cho họ một bản báo cáo giấy, sau đó các nhân viên Bộ mới scan lại rồi tung lên mạng.

Việc scan lại một văn bản giấy về cơ bản biến tài liệu này thành những file ảnh, và do đó file PDF này sẽ không chứa dữ liệu văn bản nào cả. Điều này sẽ giúp bảo đảm rằng không có đoạn văn bản "không nên được công khai" nào sơ suất còn sót lại bị phơi bày trước công chúng (chẳng hạn như ghi chú của những người trong cuộc hay các thông tin mật khác…). Nói cách khác, người đọc sẽ bị giới hạn bởi những dòng chữ họ nhìn thấy bằng mắt, chứ không thể "táy máy" dò tìm những thông tin "ẩn" được. Song cách làm này dẫn đến hai hậu quả: dung lượng tập tin trở nên rất lớn (vì dữ liệu hình ảnh bao giờ cũng nặng hơn dữ liệu văn bản), và người dùng sẽ không thể tìm kiếm các đoạn văn bản bất kỳ trừ phi họ phải xử lý file PDF này bằng một phần mềm nhận dạng văn bản quang học của riêng họ. Dù vậy, quy trình này chắc chắn không thể cho độ chính xác tuyệt đối như file văn bản gốc được.

Những văn bản PDF được xử lý kém đôi khi đã làm lộ những bí mật đáng xấu hổ. Một báo cáo đệ trình lên toà trong vụ kiện Facebook mới đây đã cố che giấu một số thông tin bằng cách vẽ những hình vuông màu đen đè lên nền chữ đen, song đoạn văn bản bị che đó vẫn có thể tìm kiếm được và do đó đã làm lộ ra những thông tin quan trọng. Nhóm cực đoan Proud Boys cũng bị lộ thông tin lãnh đạo với phương thức tương tự. Những phần mềm soạn văn bản chuyên nghiệp hiện nay có thể xử lý và ngăn ngừa những vấn đề tương tự; song Hiệp hội tài liệu PDF lưu ý rằng một văn bản PDF không được gắn thẻ và không có khả năng tìm kiếm văn bản là vi phạm quy tắc của Bộ Tư pháp Mỹ nhằm giúp người khuyết tật tiếp cận với những nội dung hành chính do cơ quan này công bố.

Cần nhấn mạnh đây là lời chỉ trích đến từ Hiệp hội tài liệu PDF, nên không có gì ngạc nhiên khi họ còn "đính kèm" thêm những đoạn giải thích chi tiết vì sao định dạng tài liệu này lại có những ưu điểm tuyệt vời như vậy cùng lý do "không ai lại chia sẻ một tập tin Word, những file ảnh TIFF, một trang web hay một file XPS, EPUB hay là văn bản thuần," mà chỉ lựa chọn PDF. Câu trả lời ngắn gọn là bởi PDF lưu trữ trọn vẹn văn bản và định dạng gốc của tài liệu, dễ đọc, dễ truy xuất và được hỗ trợ bởi rất nhiều nền tảng. "PDF là định dạng văn bản duy nhất trên thế giới có khả năng chuyển tải những yếu tố văn hoá và kĩ thuật của những phương thức giao tiếp quan trọng trong thời hiện đại," Hiệp hội này nhấn mạnh.

An Huy

Chủ đề khác