11/04/2016, 00:00Hà Nội

11,5 triệu tài liệu Panama Papers được phân tích thế nào?

Vụ rò rỉ tài liệu lớn nhất trong lịch sử liên quan đến hơn 72 cựu và đương kim lãnh đạo trên thế giới trốn thuế. Các nhà báo đã phải sử dụng phần mềm, siêu máy tính... để phân tích nguồn dữ liệu khổng lồ này.

Tài liệu Panama Papers cho thấy công ty luật Mossack Fonseca đã giúp hàng trăm khách hàng – những người có quan hệ với một số nhân vật quyền lực nhất thế giới – rửa tiền, trốn thuế.

Tài liệu này được một người không nêu danh tính rò rỉ tới tay các tổ chức báo chí và được chia sẻ với hơn 100 tổ chức báo chí và 400 phóng viên trên thế giới. Cuộc điều tra của các nhà báo diễn ra trong khoảng 1 năm.

Quá trình xử lý tài liệu thô thành tài liệu dành cho phóng viên liên quan đến việc chuyển đổi sang các định dạng digital, cần máy tính tốc độ xử lý cao và các thuật toán để tìm danh tính những người nổi tiếng trong hàng ngàn cái tên.

Dữ liệu Panama Papers lớn cỡ nào?

Vụ rò rỉ được đưa tin là có hơn 11,5 triệu file tài liệu chủ yếu bao gồm email, tập tin PDF, hình ảnh và các trích dẫn từ một cơ sở dữ liệu nội bộ hãng luật của Panama là Mossack Fonseca. Các rò rỉ Panama Papers cung cấp dữ liệu về 214.000 công ty. Có một thư mục cho mỗi công ty vỏ bọc có chứa email, hợp đồng, bảng sao, và tài liệu scan. Cụ thể, tài liệu gồm 4,8 triệu email. 3 triệu tập tin từ cơ sở dữ liệu, 2,1 triệu file PDF, 1,1 triệu hình ảnh, 320 nghìn file text. Cơ sở dữ liệu này lớn hơn bất kỳ dữ liệu nào từ Wikileaks hoặc vụ rò rỉ Edward Snowden.

Dung lượng dữ liệu của vụ Panama Papers lên đến 2,6 terabyte thông tin từ năm 1977 đến năm 2015. "Dữ liệu cho thấy Mossack Fonseca đã làm việc với hơn 14 nghìn nhà băng, công ty luật, các cổ đông sáng lập công ty và các môi giới trung gian khác để thành lập tổ chức, công ty, quỹ tín thác cho khách hàng", theo Liên đoàn các nhà báo điều tra quốc tế (ICIJ). ICIJ cho biết danh sách đầy đủ các công ty liên quan đến vụ Panama Papers sẽ được tiết lộ trong tháng Năm tới đây.

Làm thế nào để phân tích 11,5 triệu file tài liệu?

Để có thể đưa tin về những tài liệu rò rỉ này, các nhà báo cần phải được bảo đảm rằng nó có thể đọc được bằng máy và có thể tìm kiếm được. Phó giáo sư Gabriel Brostow về khoa học máy tính thuộc trường University College London trả lời tạp chí WIRED rằng dữ liệu không đồng nhất rất khó xử lý và tham chiếu chéo. Biểu bảng, con số và file PDF là hầu như không thể hiểu được với các phần mềm thông dụng.

Tờ báo Đức Süddeutsche Zeitung – toà báo đầu tiên nhận được dữ liệu – và ICIJ đã làm việc với công ty phần mềm Nuix để lọc và tổ chức tệp dữ liệu sơ bộ. Dữ liệu được cất giữ trong các máy chủ riêng tư, không có kết nối với thế giới bên ngoài. Khi đã được phân tách xong, chúng sẽ được đánh chỉ mục (index).

Chuyên gia tư vấn cao cấp của Nuix cho biết thách thức lớn nhất trong quá trình xử lý dữ liệu là lượng văn bản ban đầu máy không thể đọc được. Các chuyên gia đã sử dụng công nghệ nhận diện chữ cái quang học (OCR) để chuyển dữ liệu thành text để máy tính có thể hiểu và tìm kiếm được. Một khi text được trích xuất, sau đó nó có thể được nhập vào index và cơ sở dữ liệu.

Nuix cho phép ICIJ và báo Süddeutsche Zeitung thực hiện các tìm kiếm từ khoá và sau đó Nuix tìm tên, họ và những con số. Ngoài ra, Nuix cũng có thể sử dụng phân tích của họ để tìm xem những cái tên đó tham chiếu đến những tài liệu nào. Nếu tìm thấy tên một người trong email chẳng hạn, phóng viên có thể phát hiện người đó đã được nhắc đến ở tất cả các tài liệu khác.

Một khi thông tin đã được chỉ mục, chuyên gia sử dụng các thuật toán để tìm kiếm những đường liên kết đặc biệt trong khối dữ liệu khổng lồ đó. Cuối cùng, thông tin tự động này được tập hợp lại trong dữ liệu được tạo ra thủ công.

Các phóng viên lọc và biên soạn ra danh sách các chính trị gia nổi tiếng, các tổ chức tội phạm quốc tế, các vận động viên nổi tiếng. Từ đây, việc tạo ra công cụ tìm kiếm tên trong danh sách trở nên đơn giản.

Theo báo Süddeutsche Zeitung, thuật toán tìm kiếm rất mạnh, chỉ trong vài phút nó đã so sánh được các danh sách do phóng viên tạo ra với 11,5 triệu tài liệu.

Vụ tai tiếng Panama Papers liên quan đến 11,5 triệu tài liệu được tạo từ những năm 1970, tổng cộng 2,6 terabyte. Đầu tiên, nó được gửi đến tờ báo Đức Süddeutsche Zeitung vào năm 2015 và sau đó đưa đến Liên đoàn nhà báo điều tra quốc tế (ICIJ) đặt tại Washington. Tài liệu đã được chia sẻ và phân tích bởi khoảng 400 các nhà báo tại 107 tổ chức truyền thông tại hơn 80 quốc gia. Trong số đó có thiếu vắng các báo lớn của Mỹ như New York Times, CNN, Washington Post... Các tin tức đầu tiên cùng với 149 tài liệu này đã được công bố vào ngày 03/4/2016. Danh sách đầy đủ tài liệu sẽ được phát hành vào đầu tháng 5.

Hoàng Ngân

11,5 triệu tài liệu Panama Papers được phân tích thế nào?

Chủ đề khác