Huyền Trang
Writer
Một vụ rò rỉ dữ liệu gần đây đã hé lộ rằng chính phủ Trung Quốc đang âm thầm phát triển một hệ thống kiểm duyệt tối tân, tận dụng sức mạnh của các mô hình ngôn ngữ quy mô lớn (LLM).
Khác với các phương pháp kiểm duyệt truyền thống vốn chỉ tập trung vào những chủ đề cấm kỵ quen thuộc, hệ thống mới này mở rộng phạm vi sang cả những vấn đề nhạy cảm hơn như nghèo đói ở nông thôn, tham nhũng trong lực lượng cảnh sát, hay thậm chí là những góc khuất trong đội ngũ lãnh đạo.
Phát hiện này không chỉ làm sáng tỏ tham vọng kiểm soát thông tin của Bắc Kinh mà còn cho thấy bước tiến vượt bậc trong việc ứng dụng trí tuệ nhân tạo vào quản lý xã hội.
Tập dữ liệu khổng lồ, dung lượng lên tới 300 GB, được nhà nghiên cứu bảo mật NetAskari phát hiện trên một cơ sở dữ liệu Elasticsearch không được bảo vệ, đặt tại máy chủ của gã khổng lồ công nghệ Baidu. Với các mục nhập mới nhất ghi nhận vào tháng 12/2024, tập dữ liệu chứa khoảng 133.000 bản ghi, bao gồm các tham chiếu đến “eb35” và “eb_speedpro” – dấu hiệu cho thấy nó liên quan đến việc huấn luyện Ernie Bot, chatbot AI do Baidu phát triển. Theo NetAskari, đây không chỉ là một kho dữ liệu thông thường mà là nền tảng để xây dựng một “hệ thống AI tiên tiến”, có khả năng tự động phát hiện và gắn cờ các nội dung nhạy cảm theo yêu cầu của chính phủ Trung Quốc.
Phạm vi kiểm duyệt của hệ thống này đặc biệt đáng chú ý. Nó không chỉ nhắm đến các vấn đề chính trị, xã hội và quân sự những lĩnh vực luôn được xếp “ưu tiên cao” để xử lý tức thời – mà còn bao quát cả những khiếu nại về nghèo đói ở vùng nông thôn, các báo cáo về tham nhũng, hay những bài đăng tố cáo hành vi tống tiền doanh nhân.
Đặc biệt, từ Đài Loan xuất hiện hơn 15.000 lần trong tập dữ liệu, phản ánh sự quan tâm đặc biệt của Bắc Kinh đối với tình hình chính trị tại hòn đảo này. Xiao Zhang, một nhà nghiên cứu an ninh tại Đại học California, Berkeley, nhận định rằng tập dữ liệu là bằng chứng không thể chối cãi về ý định của chính phủ Trung Quốc trong việc khai thác LLM để nâng cao khả năng kiểm soát thông tin.
So với các phương pháp kiểm duyệt trước đây vốn chủ yếu dựa vào thuật toán đơn giản để chặn từ khóa cấm LLM mang đến một bước nhảy vọt. Công nghệ này có thể nhận diện những lời chỉ trích tinh vi, vốn khó phát hiện bằng các công cụ cũ, từ đó giúp chính quyền siết chặt quản lý nội dung một cách hiệu quả và toàn diện hơn.
Sự rò rỉ này không chỉ làm dấy lên lo ngại về quyền tự do ngôn luận mà còn đặt ra câu hỏi về vai trò của các tập đoàn công nghệ lớn như Baidu trong việc hỗ trợ các sáng kiến giám sát của nhà nước. Trong bối cảnh Trung Quốc ngày càng gia tăng ảnh hưởng toàn cầu, hệ thống kiểm duyệt tiên tiến này có thể là một công cụ mạnh mẽ để định hình dư luận, cả trong nước lẫn ngoài biên giới.
#kiểmduyệttrungquốc

Khác với các phương pháp kiểm duyệt truyền thống vốn chỉ tập trung vào những chủ đề cấm kỵ quen thuộc, hệ thống mới này mở rộng phạm vi sang cả những vấn đề nhạy cảm hơn như nghèo đói ở nông thôn, tham nhũng trong lực lượng cảnh sát, hay thậm chí là những góc khuất trong đội ngũ lãnh đạo.
Phát hiện này không chỉ làm sáng tỏ tham vọng kiểm soát thông tin của Bắc Kinh mà còn cho thấy bước tiến vượt bậc trong việc ứng dụng trí tuệ nhân tạo vào quản lý xã hội.
Tập dữ liệu khổng lồ, dung lượng lên tới 300 GB, được nhà nghiên cứu bảo mật NetAskari phát hiện trên một cơ sở dữ liệu Elasticsearch không được bảo vệ, đặt tại máy chủ của gã khổng lồ công nghệ Baidu. Với các mục nhập mới nhất ghi nhận vào tháng 12/2024, tập dữ liệu chứa khoảng 133.000 bản ghi, bao gồm các tham chiếu đến “eb35” và “eb_speedpro” – dấu hiệu cho thấy nó liên quan đến việc huấn luyện Ernie Bot, chatbot AI do Baidu phát triển. Theo NetAskari, đây không chỉ là một kho dữ liệu thông thường mà là nền tảng để xây dựng một “hệ thống AI tiên tiến”, có khả năng tự động phát hiện và gắn cờ các nội dung nhạy cảm theo yêu cầu của chính phủ Trung Quốc.
Phạm vi kiểm duyệt của hệ thống này đặc biệt đáng chú ý. Nó không chỉ nhắm đến các vấn đề chính trị, xã hội và quân sự những lĩnh vực luôn được xếp “ưu tiên cao” để xử lý tức thời – mà còn bao quát cả những khiếu nại về nghèo đói ở vùng nông thôn, các báo cáo về tham nhũng, hay những bài đăng tố cáo hành vi tống tiền doanh nhân.
Đặc biệt, từ Đài Loan xuất hiện hơn 15.000 lần trong tập dữ liệu, phản ánh sự quan tâm đặc biệt của Bắc Kinh đối với tình hình chính trị tại hòn đảo này. Xiao Zhang, một nhà nghiên cứu an ninh tại Đại học California, Berkeley, nhận định rằng tập dữ liệu là bằng chứng không thể chối cãi về ý định của chính phủ Trung Quốc trong việc khai thác LLM để nâng cao khả năng kiểm soát thông tin.
So với các phương pháp kiểm duyệt trước đây vốn chủ yếu dựa vào thuật toán đơn giản để chặn từ khóa cấm LLM mang đến một bước nhảy vọt. Công nghệ này có thể nhận diện những lời chỉ trích tinh vi, vốn khó phát hiện bằng các công cụ cũ, từ đó giúp chính quyền siết chặt quản lý nội dung một cách hiệu quả và toàn diện hơn.
Sự rò rỉ này không chỉ làm dấy lên lo ngại về quyền tự do ngôn luận mà còn đặt ra câu hỏi về vai trò của các tập đoàn công nghệ lớn như Baidu trong việc hỗ trợ các sáng kiến giám sát của nhà nước. Trong bối cảnh Trung Quốc ngày càng gia tăng ảnh hưởng toàn cầu, hệ thống kiểm duyệt tiên tiến này có thể là một công cụ mạnh mẽ để định hình dư luận, cả trong nước lẫn ngoài biên giới.
#kiểmduyệttrungquốc