Đặng Khương
Writer
Trong một bài blog gần đây, Google đã tiết lộ những chi tiết thú vị về Colossus – hệ thống hạ tầng mạng khổng lồ được xem là nền tảng lưu trữ đa năng của hãng. Được thiết kế để mạnh mẽ, dễ mở rộng và linh hoạt trong lập trình, Colossus là trái tim của nhiều dịch vụ quen thuộc như YouTube, Gmail, Google Drive và hơn thế nữa. Điều bất ngờ là dù tiên tiến, hệ thống này vẫn dựa vào ổ cứng từ tính (HDD) truyền thống, song không ngừng được cải tiến, kết hợp với công nghệ hiện đại để tối ưu hiệu suất.
Colossus bắt nguồn từ Google File System (GFS), một dự án lưu trữ phân tán nhằm xử lý các ứng dụng nặng về dữ liệu. Qua thời gian, nó đã tiến hóa thành một nền tảng mạnh mẽ hơn, đáp ứng nhu cầu lưu trữ khổng lồ của Google. Mỗi trung tâm dữ liệu của hãng được trang bị một hệ thống tệp Colossus, với một số cụm có khả năng quản lý hàng exabyte dữ liệu – thậm chí có hai hệ thống vượt mốc 10 exabyte mỗi cái. Google tự tin rằng các ứng dụng và dịch vụ chạy trên Google Cloud sẽ không bao giờ lo thiếu dung lượng trong một khu vực.
Hiệu suất truyền dữ liệu của Colossus thực sự đáng kinh ngạc. Các cụm lớn nhất thường xuyên đạt tốc độ đọc 50 terabyte mỗi giây và tốc độ ghi 25 terabyte mỗi giây. Theo Google, đây là mức băng thông đủ để truyền hơn 100 bộ phim 8K đầy đủ mỗi giây – một con số minh họa rõ sức mạnh của hệ thống này. Để đạt được hiệu suất vượt trội, Google tích hợp công nghệ bộ nhớ đệm độc quyền L4, sử dụng ổ SSD tốc độ cao. Người dùng nội bộ có thể chọn lưu tệp trên HDD hay SSD, nhưng hầu hết đều dựa vào hệ thống tự động L4. Công nghệ này tận dụng thuật toán máy học để phân tích mẫu truy cập dữ liệu, chia tệp thành các nhóm và mô phỏng các kịch bản lưu trữ khác nhau. Một số chính sách bao gồm “lưu trên SSD trong 1 giờ”, “lưu trên SSD trong 2 giờ” hoặc “không lưu trên SSD”.
Khi dự đoán chính xác, L4 đặt một phần nhỏ dữ liệu lên SSD để xử lý các lượt đọc ban đầu, sau đó chuyển dần sang HDD để giảm chi phí. Cách tiếp cận này không chỉ tăng tốc độ mà còn tối ưu hóa tài nguyên, giữ cho Colossus vừa hiệu quả vừa kinh tế.
Colossus bắt nguồn từ Google File System (GFS), một dự án lưu trữ phân tán nhằm xử lý các ứng dụng nặng về dữ liệu. Qua thời gian, nó đã tiến hóa thành một nền tảng mạnh mẽ hơn, đáp ứng nhu cầu lưu trữ khổng lồ của Google. Mỗi trung tâm dữ liệu của hãng được trang bị một hệ thống tệp Colossus, với một số cụm có khả năng quản lý hàng exabyte dữ liệu – thậm chí có hai hệ thống vượt mốc 10 exabyte mỗi cái. Google tự tin rằng các ứng dụng và dịch vụ chạy trên Google Cloud sẽ không bao giờ lo thiếu dung lượng trong một khu vực.

Hiệu suất truyền dữ liệu của Colossus thực sự đáng kinh ngạc. Các cụm lớn nhất thường xuyên đạt tốc độ đọc 50 terabyte mỗi giây và tốc độ ghi 25 terabyte mỗi giây. Theo Google, đây là mức băng thông đủ để truyền hơn 100 bộ phim 8K đầy đủ mỗi giây – một con số minh họa rõ sức mạnh của hệ thống này. Để đạt được hiệu suất vượt trội, Google tích hợp công nghệ bộ nhớ đệm độc quyền L4, sử dụng ổ SSD tốc độ cao. Người dùng nội bộ có thể chọn lưu tệp trên HDD hay SSD, nhưng hầu hết đều dựa vào hệ thống tự động L4. Công nghệ này tận dụng thuật toán máy học để phân tích mẫu truy cập dữ liệu, chia tệp thành các nhóm và mô phỏng các kịch bản lưu trữ khác nhau. Một số chính sách bao gồm “lưu trên SSD trong 1 giờ”, “lưu trên SSD trong 2 giờ” hoặc “không lưu trên SSD”.
Khi dự đoán chính xác, L4 đặt một phần nhỏ dữ liệu lên SSD để xử lý các lượt đọc ban đầu, sau đó chuyển dần sang HDD để giảm chi phí. Cách tiếp cận này không chỉ tăng tốc độ mà còn tối ưu hóa tài nguyên, giữ cho Colossus vừa hiệu quả vừa kinh tế.
