Jinu
Intern Writer
Chào các bạn, hôm nay mình muốn chia sẻ với mọi người về một nghiên cứu cực kỳ thú vị và đầy hứa hẹn trong lĩnh vực sinh học và trí tuệ nhân tạo. Một nhóm các nhà khoa học đến từ Phân viện Hàng Châu của Đại học Chiết Giang, Phòng thí nghiệm AI của Đại học Tây Hồ và Viện BioMap đã cùng nhau phát triển một khung mô hình gen mới toanh mang tên MergeDNA. Nghiên cứu đột phá này được công bố vào ngày 17/11/2025, với mã số bài báo là arXiv:2511.14806v1. Nếu bạn nào muốn tìm hiểu sâu hơn về kỹ thuật, có thể tra cứu mã số này trên các nền tảng học thuật nhé.
Trong sinh học, chúng ta thường nghe đến khái niệm "mật mã sự sống", chính là trình tự DNA. Giống như việc đọc một cuốn sách cần hiểu nghĩa của từng từ, từng câu, máy tính cũng cần "phân tách từ" trình tự DNA – tức là cắt chuỗi bazơ liên tục thành những đoạn có ý nghĩa. Tuy nhiên, DNA khác biệt cơ bản so với văn bản thông thường ở chỗ nó không có "dấu câu" tự nhiên để báo hiệu chỗ ngắt câu. Phức tạp hơn nữa, trình tự DNA giống như một cuốn bách khoa toàn thư với mật độ thông tin cực kỳ không đồng đều: có những vùng chứa lượng thông tin khổng lồ (như vùng mã hóa protein), nhưng cũng có những vùng tương đối "trống rỗng" (như vùng trình tự lặp lại).
Các phương pháp phân tích DNA truyền thống thường giống như dùng một chiếc thước cố định để đo mọi thứ, dù là chi tiết đồng hồ tinh xảo hay tấm ván gỗ thô kệch, đều dùng cùng một thang đo. Cách tiếp cận "một kích cỡ cho tất cả" này rõ ràng không đủ chính xác. Nhóm nghiên cứu nhận ra rằng, một phân tích DNA thực sự hiệu quả cần phải giống như một người thợ may lành nghề, có khả năng chọn phương pháp cắt may phù hợp với từng loại vải – xử lý tinh vi các vùng giàu thông tin và tổng hợp sơ bộ các vùng lặp lại đơn giản.
Điểm sáng tạo cốt lõi của MergeDNA nằm ở việc phát triển một hệ thống "phân tách từ thông minh", có khả năng tự động điều chỉnh mức độ phân tích dựa trên nội dung thực tế của trình tự DNA. Nó giống như một trình đọc thông minh, khi gặp tài liệu kỹ thuật sẽ đọc chậm lại để phân tích kỹ từng từ, còn khi gặp tình tiết tiểu thuyết thì có thể lướt nhanh để nắm bắt ý chính. Khả năng tự thích ứng này giúp MergeDNA khi xử lý các trình tự gen dài hàng chục nghìn, thậm chí hàng triệu bazơ, vừa không bỏ lỡ thông tin quan trọng, vừa không bị kéo chậm bởi nội dung dư thừa. Điều thú vị hơn nữa là công nghệ này không chỉ hoạt động xuất sắc trong phân tích DNA mà còn có thể mở rộng sang phân tích các phân tử sinh học khác như RNA và protein. Điều này có nghĩa là chúng ta có thể sớm sở hữu một "công cụ giải mã mật mã sinh học vạn năng", mang lại những tiến bộ mang tính cách mạng cho chẩn đoán bệnh, phát triển thuốc và y học cá nhân hóa.
Để hiểu được ý nghĩa đột phá của MergeDNA, trước tiên chúng ta cần nắm rõ những khó khăn mà mô hình hóa DNA truyền thống phải đối mặt. Mô hình hóa trình tự DNA giống như cố gắng hiểu một cuốn "thiên thư" đặc biệt, không có dấu câu, không có đoạn văn, và có thể dài đến hàng triệu ký tự. Cuốn thiên thư này có ba đặc điểm khiến chúng ta phải đau đầu.
Thử thách đầu tiên là mật độ thông tin cực kỳ không đồng đều. Trong bộ gen người, chỉ khoảng 2% là vùng mã hóa, chứa "công thức" tạo ra protein, với mật độ thông tin cực cao, mỗi ký tự đều có thể ảnh hưởng đến chức năng của sản phẩm cuối cùng. 98% còn lại là vùng không mã hóa, bao gồm các yếu tố điều hòa, trình tự lặp lại và các vùng mà chức năng hiện tại vẫn chưa rõ ràng. Điều này giống như một cuốn sách nấu ăn, chỉ có vài trang là công thức chính xác, còn phần lớn nội dung hoặc là hình ảnh trang trí, hoặc là thông tin nền lặp đi lặp lại. Các phương pháp truyền thống thường dành sự quan tâm như nhau cho mọi trang của cuốn "sách nấu ăn" này, điều này rõ ràng không hiệu quả.
Thử thách thứ hai là DNA không có "ranh giới từ vựng" tự nhiên. Ngôn ngữ thông thường có khoảng trắng, dấu câu giúp chúng ta phân biệt từ ngữ, nhưng trình tự DNA là một chuỗi liên tục gồm bốn bazơ (A, T, G, C). Một "từ vựng" có ý nghĩa sinh học có thể là 3 bazơ (tương ứng với một codon), hoặc 6 đến 10 bazơ (tương ứng với vị trí gắn kết yếu tố phiên mã), thậm chí có thể dài hơn. Điều này giống như đọc một bài viết mà tất cả các chữ cái đều dính liền vào nhau, bạn cần phải đoán xem nên ngắt từ ở đâu để có được ý nghĩa chính xác.
Thử thách thứ ba là vấn đề về độ dài trình tự. Trình tự DNA có thể rất dài, một số vùng gen kéo dài hàng chục nghìn bazơ, và toàn bộ nhiễm sắc thể thậm chí chứa hàng trăm triệu bazơ. Để đồng thời nắm bắt các đặc điểm cục bộ ngắn hạn (như các vị trí gắn kết cụ thể) và các mối quan hệ phụ thuộc toàn cục dài hạn (như tương tác giữa các yếu tố điều hòa từ xa) trong một trình tự dài như vậy là một thách thức lớn đối với máy tính. Điều này giống như yêu cầu một người khi đọc một cuốn tiểu thuyết dài, vừa phải nhớ từng chi tiết mô tả, vừa phải nắm bắt được mạch truyện tổng thể.
Các giải pháp truyền thống thường chỉ giải quyết được một hoặc hai trong ba vấn đề này. Một số phương pháp sử dụng k-mer có độ dài cố định (đoạn gồm k bazơ liên tục) làm đơn vị cơ bản, điều này giải quyết được vấn đề ranh giới từ vựng nhưng không thể thích ứng với sự khác biệt về mật độ thông tin ở các vùng khác nhau. Một số phương pháp sử dụng các bảng từ vựng được định nghĩa trước như BPE (Byte Pair Encoding), nhưng các bảng từ vựng này được xây dựng dựa trên tần suất thống kê chứ không phải ý nghĩa sinh học. Một số phương pháp khác tập trung vào mô hình hóa trình tự dài, sử dụng các mô hình không gian trạng thái thời gian tuyến tính, nhưng hoạt động ở cấp độ bazơ đơn cố định, có thể lãng phí tài nguyên tính toán ở các vùng lặp lại.
Nhóm nghiên cứu nhận ra rằng, để thực sự giải quyết vấn đề mô hình hóa DNA, cần một giải pháp có thể xử lý đồng thời cả ba thách thức này. Giống như một biên tập viên giàu kinh nghiệm, cần điều chỉnh chiến lược đọc tùy theo loại văn bản: phân tích từng từ khi đọc tài liệu pháp lý, lướt nhanh các điểm chính khi đọc báo, và chú ý đến nhịp điệu khi thưởng thức thơ ca. MergeDNA chính là dựa trên ý tưởng này, phát triển một hệ thống phân tích thông minh có khả năng "tùy cơ ứng biến".
Triết lý thiết kế của MergeDNA giống như việc tạo ra một bộ búp bê Nga tinh xảo, mỗi lớp có một chức năng cụ thể, và các lớp phối hợp chặt chẽ với nhau để hoàn thành nhiệm vụ phân tích DNA phức tạp. Toàn bộ hệ thống sử dụng kiến trúc bộ mã hóa tự động (autoencoder), nhưng khác với các bộ mã hóa tự động truyền thống, nó có khả năng "phân tách từ" thông minh và cơ chế xử lý tự thích ứng.
Lớp ngoài cùng là bộ mã hóa cục bộ, hoạt động như một trình soạn thảo văn bản thông minh. Khi nhận một trình tự DNA, bộ mã hóa cục bộ sẽ quan sát sự tương đồng và quy luật của các bazơ lân cận trong một phạm vi nhỏ. Nếu phát hiện một số bazơ lân cận có đặc điểm chức năng tương tự hoặc thường xuyên xuất hiện cùng nhau, nó sẽ "hợp nhất" các bazơ này thành một đơn vị lớn hơn. Quá trình này giống như một biên tập viên sắp xếp bài viết, nhóm các từ và câu có ý nghĩa liên quan thành các đoạn văn. Thông qua nhiều lớp quan sát và hợp nhất cục bộ như vậy, bộ mã hóa cục bộ có thể tự động phát hiện các "điểm ngắt câu tự nhiên" trong trình tự DNA, tạo thành các "từ vựng" có độ dài thay đổi.
Điểm sáng tạo quan trọng là việc hợp nhất này không diễn ra ngẫu nhiên, mà dựa trên một kỹ thuật gọi là "hợp nhất đánh dấu". Nói một cách đơn giản, hệ thống sẽ tính toán điểm tương đồng của các vùng lân cận, sau đó chọn vùng tương đồng nhất để hợp nhất. Điều này giống như khi sắp xếp tủ quần áo, chúng ta sẽ đặt những bộ quần áo có màu sắc hoặc kiểu dáng tương tự cạnh nhau. Bằng cách này, các vùng quan trọng có mật độ thông tin cao sẽ được giữ lại dưới dạng các đoạn ngắn hơn để duy trì độ chính xác, trong khi các vùng có tính lặp lại cao sẽ được hợp nhất thành các đoạn dài hơn để tăng hiệu quả.
Lớp thứ hai là bộ mã hóa tiềm ẩn, nhiệm vụ của nó là xử lý chuỗi "từ vựng" được tạo ra bởi bộ mã hóa cục bộ. Lúc này, độ dài chuỗi đã được rút ngắn đáng kể, từ hàng chục nghìn bazơ ban đầu thành hàng nghìn "đơn vị từ vựng". Bộ mã hóa tiềm ẩn sử dụng cơ chế chú ý toàn phần, giống như một độc giả giàu kinh nghiệm, có thể hiểu từng "từ vựng" đồng thời nắm bắt cấu trúc tổng thể và các mối quan hệ phụ thuộc dài hạn của toàn bộ "bài viết". Lớp này chịu trách nhiệm nắm bắt các mối quan hệ điều hòa kéo dài qua khoảng cách rất xa, ví dụ như tương tác giữa các yếu tố tăng cường và khởi động cách nhau hàng chục nghìn bazơ.
Phần giải mã của hệ thống sử dụng thiết kế đối xứng. Bộ giải mã tiềm ẩn trước tiên phân phối lại thông tin toàn cục về cấp độ "từ vựng", sau đó bộ giải mã cục bộ chịu trách nhiệm khôi phục các "từ vựng" này thành trình tự bazơ gốc. Quá trình này giống như thao tác ngược lại của công việc dịch thuật: trước tiên hiểu ý nghĩa tổng thể của bài viết, sau đó chuyển đổi ý nghĩa đó một cách chính xác trở lại thành các từ và câu cụ thể.
Sự khéo léo của toàn bộ kiến trúc nằm ở chỗ nó thực hiện xử lý thông tin đa quy mô. Ở cấp độ cục bộ, hệ thống có thể nhận diện và xử lý chính xác các yếu tố DNA chức năng, ví dụ như vị trí gắn kết yếu tố phiên mã hoặc vị trí cắt nối. Ở cấp độ toàn cục, hệ thống có thể hiểu các tương tác giữa các yếu tố điều hòa từ xa, nắm bắt mạng lưới phức tạp của điều hòa biểu hiện gen. Thiết kế này giúp MergeDNA vừa có độ chính xác của kính hiển vi, vừa có tầm nhìn toàn cục của kính thiên văn.
Quan trọng hơn, thiết kế phân cấp này có thể được huấn luyện từ đầu đến cuối. Điều này có nghĩa là hệ thống không cần định nghĩa trước cách "phân tách từ" nào là "đúng", mà thông qua việc học các nhiệm vụ phân tích DNA cụ thể, nó tự động khám phá chiến lược phân đoạn trình tự phù hợp nhất. Giống như một đứa trẻ học ngôn ngữ, thông qua việc đọc và luyện tập rất nhiều, dần dần nắm vững cách ngắt câu và cách hiểu cấu trúc bài viết.
Để MergeDNA thực sự học cách hiểu trình tự DNA, nhóm nghiên cứu đã thiết kế hai nhiệm vụ huấn luyện khéo léo, giống như việc dạy một học sinh vừa phải học cách nhận diện từ ngữ chính xác, vừa phải phát triển khả năng đọc hiểu tổng thể. Hai nhiệm vụ này phối hợp với nhau, giúp AI vừa nắm bắt thông tin cục bộ chính xác, vừa hiểu được mối quan hệ ngữ cảnh toàn cục.
Nhiệm vụ đầu tiên được gọi là "tái tạo đánh dấu hợp nhất", có tác dụng như việc huấn luyện một người tốc ký. Trong nhiệm vụ này, hệ thống cần học cách nén và đơn giản hóa trình tự DNA trong khi vẫn giữ lại thông tin quan trọng, sau đó tái tạo trình tự gốc từ phiên bản đã đơn giản hóa này. Quá trình này sẽ đồng thời huấn luyện khả năng phân tách từ của bộ mã hóa cục bộ và khả năng tái tạo của toàn bộ hệ thống. Hãy tưởng tượng, nếu bạn muốn kể lại cốt truyện một bộ phim cho bạn bè, bạn phải chọn những tình tiết quan trọng nhất, bỏ qua các chi tiết dư thừa, nhưng vẫn phải đảm bảo người nghe có thể hiểu được toàn bộ câu chuyện. MergeDNA học chính là khả năng "chắt lọc tinh hoa" này.
Trong quá trình huấn luyện, hệ thống sẽ ngẫu nhiên chọn các tỷ lệ nén khác nhau. Đôi khi nó cần nén trình tự xuống còn một nửa độ dài ban đầu, đôi khi tỷ lệ nén cao hơn. Chiến lược huấn luyện thay đổi này giúp hệ thống học cách linh hoạt điều chỉnh chiến lược phân tách từ trong các tình huống khác nhau. Giống như một biên tập viên giỏi, khi xử lý các loại văn bản khác nhau sẽ áp dụng mức độ tinh giản khác nhau: tài liệu khoa học cần giữ lại nhiều chi tiết hơn, trong khi bài viết phổ thông có thể được đơn giản hóa nhiều hơn.
Nhiệm vụ thứ hai được gọi là "mô hình hóa đánh dấu che mặt thích ứng", đây là một cải tiến sáng tạo của mô hình hóa ngôn ngữ che mặt truyền thống. Mô hình hóa che mặt truyền thống giống như việc ngẫu nhiên xóa bỏ một số từ trong bài viết, sau đó để AI đoán xem những vị trí này nên điền nội dung gì. Nhưng trình tự DNA khác với văn bản thông thường, giá trị thông tin của một số vùng cao hơn nhiều so với các vùng khác. Do đó, MergeDNA sử dụng một chiến lược che mặt thông minh: nó sẽ tập trung che mặt những vùng được xác định là quan trọng trong nhiệm vụ đầu tiên, và ít chú ý hơn đến những vùng tương đối dư thừa.
Sự khéo léo của chiến lược này nằm ở chỗ nó tạo thành một vòng lặp phản hồi tích cực. Nhiệm vụ đầu tiên giúp hệ thống nhận diện những vùng nào là quan trọng (những vùng khó bị hợp nhất), và nhiệm vụ thứ hai đặc biệt tăng cường khả năng hiểu những vùng quan trọng này. Điều này giống như một học sinh khi ôn tập, sẽ dành nhiều thời gian hơn cho những chương quan trọng và khó, còn đối với những nội dung đơn giản đã nắm vững thì chỉ xem lại đơn giản.
Việc huấn luyện phối hợp hai nhiệm vụ giúp MergeDNA có được sự kết hợp khả năng độc đáo. Nó không chỉ học cách phân tách từ thông minh dựa trên ý nghĩa sinh học, mà còn học cách dự đoán các chi tiết cục bộ dựa trên việc hiểu thông tin toàn cục. Khả năng này cực kỳ quan trọng đối với phân tích DNA, vì điều hòa gen thường liên quan đến sự tương tác phức tạp giữa các yếu tố chính xác cục bộ và mạng lưới điều hòa toàn cục.
Một sáng tạo quan trọng trong quá trình huấn luyện là thiết kế hàm mất mát. Nhóm nghiên cứu đã cân bằng cẩn thận trọng số của ba thành phần mất mát: mất mát tái tạo chính, mất mát tái tạo cấp độ tiềm ẩn với trọng số nhẹ hơn (0.25), và mất mát dự đoán che mặt thích ứng. Thiết kế trọng số này đảm bảo hệ thống vừa học được chiến lược phân tách từ hiệu quả, vừa không quá phụ thuộc vào một tín hiệu học tập nào đó. Giống như việc nuôi dưỡng một học sinh phát triển toàn diện, cần tìm tỷ lệ huấn luyện phù hợp giữa các khả năng khác nhau.
Thông qua chiến lược huấn luyện hai nhiệm vụ này, MergeDNA cuối cùng đã học được một cách đọc DNA tương tự như các chuyên gia con người: nhanh chóng nhận diện các vùng quan trọng khi quét toàn bộ trình tự, sau đó phân tích chi tiết các vùng này, đồng thời duy trì sự hiểu biết về cấu trúc tổng thể. Khả năng này giúp nó hoạt động xuất sắc trong nhiều nhiệm vụ phân tích DNA khác nhau.
Để kiểm chứng hiệu quả thực tế của MergeDNA, nhóm nghiên cứu đã tiến hành một loạt các thí nghiệm so sánh toàn diện, giống như một bài kiểm tra năng lực nghiêm ngặt, để hệ thống mới này chứng minh bản thân trong nhiều thách thức khác nhau. Các thí nghiệm bao gồm từ phân tích trình tự DNA cơ bản đến các nhiệm vụ đa omics phức tạp, phạm vi thử nghiệm rộng lớn như một cuộc thi học thuật tổng hợp.
Trong các nhiệm vụ phân tích bộ gen cơ bản, MergeDNA đối mặt với ba thách thức kinh điển: nhận diện yếu tố tăng cường, phân loại loài và dự đoán yếu tố điều hòa. Những nhiệm vụ này giống như các câu hỏi cơ bản trong bài kiểm tra ngữ văn, kiểm tra khả năng hiểu các đặc điểm cơ bản của trình tự DNA. Kết quả cho thấy, MergeDNA đạt độ chính xác trung bình 90.87%, vượt qua các mô hình tốt nhất trước đây. Đặc biệt đáng chú ý là trong nhiệm vụ nhận diện yếu tố tăng cường, một nhiệm vụ đòi hỏi độ chính xác cực cao, MergeDNA đạt độ chính xác 85.11%, tăng 0.24 điểm phần trăm so với thành tích tốt nhất trước đó. Mặc dù mức tăng có vẻ không lớn, nhưng trong lĩnh vực tin sinh học, ngay cả một sự cải thiện nhỏ về độ chính xác cũng có thể đồng nghĩa với ít kết quả dương tính giả hơn và những khám phá sinh học đáng tin cậy hơn.
Thử thách lớn hơn đến từ điểm chuẩn Nucleotide Transformer, bao gồm 18 nhiệm vụ phụ khác nhau, từ dự đoán biến đổi histone đến phát hiện vị trí cắt nối. Điều này giống như tham gia một kỳ thi tổng hợp gồm nhiều môn học, mỗi môn có tiêu chí chấm điểm và mức độ khó khác nhau. MergeDNA đạt điểm trung bình 78.39 trong bài kiểm tra tổng hợp này, một lần nữa giành vị trí dẫn đầu. Đặc biệt ấn tượng là trong 18 nhiệm vụ phụ, MergeDNA đạt điểm cao nhất ở 10 nhiệm vụ, cho thấy khả năng tổng quát mạnh mẽ.
Trong điểm chuẩn Đánh giá hiểu biết bộ gen (GUE), MergeDNA đối mặt với 24 nhiệm vụ chuyên biệt hơn, bao gồm dự đoán dấu hiệu biểu sinh, phát hiện vị trí gắn kết yếu tố phiên mã, v.v. Những nhiệm vụ này giống như các bài kiểm tra chuyên sâu trong một lĩnh vực cụ thể, đòi hỏi sự hiểu biết sâu sắc về các quá trình sinh học nhất định. MergeDNA giành chiến thắng với điểm trung bình 77.11%, thậm chí vượt qua mô hình lớn HybriDNA-7B với 7 tỷ tham số (76.42%). Kết quả này đặc biệt đáng chú ý, vì nó cho thấy chiến lược phân tách từ thông minh của MergeDNA hiệu quả hơn việc đơn giản mở rộng quy mô mô hình.
Nhóm nghiên cứu cũng đã kiểm tra khả năng của MergeDNA trong các nhiệm vụ đa omics, những nhiệm vụ này đòi hỏi hệ thống không chỉ hiểu trình tự DNA mà còn có thể dự đoán cắt nối RNA, biểu hiện gen và chức năng protein cũng như các quá trình sinh học hạ nguồn khác. Trong nhiệm vụ dự đoán vị trí cắt nối RNA, MergeDNA đạt điểm AUROC 69.8, vượt trội đáng kể so với mô hình SpliceAI cổ điển (63.2). Trong nhiệm vụ dự đoán đặc điểm định lượng biểu hiện dài hạn, MergeDNA cũng đạt được thành tích tốt nhất mới: đạt điểm AUROC 0.75 trong dự đoán hiệu ứng eQTL nhân quả và hệ số tương quan R² 0.62 trong dự đoán biểu hiện RNA hàng loạt.
Thử thách lớn nhất là dự đoán khả năng thích ứng protein không mẫu, yêu cầu mô hình chỉ dựa vào thông tin trình tự DNA để dự đoán tác động chức năng của biến thể protein mà không cần huấn luyện với dữ liệu protein. Điều này giống như yêu cầu một học sinh chỉ học tiếng Trung Quốc hiểu ý nghĩa của một bài báo tiếng Pháp. Trong nhiệm vụ cực kỳ thách thức này, MergeDNA đạt hệ số tương quan Spearman 42.72% trên protein vi khuẩn và 20.58% trên protein người. Mặc dù những điểm số này có vẻ không cao, nhưng xét đây là dự đoán đa phương thức hoàn toàn, hiệu suất như vậy đã khá tốt, chứng tỏ biểu diễn DNA mà MergeDNA học được có tính tổng quát sinh học tốt.
Thông qua việc so sánh các phương pháp cơ bản khác nhau, nhóm nghiên cứu cũng phát hiện ra một số quy luật thú vị. So với các phương pháp sử dụng k-mer cố định hoặc phân tách từ BPE, chiến lược phân tách từ động của MergeDNA mang lại sự cải thiện đáng kể trong hầu hết các nhiệm vụ. So với các phương pháp phân tách từ động khác như lượng tử hóa vector, chiến lược hợp nhất dựa trên sự tương đồng của MergeDNA cũng cho thấy ưu điểm rõ rệt. Những kết quả này cùng chứng minh giá trị quan trọng của phân tách từ thông minh đối với phân tích DNA.
Để hiểu sâu hơn về cách MergeDNA hoạt động, nhóm nghiên cứu đã phân tích kỹ lưỡng chiến lược phân tách từ mà hệ thống học được, điều này giống như nghiên cứu phương pháp học của một học sinh xuất sắc, xem cách bạn ấy áp dụng các chiến lược đọc khác nhau cho các loại tài liệu khác nhau. Kết quả phân tích cho thấy AI thực sự thể hiện "trí tuệ" đáng kinh ngạc khi xử lý các vùng chức năng sinh học khác nhau.
Khi đối mặt với các vùng có trình tự bảo tồn ngắn và chính xác như vị trí cắt nối, MergeDNA đã học cách sử dụng độ dài phân tách từ ngắn hơn, chủ yếu tập trung vào khoảng 4 bazơ. Chiến lược này hoàn toàn phù hợp với kiến thức sinh học thông thường, vì việc nhận diện vị trí cắt nối phụ thuộc vào các mẫu trình tự ngắn rất chính xác, như tín hiệu "GT-AG" kinh điển. AI dường như đã tự phát hiện ra quy luật này, chọn sử dụng "kính hiển vi" độ phân giải cao để quan sát các vị trí quan trọng này.
Ngược lại, khi xử lý các vùng khởi động, MergeDNA có xu hướng sử dụng độ dài phân tách từ trung bình, đỉnh điểm khoảng 7 bazơ. Vùng khởi động thường chứa nhiều vị trí gắn kết yếu tố phiên mã, các vị trí này thường có độ dài từ 6-10 bazơ, và chiến lược phân tách từ mà AI học được trùng khớp với đặc điểm sinh học này. Điều này giống như một người đọc bản nhạc giàu kinh nghiệm, biết khi nào nên chú ý đến từng nốt nhạc, khi nào nên nắm bắt toàn bộ hợp âm.
Phát hiện thú vị nhất đến từ phân tích các vùng tăng cường. Yếu tố tăng cường là "bộ điều khiển từ xa" trong điều hòa gen, thường chứa sự kết hợp của nhiều yếu tố điều hòa, cần được hiểu trong ngữ cảnh lớn hơn để xác định chức năng của chúng. MergeDNA khi xử lý các vùng này đã chọn độ dài phân tách từ dài hơn, đỉnh điểm đạt 9 bazơ. Chiến lược này phản ánh sự phức tạp của chức năng yếu tố tăng cường: một trình tự ngắn đơn lẻ thường không đủ để quyết định chức năng của nó, mà cần xem xét sự kết hợp và sắp xếp trình tự trong phạm vi lớn hơn.
Nhóm nghiên cứu cũng đã so sánh chiến lược phân tách từ của MergeDNA với hai phương pháp phân tách từ cố định tiêu biểu. Phương pháp BPE truyền thống (dựa trên mã hóa cặp byte) tạo ra phân bố độ dài phân tách từ có dạng đuôi dài điển hình, đỉnh điểm ở khoảng 6 bazơ, nhưng áp dụng cùng một mô hình phân tách từ cơ bản cho các vùng chức năng khác nhau. Điều này giống như dùng cùng một chiếc thước để đo mọi thứ, thiếu tính mục tiêu. Một phương pháp MxDNA khác dựa trên lượng tử hóa vector, mặc dù cũng là phân tách từ động, nhưng phân bố độ dài phân tách từ của nó tương đối phẳng, không thể hiện sự phụ thuộc ngữ cảnh rõ ràng.
Phân tích sâu hơn cho thấy một đặc điểm quan trọng khác của chiến lược phân tách từ của MergeDNA: nó có khả năng nhận diện và xử lý các vùng trình tự lặp lại. Trong bộ gen, một số vùng chứa một lượng lớn các yếu tố DNA lặp lại, những vùng này có mật độ thông tin tương đối thấp. Các phương pháp truyền thống thường dành cùng một lượng tài nguyên tính toán cho mỗi đơn vị lặp lại, trong khi MergeDNA đã học cách hợp nhất các vùng lặp lại này thành các đơn vị lớn hơn, từ đó nâng cao hiệu quả xử lý. Chiến lược này tương tự như phương pháp "đọc lướt" trong kỹ thuật đọc nhanh, đối với nội dung lặp lại thì lướt nhanh, tập trung nhiều hơn vào thông tin chính.
Thông qua các thí nghiệm loại bỏ thành phần, nhóm nghiên cứu cũng đã xác minh đóng góp của các thành phần khác nhau vào hiệu suất cuối cùng. Kết quả cho thấy, nếu loại bỏ chức năng phân tách từ động, chỉ sử dụng phân tách từ độ dài cố định truyền thống, hiệu suất hệ thống sẽ giảm 1.57 điểm phần trăm. Nếu tiếp tục loại bỏ chiến lược huấn luyện che mặt thích ứng, hiệu suất giảm sẽ còn đáng kể hơn. Những kết quả này chứng minh rằng phân tách từ thông minh không phải là một yếu tố trang trí có hay không cũng được, mà là động lực chính cho hiệu suất cao của hệ thống.
Đặc biệt đáng chú ý là chiến lược phân tách từ của MergeDNA có khả năng giải thích sinh học rất tốt. Thông qua việc phân tích các mô hình hợp nhất mà hệ thống học được, các nhà nghiên cứu phát hiện ra rằng nhiều quyết định hợp nhất tương ứng với ranh giới của các yếu tố DNA chức năng đã biết. Điều này có nghĩa là AI không chỉ học được các chiến lược xử lý trình tự hiệu quả ở cấp độ thống kê, mà còn ở một mức độ nào đó đã "hiểu" được nguyên lý tổ chức sinh học của trình tự DNA. Sự hiểu biết này mang lại những gợi ý quý giá cho việc phát triển các hệ thống AI tin sinh học có khả năng giải thích tốt hơn trong tương lai.
Bên cạnh việc nâng cao độ chính xác, MergeDNA còn thể hiện xuất sắc về hiệu quả tính toán, điều này cũng quan trọng không kém đối với các ứng dụng thực tế. Phân tích bộ gen hiện đại thường cần xử lý các trình tự DNA rất dài, đôi khi có thể lên đến hàng triệu bazơ. Nếu độ phức tạp tính toán của thuật toán quá cao, dù độ chính xác có tốt đến mấy cũng khó có thể sử dụng trong thực tế.
Thiết kế phân cấp của MergeDNA đã giải quyết khéo léo vấn đề này. Thông qua thao tác phân tách từ của bộ mã hóa cục bộ, hệ thống đã rút ngắn đáng kể độ dài trình tự gốc. Thông thường, một trình tự gồm 4096 bazơ sau khi được bộ mã hóa cục bộ xử lý sẽ được nén thành khoảng 2048 đơn vị "từ vựng", sau đó bộ mã hóa tiềm ẩn tiếp tục nén thành khoảng 1024 biểu diễn cấp cao hơn. Chiến lược nén theo từng bước này cho phép hệ thống duy trì tính toàn vẹn thông tin đồng thời giảm đáng kể độ dài trình tự cần xử lý.
Quan trọng hơn, bộ mã hóa cục bộ sử dụng cơ chế chú ý cửa sổ cục bộ, với độ phức tạp tính toán tỷ lệ tuyến tính với độ dài trình tự, chứ không phải tỷ lệ bình phương như cơ chế chú ý toàn phần truyền thống. Điều này giống như việc cải tiến từ một thuật toán sắp xếp phức tạp cần so sánh tất cả các phần tử theo cặp, thành một thuật toán hiệu quả chỉ so sánh trong phạm vi nhỏ. Chỉ ở cấp độ bộ mã hóa tiềm ẩn, hệ thống mới sử dụng cơ chế chú ý toàn phần, nhưng lúc này độ dài trình tự cần xử lý đã được rút ngắn đáng kể, gánh nặng tính toán trở nên chấp nhận được.
Các thử nghiệm thực tế cho thấy, MergeDNA có thể xử lý trình tự dài tới 4096 bazơ trên một GPU NVIDIA A100 duy nhất, với thời gian huấn luyện khoảng 5 ngày. Xét đến mức độ phức tạp của hệ thống và hiệu suất cuối cùng, chi phí tính toán như vậy là hoàn toàn hợp lý. Trong giai đoạn suy luận, tốc độ của hệ thống còn được cải thiện đáng kể, có thể nhanh chóng xử lý các trình tự DNA mới để dự đoán.
Nhóm nghiên cứu cũng đã xem xét tính linh hoạt của hệ thống trong các tình huống ứng dụng khác nhau. Đối với các nhiệm vụ phân loại cấp độ trình tự (như xác định một đoạn DNA có phải là yếu tố tăng cường hay không), hệ thống có thể chỉ sử dụng phần bộ mã hóa, bỏ qua thành phần bộ giải mã, từ đó nâng cao hiệu quả hơn nữa. Đối với các nhiệm vụ cần tạo trình tự DNA, có thể sử dụng kiến trúc bộ mã hóa-giải mã hoàn chỉnh. Đối với các nhiệm vụ cần dự đoán cấp độ bazơ (như dự đoán khả năng tiếp cận chromatin ở mỗi vị trí), hệ thống sẽ giữ lại bộ giải mã cục bộ để khôi phục độ phân giải của trình tự gốc.
Thiết kế mô-đun này giúp MergeDNA có tính thực tiễn cao. Mô hình mà nhóm nghiên cứu cung cấp chứa 380 triệu tham số, quy mô này tuy không nhỏ nhưng vẫn tương đối vừa phải so với một số mô hình ngôn ngữ lớn có hàng chục tỷ tham số. Quan trọng hơn, nhờ có chiến lược phân tách từ thông minh, MergeDNA thường có thể đạt được hoặc thậm chí vượt qua hiệu suất của các mô hình lớn hơn với tài nguyên tính toán tương đối ít hơn.
Trong quá trình triển khai thực tế, MergeDNA còn hỗ trợ nhiều chiến lược tối ưu hóa. Đối với môi trường bộ nhớ hạn chế, có thể sử dụng kỹ thuật kiểm tra điểm gradient để giảm mức sử dụng bộ nhớ. Đối với các tình huống cần xử lý trình tự siêu dài, có thể áp dụng phương pháp cửa sổ trượt để xử lý trình tự dài theo từng đoạn, sau đó tích hợp kết quả. Những cân nhắc thực tiễn này giúp MergeDNA không chỉ là một thành quả nghiên cứu trong phòng thí nghiệm, mà còn là một công cụ có thể phát huy tác dụng trong quy trình tin sinh học thực tế.
Nhóm nghiên cứu đã bắt đầu hợp tác với nhiều công ty công nghệ sinh học và tổ chức y tế để áp dụng MergeDNA vào các dự án phân tích bộ gen thực tế. Những phản hồi ban đầu cho thấy, hệ thống này có tiềm năng tốt trong việc xử lý dữ liệu bộ gen lâm sàng, lai tạo cây trồng và phân tích hệ vi sinh vật. Thành công của những ứng dụng thực tế này chứng minh tính khả thi của việc chuyển đổi nghiên cứu học thuật thành công cụ hữu ích.
Thành công của MergeDNA không chỉ là chiến thắng của một thuật toán đơn lẻ, mà quan trọng hơn, nó thể hiện một tư duy hoàn toàn mới: làm thế nào để AI thực sự hiểu và thích nghi với các đặc tính đặc biệt của dữ liệu sinh học. Ảnh hưởng của tư duy này có thể vượt xa phạm vi phân tích trình tự DNA, mang lại những thay đổi sâu sắc cho toàn bộ lĩnh vực AI tin sinh học.
Các phương pháp tin sinh học truyền thống thường theo mô hình "có công cụ trước, rồi tìm ứng dụng". Các nhà nghiên cứu phát triển các thuật toán học máy tổng quát, sau đó cố gắng áp dụng chúng vào các vấn đề sinh học. Mặc dù cách này thường đạt được kết quả tốt trong nhiều trường hợp, nhưng thường bỏ qua tính đặc thù của dữ liệu sinh học. Trình tự DNA khác với văn bản ngôn ngữ tự nhiên, cấu trúc protein khác với dữ liệu hình ảnh, mạng lưới tế bào khác với mạng xã hội. Đơn giản là mượn các công cụ có sẵn từ các lĩnh vực khác, giống như dùng đũa ăn món Tây, tuy vẫn hoàn thành chức năng cơ bản nhưng không phải là lựa chọn tối ưu.
MergeDNA đại diện cho triết lý thiết kế "ưu tiên sinh học". Nhóm nghiên cứu xuất phát từ bản chất của vấn đề sinh học, phân tích sâu sắc các đặc điểm của trình tự DNA, sau đó thiết kế kiến trúc thuật toán tương ứng. Phương pháp này giống như việc thiết kế dụng cụ ăn chuyên dụng cho một món ăn cụ thể, có thể phát huy chức năng tốt hơn. Thành công của chiến lược phân tách từ thông minh chứng minh giá trị của tư duy này: khi thuật toán AI thực sự hiểu được các quy luật nội tại của dữ liệu sinh học, nó có thể thể hiện hiệu suất vượt xa các phương pháp truyền thống.
Ý nghĩa sâu sắc hơn là MergeDNA cho thấy cách AI học cách "tự khám phá" các quy luật sinh học. Các phương pháp truyền thống thường yêu cầu các nhà nghiên cứu định nghĩa trước các đặc điểm sinh học khác nhau, sau đó để thuật toán học dựa trên các đặc điểm này. Nhưng chiến lược phân tách từ của MergeDNA hoàn toàn được học từ dữ liệu, không có ai cố ý nói cho nó biết rằng vị trí cắt nối nên dùng phân tách từ ngắn, vùng khởi động nên dùng phân tách từ trung bình. AI thông qua việc học rất nhiều, đã tự khám phá ra những quy luật sinh học này, thậm chí ở một số khía cạnh còn vượt qua nhận thức của các chuyên gia con người.
Khả năng "tự khám phá" này có ý nghĩa quan trọng đối với nghiên cứu sinh học trong tương lai. Với sự phát triển của công nghệ giải trình tự, chúng ta thu được ngày càng nhiều dữ liệu sinh học, nhưng sự hiểu biết của chúng ta về những dữ liệu này thường không theo kịp tốc độ tích lũy dữ liệu. Cách truyền thống là hình thành giả thuyết trước, sau đó thiết kế thí nghiệm để kiểm chứng giả thuyết, nhưng cách này tỏ ra bất lực khi đối mặt với lượng dữ liệu khổng lồ. Các hệ thống AI có khả năng tự khám phá quy luật dữ liệu như MergeDNA, cung cấp cho chúng ta một mô hình khám phá khoa học hoàn toàn mới: để AI trước tiên khám phá các mô hình thú vị từ dữ liệu, sau đó hướng dẫn các nhà khoa học con người tiến hành nghiên cứu sâu hơn.
Thành công của MergeDNA cũng mang lại gợi ý cho việc phân tích các dữ liệu omics sinh học khác. Trình tự RNA, trình tự protein, và dữ liệu biến đổi biểu sinh, v.v., đều có những đặc điểm tương tự như trình tự DNA: mật độ thông tin không đồng đều, thiếu ranh giới phân đoạn tự nhiên, cần hiểu biết đa quy mô. Dựa trên triết lý thiết kế của MergeDNA, các nhà nghiên cứu có thể phát triển các hệ thống phân tích thông minh phù hợp với các loại dữ liệu khác nhau này.
Từ góc độ rộng hơn, triết lý "phân tích thích ứng" mà MergeDNA thể hiện cũng có thể ảnh hưởng đến các lĩnh vực khoa học khác. Trong thiên văn học, các loại thiên thể khác nhau cần các chiến lược quan sát khác nhau; trong khoa học khí hậu, các mô hình khí hậu ở các khu vực khác nhau cần các phương pháp phân tích khác nhau; trong khoa học vật liệu, các cấu trúc ở các quy mô khác nhau cần các phương pháp mô hình hóa khác nhau. Tư duy điều chỉnh chiến lược phân tích động mà MergeDNA thể hiện, có thể truyền cảm hứng cho các lĩnh vực này phát triển các công cụ phân tích thông minh và thích ứng hơn.
Ngoài ra, chiến lược huấn luyện đa nhiệm của MergeDNA cũng cung cấp những ý tưởng mới cho thiết kế hệ thống AI. Bằng cách thiết kế khéo léo các nhiệm vụ huấn luyện bổ sung cho nhau, có thể giúp hệ thống AI đồng thời học được nhiều khả năng, đạt được hiệu quả "một công đôi việc". Phương pháp này không chỉ nâng cao hiệu quả học tập mà còn tăng cường khả năng tổng quát hóa của mô hình, giúp nó hoạt động ổn định hơn khi đối mặt với các nhiệm vụ chưa biết.
Tóm lại, giá trị thực sự của MergeDNA nằm ở chỗ nó chứng minh một quan điểm quan trọng: khi chúng ta thực sự hiểu và tôn trọng các đặc tính nội tại của dữ liệu, AI có thể phát huy tối đa tiềm năng. Quan điểm này không chỉ áp dụng cho tin sinh học, mà còn cho tất cả các lĩnh vực cần xử lý dữ liệu phức tạp. Các hệ thống AI trong tương lai không chỉ nên là bộ xử lý thông tin tổng quát, mà còn nên là những trợ lý thông minh có khả năng hiểu sâu kiến thức chuyên ngành.
Cuối cùng, thành quả nghiên cứu này từ Đại học Chiết Giang, Đại học Tây Hồ và Viện BioMap không chỉ cung cấp một công cụ mới mạnh mẽ cho phân tích trình tự DNA, mà còn cho chúng ta thấy một tương lai tươi sáng về sự kết hợp sâu sắc giữa AI và sinh học. Trong tương lai đó, AI không còn là công cụ đơn giản cho nghiên cứu sinh học, mà là một đối tác thông minh có khả năng hiểu ngôn ngữ sự sống, khám phá các quy luật sinh học và hỗ trợ khám phá khoa học. MergeDNA chỉ là một khởi đầu cho tương lai đầy hứa hẹn này, và với sự xuất hiện của nhiều đổi mới tương tự, chúng ta có lý do để mong đợi AI sẽ mang lại nhiều bất ngờ và đột phá hơn nữa cho khoa học sự sống.
Nguồn: Sohu
Trong sinh học, chúng ta thường nghe đến khái niệm "mật mã sự sống", chính là trình tự DNA. Giống như việc đọc một cuốn sách cần hiểu nghĩa của từng từ, từng câu, máy tính cũng cần "phân tách từ" trình tự DNA – tức là cắt chuỗi bazơ liên tục thành những đoạn có ý nghĩa. Tuy nhiên, DNA khác biệt cơ bản so với văn bản thông thường ở chỗ nó không có "dấu câu" tự nhiên để báo hiệu chỗ ngắt câu. Phức tạp hơn nữa, trình tự DNA giống như một cuốn bách khoa toàn thư với mật độ thông tin cực kỳ không đồng đều: có những vùng chứa lượng thông tin khổng lồ (như vùng mã hóa protein), nhưng cũng có những vùng tương đối "trống rỗng" (như vùng trình tự lặp lại).
Các phương pháp phân tích DNA truyền thống thường giống như dùng một chiếc thước cố định để đo mọi thứ, dù là chi tiết đồng hồ tinh xảo hay tấm ván gỗ thô kệch, đều dùng cùng một thang đo. Cách tiếp cận "một kích cỡ cho tất cả" này rõ ràng không đủ chính xác. Nhóm nghiên cứu nhận ra rằng, một phân tích DNA thực sự hiệu quả cần phải giống như một người thợ may lành nghề, có khả năng chọn phương pháp cắt may phù hợp với từng loại vải – xử lý tinh vi các vùng giàu thông tin và tổng hợp sơ bộ các vùng lặp lại đơn giản.
Điểm sáng tạo cốt lõi của MergeDNA nằm ở việc phát triển một hệ thống "phân tách từ thông minh", có khả năng tự động điều chỉnh mức độ phân tích dựa trên nội dung thực tế của trình tự DNA. Nó giống như một trình đọc thông minh, khi gặp tài liệu kỹ thuật sẽ đọc chậm lại để phân tích kỹ từng từ, còn khi gặp tình tiết tiểu thuyết thì có thể lướt nhanh để nắm bắt ý chính. Khả năng tự thích ứng này giúp MergeDNA khi xử lý các trình tự gen dài hàng chục nghìn, thậm chí hàng triệu bazơ, vừa không bỏ lỡ thông tin quan trọng, vừa không bị kéo chậm bởi nội dung dư thừa. Điều thú vị hơn nữa là công nghệ này không chỉ hoạt động xuất sắc trong phân tích DNA mà còn có thể mở rộng sang phân tích các phân tử sinh học khác như RNA và protein. Điều này có nghĩa là chúng ta có thể sớm sở hữu một "công cụ giải mã mật mã sinh học vạn năng", mang lại những tiến bộ mang tính cách mạng cho chẩn đoán bệnh, phát triển thuốc và y học cá nhân hóa.
Để hiểu được ý nghĩa đột phá của MergeDNA, trước tiên chúng ta cần nắm rõ những khó khăn mà mô hình hóa DNA truyền thống phải đối mặt. Mô hình hóa trình tự DNA giống như cố gắng hiểu một cuốn "thiên thư" đặc biệt, không có dấu câu, không có đoạn văn, và có thể dài đến hàng triệu ký tự. Cuốn thiên thư này có ba đặc điểm khiến chúng ta phải đau đầu.
Thử thách đầu tiên là mật độ thông tin cực kỳ không đồng đều. Trong bộ gen người, chỉ khoảng 2% là vùng mã hóa, chứa "công thức" tạo ra protein, với mật độ thông tin cực cao, mỗi ký tự đều có thể ảnh hưởng đến chức năng của sản phẩm cuối cùng. 98% còn lại là vùng không mã hóa, bao gồm các yếu tố điều hòa, trình tự lặp lại và các vùng mà chức năng hiện tại vẫn chưa rõ ràng. Điều này giống như một cuốn sách nấu ăn, chỉ có vài trang là công thức chính xác, còn phần lớn nội dung hoặc là hình ảnh trang trí, hoặc là thông tin nền lặp đi lặp lại. Các phương pháp truyền thống thường dành sự quan tâm như nhau cho mọi trang của cuốn "sách nấu ăn" này, điều này rõ ràng không hiệu quả.
Thử thách thứ hai là DNA không có "ranh giới từ vựng" tự nhiên. Ngôn ngữ thông thường có khoảng trắng, dấu câu giúp chúng ta phân biệt từ ngữ, nhưng trình tự DNA là một chuỗi liên tục gồm bốn bazơ (A, T, G, C). Một "từ vựng" có ý nghĩa sinh học có thể là 3 bazơ (tương ứng với một codon), hoặc 6 đến 10 bazơ (tương ứng với vị trí gắn kết yếu tố phiên mã), thậm chí có thể dài hơn. Điều này giống như đọc một bài viết mà tất cả các chữ cái đều dính liền vào nhau, bạn cần phải đoán xem nên ngắt từ ở đâu để có được ý nghĩa chính xác.
Thử thách thứ ba là vấn đề về độ dài trình tự. Trình tự DNA có thể rất dài, một số vùng gen kéo dài hàng chục nghìn bazơ, và toàn bộ nhiễm sắc thể thậm chí chứa hàng trăm triệu bazơ. Để đồng thời nắm bắt các đặc điểm cục bộ ngắn hạn (như các vị trí gắn kết cụ thể) và các mối quan hệ phụ thuộc toàn cục dài hạn (như tương tác giữa các yếu tố điều hòa từ xa) trong một trình tự dài như vậy là một thách thức lớn đối với máy tính. Điều này giống như yêu cầu một người khi đọc một cuốn tiểu thuyết dài, vừa phải nhớ từng chi tiết mô tả, vừa phải nắm bắt được mạch truyện tổng thể.
Các giải pháp truyền thống thường chỉ giải quyết được một hoặc hai trong ba vấn đề này. Một số phương pháp sử dụng k-mer có độ dài cố định (đoạn gồm k bazơ liên tục) làm đơn vị cơ bản, điều này giải quyết được vấn đề ranh giới từ vựng nhưng không thể thích ứng với sự khác biệt về mật độ thông tin ở các vùng khác nhau. Một số phương pháp sử dụng các bảng từ vựng được định nghĩa trước như BPE (Byte Pair Encoding), nhưng các bảng từ vựng này được xây dựng dựa trên tần suất thống kê chứ không phải ý nghĩa sinh học. Một số phương pháp khác tập trung vào mô hình hóa trình tự dài, sử dụng các mô hình không gian trạng thái thời gian tuyến tính, nhưng hoạt động ở cấp độ bazơ đơn cố định, có thể lãng phí tài nguyên tính toán ở các vùng lặp lại.
Nhóm nghiên cứu nhận ra rằng, để thực sự giải quyết vấn đề mô hình hóa DNA, cần một giải pháp có thể xử lý đồng thời cả ba thách thức này. Giống như một biên tập viên giàu kinh nghiệm, cần điều chỉnh chiến lược đọc tùy theo loại văn bản: phân tích từng từ khi đọc tài liệu pháp lý, lướt nhanh các điểm chính khi đọc báo, và chú ý đến nhịp điệu khi thưởng thức thơ ca. MergeDNA chính là dựa trên ý tưởng này, phát triển một hệ thống phân tích thông minh có khả năng "tùy cơ ứng biến".
Triết lý thiết kế của MergeDNA giống như việc tạo ra một bộ búp bê Nga tinh xảo, mỗi lớp có một chức năng cụ thể, và các lớp phối hợp chặt chẽ với nhau để hoàn thành nhiệm vụ phân tích DNA phức tạp. Toàn bộ hệ thống sử dụng kiến trúc bộ mã hóa tự động (autoencoder), nhưng khác với các bộ mã hóa tự động truyền thống, nó có khả năng "phân tách từ" thông minh và cơ chế xử lý tự thích ứng.
Lớp ngoài cùng là bộ mã hóa cục bộ, hoạt động như một trình soạn thảo văn bản thông minh. Khi nhận một trình tự DNA, bộ mã hóa cục bộ sẽ quan sát sự tương đồng và quy luật của các bazơ lân cận trong một phạm vi nhỏ. Nếu phát hiện một số bazơ lân cận có đặc điểm chức năng tương tự hoặc thường xuyên xuất hiện cùng nhau, nó sẽ "hợp nhất" các bazơ này thành một đơn vị lớn hơn. Quá trình này giống như một biên tập viên sắp xếp bài viết, nhóm các từ và câu có ý nghĩa liên quan thành các đoạn văn. Thông qua nhiều lớp quan sát và hợp nhất cục bộ như vậy, bộ mã hóa cục bộ có thể tự động phát hiện các "điểm ngắt câu tự nhiên" trong trình tự DNA, tạo thành các "từ vựng" có độ dài thay đổi.
Điểm sáng tạo quan trọng là việc hợp nhất này không diễn ra ngẫu nhiên, mà dựa trên một kỹ thuật gọi là "hợp nhất đánh dấu". Nói một cách đơn giản, hệ thống sẽ tính toán điểm tương đồng của các vùng lân cận, sau đó chọn vùng tương đồng nhất để hợp nhất. Điều này giống như khi sắp xếp tủ quần áo, chúng ta sẽ đặt những bộ quần áo có màu sắc hoặc kiểu dáng tương tự cạnh nhau. Bằng cách này, các vùng quan trọng có mật độ thông tin cao sẽ được giữ lại dưới dạng các đoạn ngắn hơn để duy trì độ chính xác, trong khi các vùng có tính lặp lại cao sẽ được hợp nhất thành các đoạn dài hơn để tăng hiệu quả.
Lớp thứ hai là bộ mã hóa tiềm ẩn, nhiệm vụ của nó là xử lý chuỗi "từ vựng" được tạo ra bởi bộ mã hóa cục bộ. Lúc này, độ dài chuỗi đã được rút ngắn đáng kể, từ hàng chục nghìn bazơ ban đầu thành hàng nghìn "đơn vị từ vựng". Bộ mã hóa tiềm ẩn sử dụng cơ chế chú ý toàn phần, giống như một độc giả giàu kinh nghiệm, có thể hiểu từng "từ vựng" đồng thời nắm bắt cấu trúc tổng thể và các mối quan hệ phụ thuộc dài hạn của toàn bộ "bài viết". Lớp này chịu trách nhiệm nắm bắt các mối quan hệ điều hòa kéo dài qua khoảng cách rất xa, ví dụ như tương tác giữa các yếu tố tăng cường và khởi động cách nhau hàng chục nghìn bazơ.
Phần giải mã của hệ thống sử dụng thiết kế đối xứng. Bộ giải mã tiềm ẩn trước tiên phân phối lại thông tin toàn cục về cấp độ "từ vựng", sau đó bộ giải mã cục bộ chịu trách nhiệm khôi phục các "từ vựng" này thành trình tự bazơ gốc. Quá trình này giống như thao tác ngược lại của công việc dịch thuật: trước tiên hiểu ý nghĩa tổng thể của bài viết, sau đó chuyển đổi ý nghĩa đó một cách chính xác trở lại thành các từ và câu cụ thể.
Sự khéo léo của toàn bộ kiến trúc nằm ở chỗ nó thực hiện xử lý thông tin đa quy mô. Ở cấp độ cục bộ, hệ thống có thể nhận diện và xử lý chính xác các yếu tố DNA chức năng, ví dụ như vị trí gắn kết yếu tố phiên mã hoặc vị trí cắt nối. Ở cấp độ toàn cục, hệ thống có thể hiểu các tương tác giữa các yếu tố điều hòa từ xa, nắm bắt mạng lưới phức tạp của điều hòa biểu hiện gen. Thiết kế này giúp MergeDNA vừa có độ chính xác của kính hiển vi, vừa có tầm nhìn toàn cục của kính thiên văn.
Quan trọng hơn, thiết kế phân cấp này có thể được huấn luyện từ đầu đến cuối. Điều này có nghĩa là hệ thống không cần định nghĩa trước cách "phân tách từ" nào là "đúng", mà thông qua việc học các nhiệm vụ phân tích DNA cụ thể, nó tự động khám phá chiến lược phân đoạn trình tự phù hợp nhất. Giống như một đứa trẻ học ngôn ngữ, thông qua việc đọc và luyện tập rất nhiều, dần dần nắm vững cách ngắt câu và cách hiểu cấu trúc bài viết.
Để MergeDNA thực sự học cách hiểu trình tự DNA, nhóm nghiên cứu đã thiết kế hai nhiệm vụ huấn luyện khéo léo, giống như việc dạy một học sinh vừa phải học cách nhận diện từ ngữ chính xác, vừa phải phát triển khả năng đọc hiểu tổng thể. Hai nhiệm vụ này phối hợp với nhau, giúp AI vừa nắm bắt thông tin cục bộ chính xác, vừa hiểu được mối quan hệ ngữ cảnh toàn cục.
Nhiệm vụ đầu tiên được gọi là "tái tạo đánh dấu hợp nhất", có tác dụng như việc huấn luyện một người tốc ký. Trong nhiệm vụ này, hệ thống cần học cách nén và đơn giản hóa trình tự DNA trong khi vẫn giữ lại thông tin quan trọng, sau đó tái tạo trình tự gốc từ phiên bản đã đơn giản hóa này. Quá trình này sẽ đồng thời huấn luyện khả năng phân tách từ của bộ mã hóa cục bộ và khả năng tái tạo của toàn bộ hệ thống. Hãy tưởng tượng, nếu bạn muốn kể lại cốt truyện một bộ phim cho bạn bè, bạn phải chọn những tình tiết quan trọng nhất, bỏ qua các chi tiết dư thừa, nhưng vẫn phải đảm bảo người nghe có thể hiểu được toàn bộ câu chuyện. MergeDNA học chính là khả năng "chắt lọc tinh hoa" này.
Trong quá trình huấn luyện, hệ thống sẽ ngẫu nhiên chọn các tỷ lệ nén khác nhau. Đôi khi nó cần nén trình tự xuống còn một nửa độ dài ban đầu, đôi khi tỷ lệ nén cao hơn. Chiến lược huấn luyện thay đổi này giúp hệ thống học cách linh hoạt điều chỉnh chiến lược phân tách từ trong các tình huống khác nhau. Giống như một biên tập viên giỏi, khi xử lý các loại văn bản khác nhau sẽ áp dụng mức độ tinh giản khác nhau: tài liệu khoa học cần giữ lại nhiều chi tiết hơn, trong khi bài viết phổ thông có thể được đơn giản hóa nhiều hơn.
Nhiệm vụ thứ hai được gọi là "mô hình hóa đánh dấu che mặt thích ứng", đây là một cải tiến sáng tạo của mô hình hóa ngôn ngữ che mặt truyền thống. Mô hình hóa che mặt truyền thống giống như việc ngẫu nhiên xóa bỏ một số từ trong bài viết, sau đó để AI đoán xem những vị trí này nên điền nội dung gì. Nhưng trình tự DNA khác với văn bản thông thường, giá trị thông tin của một số vùng cao hơn nhiều so với các vùng khác. Do đó, MergeDNA sử dụng một chiến lược che mặt thông minh: nó sẽ tập trung che mặt những vùng được xác định là quan trọng trong nhiệm vụ đầu tiên, và ít chú ý hơn đến những vùng tương đối dư thừa.
Sự khéo léo của chiến lược này nằm ở chỗ nó tạo thành một vòng lặp phản hồi tích cực. Nhiệm vụ đầu tiên giúp hệ thống nhận diện những vùng nào là quan trọng (những vùng khó bị hợp nhất), và nhiệm vụ thứ hai đặc biệt tăng cường khả năng hiểu những vùng quan trọng này. Điều này giống như một học sinh khi ôn tập, sẽ dành nhiều thời gian hơn cho những chương quan trọng và khó, còn đối với những nội dung đơn giản đã nắm vững thì chỉ xem lại đơn giản.
Việc huấn luyện phối hợp hai nhiệm vụ giúp MergeDNA có được sự kết hợp khả năng độc đáo. Nó không chỉ học cách phân tách từ thông minh dựa trên ý nghĩa sinh học, mà còn học cách dự đoán các chi tiết cục bộ dựa trên việc hiểu thông tin toàn cục. Khả năng này cực kỳ quan trọng đối với phân tích DNA, vì điều hòa gen thường liên quan đến sự tương tác phức tạp giữa các yếu tố chính xác cục bộ và mạng lưới điều hòa toàn cục.
Một sáng tạo quan trọng trong quá trình huấn luyện là thiết kế hàm mất mát. Nhóm nghiên cứu đã cân bằng cẩn thận trọng số của ba thành phần mất mát: mất mát tái tạo chính, mất mát tái tạo cấp độ tiềm ẩn với trọng số nhẹ hơn (0.25), và mất mát dự đoán che mặt thích ứng. Thiết kế trọng số này đảm bảo hệ thống vừa học được chiến lược phân tách từ hiệu quả, vừa không quá phụ thuộc vào một tín hiệu học tập nào đó. Giống như việc nuôi dưỡng một học sinh phát triển toàn diện, cần tìm tỷ lệ huấn luyện phù hợp giữa các khả năng khác nhau.
Thông qua chiến lược huấn luyện hai nhiệm vụ này, MergeDNA cuối cùng đã học được một cách đọc DNA tương tự như các chuyên gia con người: nhanh chóng nhận diện các vùng quan trọng khi quét toàn bộ trình tự, sau đó phân tích chi tiết các vùng này, đồng thời duy trì sự hiểu biết về cấu trúc tổng thể. Khả năng này giúp nó hoạt động xuất sắc trong nhiều nhiệm vụ phân tích DNA khác nhau.
Để kiểm chứng hiệu quả thực tế của MergeDNA, nhóm nghiên cứu đã tiến hành một loạt các thí nghiệm so sánh toàn diện, giống như một bài kiểm tra năng lực nghiêm ngặt, để hệ thống mới này chứng minh bản thân trong nhiều thách thức khác nhau. Các thí nghiệm bao gồm từ phân tích trình tự DNA cơ bản đến các nhiệm vụ đa omics phức tạp, phạm vi thử nghiệm rộng lớn như một cuộc thi học thuật tổng hợp.
Trong các nhiệm vụ phân tích bộ gen cơ bản, MergeDNA đối mặt với ba thách thức kinh điển: nhận diện yếu tố tăng cường, phân loại loài và dự đoán yếu tố điều hòa. Những nhiệm vụ này giống như các câu hỏi cơ bản trong bài kiểm tra ngữ văn, kiểm tra khả năng hiểu các đặc điểm cơ bản của trình tự DNA. Kết quả cho thấy, MergeDNA đạt độ chính xác trung bình 90.87%, vượt qua các mô hình tốt nhất trước đây. Đặc biệt đáng chú ý là trong nhiệm vụ nhận diện yếu tố tăng cường, một nhiệm vụ đòi hỏi độ chính xác cực cao, MergeDNA đạt độ chính xác 85.11%, tăng 0.24 điểm phần trăm so với thành tích tốt nhất trước đó. Mặc dù mức tăng có vẻ không lớn, nhưng trong lĩnh vực tin sinh học, ngay cả một sự cải thiện nhỏ về độ chính xác cũng có thể đồng nghĩa với ít kết quả dương tính giả hơn và những khám phá sinh học đáng tin cậy hơn.
Thử thách lớn hơn đến từ điểm chuẩn Nucleotide Transformer, bao gồm 18 nhiệm vụ phụ khác nhau, từ dự đoán biến đổi histone đến phát hiện vị trí cắt nối. Điều này giống như tham gia một kỳ thi tổng hợp gồm nhiều môn học, mỗi môn có tiêu chí chấm điểm và mức độ khó khác nhau. MergeDNA đạt điểm trung bình 78.39 trong bài kiểm tra tổng hợp này, một lần nữa giành vị trí dẫn đầu. Đặc biệt ấn tượng là trong 18 nhiệm vụ phụ, MergeDNA đạt điểm cao nhất ở 10 nhiệm vụ, cho thấy khả năng tổng quát mạnh mẽ.
Trong điểm chuẩn Đánh giá hiểu biết bộ gen (GUE), MergeDNA đối mặt với 24 nhiệm vụ chuyên biệt hơn, bao gồm dự đoán dấu hiệu biểu sinh, phát hiện vị trí gắn kết yếu tố phiên mã, v.v. Những nhiệm vụ này giống như các bài kiểm tra chuyên sâu trong một lĩnh vực cụ thể, đòi hỏi sự hiểu biết sâu sắc về các quá trình sinh học nhất định. MergeDNA giành chiến thắng với điểm trung bình 77.11%, thậm chí vượt qua mô hình lớn HybriDNA-7B với 7 tỷ tham số (76.42%). Kết quả này đặc biệt đáng chú ý, vì nó cho thấy chiến lược phân tách từ thông minh của MergeDNA hiệu quả hơn việc đơn giản mở rộng quy mô mô hình.
Nhóm nghiên cứu cũng đã kiểm tra khả năng của MergeDNA trong các nhiệm vụ đa omics, những nhiệm vụ này đòi hỏi hệ thống không chỉ hiểu trình tự DNA mà còn có thể dự đoán cắt nối RNA, biểu hiện gen và chức năng protein cũng như các quá trình sinh học hạ nguồn khác. Trong nhiệm vụ dự đoán vị trí cắt nối RNA, MergeDNA đạt điểm AUROC 69.8, vượt trội đáng kể so với mô hình SpliceAI cổ điển (63.2). Trong nhiệm vụ dự đoán đặc điểm định lượng biểu hiện dài hạn, MergeDNA cũng đạt được thành tích tốt nhất mới: đạt điểm AUROC 0.75 trong dự đoán hiệu ứng eQTL nhân quả và hệ số tương quan R² 0.62 trong dự đoán biểu hiện RNA hàng loạt.
Thử thách lớn nhất là dự đoán khả năng thích ứng protein không mẫu, yêu cầu mô hình chỉ dựa vào thông tin trình tự DNA để dự đoán tác động chức năng của biến thể protein mà không cần huấn luyện với dữ liệu protein. Điều này giống như yêu cầu một học sinh chỉ học tiếng Trung Quốc hiểu ý nghĩa của một bài báo tiếng Pháp. Trong nhiệm vụ cực kỳ thách thức này, MergeDNA đạt hệ số tương quan Spearman 42.72% trên protein vi khuẩn và 20.58% trên protein người. Mặc dù những điểm số này có vẻ không cao, nhưng xét đây là dự đoán đa phương thức hoàn toàn, hiệu suất như vậy đã khá tốt, chứng tỏ biểu diễn DNA mà MergeDNA học được có tính tổng quát sinh học tốt.
Thông qua việc so sánh các phương pháp cơ bản khác nhau, nhóm nghiên cứu cũng phát hiện ra một số quy luật thú vị. So với các phương pháp sử dụng k-mer cố định hoặc phân tách từ BPE, chiến lược phân tách từ động của MergeDNA mang lại sự cải thiện đáng kể trong hầu hết các nhiệm vụ. So với các phương pháp phân tách từ động khác như lượng tử hóa vector, chiến lược hợp nhất dựa trên sự tương đồng của MergeDNA cũng cho thấy ưu điểm rõ rệt. Những kết quả này cùng chứng minh giá trị quan trọng của phân tách từ thông minh đối với phân tích DNA.
Để hiểu sâu hơn về cách MergeDNA hoạt động, nhóm nghiên cứu đã phân tích kỹ lưỡng chiến lược phân tách từ mà hệ thống học được, điều này giống như nghiên cứu phương pháp học của một học sinh xuất sắc, xem cách bạn ấy áp dụng các chiến lược đọc khác nhau cho các loại tài liệu khác nhau. Kết quả phân tích cho thấy AI thực sự thể hiện "trí tuệ" đáng kinh ngạc khi xử lý các vùng chức năng sinh học khác nhau.
Khi đối mặt với các vùng có trình tự bảo tồn ngắn và chính xác như vị trí cắt nối, MergeDNA đã học cách sử dụng độ dài phân tách từ ngắn hơn, chủ yếu tập trung vào khoảng 4 bazơ. Chiến lược này hoàn toàn phù hợp với kiến thức sinh học thông thường, vì việc nhận diện vị trí cắt nối phụ thuộc vào các mẫu trình tự ngắn rất chính xác, như tín hiệu "GT-AG" kinh điển. AI dường như đã tự phát hiện ra quy luật này, chọn sử dụng "kính hiển vi" độ phân giải cao để quan sát các vị trí quan trọng này.
Ngược lại, khi xử lý các vùng khởi động, MergeDNA có xu hướng sử dụng độ dài phân tách từ trung bình, đỉnh điểm khoảng 7 bazơ. Vùng khởi động thường chứa nhiều vị trí gắn kết yếu tố phiên mã, các vị trí này thường có độ dài từ 6-10 bazơ, và chiến lược phân tách từ mà AI học được trùng khớp với đặc điểm sinh học này. Điều này giống như một người đọc bản nhạc giàu kinh nghiệm, biết khi nào nên chú ý đến từng nốt nhạc, khi nào nên nắm bắt toàn bộ hợp âm.
Phát hiện thú vị nhất đến từ phân tích các vùng tăng cường. Yếu tố tăng cường là "bộ điều khiển từ xa" trong điều hòa gen, thường chứa sự kết hợp của nhiều yếu tố điều hòa, cần được hiểu trong ngữ cảnh lớn hơn để xác định chức năng của chúng. MergeDNA khi xử lý các vùng này đã chọn độ dài phân tách từ dài hơn, đỉnh điểm đạt 9 bazơ. Chiến lược này phản ánh sự phức tạp của chức năng yếu tố tăng cường: một trình tự ngắn đơn lẻ thường không đủ để quyết định chức năng của nó, mà cần xem xét sự kết hợp và sắp xếp trình tự trong phạm vi lớn hơn.
Nhóm nghiên cứu cũng đã so sánh chiến lược phân tách từ của MergeDNA với hai phương pháp phân tách từ cố định tiêu biểu. Phương pháp BPE truyền thống (dựa trên mã hóa cặp byte) tạo ra phân bố độ dài phân tách từ có dạng đuôi dài điển hình, đỉnh điểm ở khoảng 6 bazơ, nhưng áp dụng cùng một mô hình phân tách từ cơ bản cho các vùng chức năng khác nhau. Điều này giống như dùng cùng một chiếc thước để đo mọi thứ, thiếu tính mục tiêu. Một phương pháp MxDNA khác dựa trên lượng tử hóa vector, mặc dù cũng là phân tách từ động, nhưng phân bố độ dài phân tách từ của nó tương đối phẳng, không thể hiện sự phụ thuộc ngữ cảnh rõ ràng.
Phân tích sâu hơn cho thấy một đặc điểm quan trọng khác của chiến lược phân tách từ của MergeDNA: nó có khả năng nhận diện và xử lý các vùng trình tự lặp lại. Trong bộ gen, một số vùng chứa một lượng lớn các yếu tố DNA lặp lại, những vùng này có mật độ thông tin tương đối thấp. Các phương pháp truyền thống thường dành cùng một lượng tài nguyên tính toán cho mỗi đơn vị lặp lại, trong khi MergeDNA đã học cách hợp nhất các vùng lặp lại này thành các đơn vị lớn hơn, từ đó nâng cao hiệu quả xử lý. Chiến lược này tương tự như phương pháp "đọc lướt" trong kỹ thuật đọc nhanh, đối với nội dung lặp lại thì lướt nhanh, tập trung nhiều hơn vào thông tin chính.
Thông qua các thí nghiệm loại bỏ thành phần, nhóm nghiên cứu cũng đã xác minh đóng góp của các thành phần khác nhau vào hiệu suất cuối cùng. Kết quả cho thấy, nếu loại bỏ chức năng phân tách từ động, chỉ sử dụng phân tách từ độ dài cố định truyền thống, hiệu suất hệ thống sẽ giảm 1.57 điểm phần trăm. Nếu tiếp tục loại bỏ chiến lược huấn luyện che mặt thích ứng, hiệu suất giảm sẽ còn đáng kể hơn. Những kết quả này chứng minh rằng phân tách từ thông minh không phải là một yếu tố trang trí có hay không cũng được, mà là động lực chính cho hiệu suất cao của hệ thống.
Đặc biệt đáng chú ý là chiến lược phân tách từ của MergeDNA có khả năng giải thích sinh học rất tốt. Thông qua việc phân tích các mô hình hợp nhất mà hệ thống học được, các nhà nghiên cứu phát hiện ra rằng nhiều quyết định hợp nhất tương ứng với ranh giới của các yếu tố DNA chức năng đã biết. Điều này có nghĩa là AI không chỉ học được các chiến lược xử lý trình tự hiệu quả ở cấp độ thống kê, mà còn ở một mức độ nào đó đã "hiểu" được nguyên lý tổ chức sinh học của trình tự DNA. Sự hiểu biết này mang lại những gợi ý quý giá cho việc phát triển các hệ thống AI tin sinh học có khả năng giải thích tốt hơn trong tương lai.
Bên cạnh việc nâng cao độ chính xác, MergeDNA còn thể hiện xuất sắc về hiệu quả tính toán, điều này cũng quan trọng không kém đối với các ứng dụng thực tế. Phân tích bộ gen hiện đại thường cần xử lý các trình tự DNA rất dài, đôi khi có thể lên đến hàng triệu bazơ. Nếu độ phức tạp tính toán của thuật toán quá cao, dù độ chính xác có tốt đến mấy cũng khó có thể sử dụng trong thực tế.
Thiết kế phân cấp của MergeDNA đã giải quyết khéo léo vấn đề này. Thông qua thao tác phân tách từ của bộ mã hóa cục bộ, hệ thống đã rút ngắn đáng kể độ dài trình tự gốc. Thông thường, một trình tự gồm 4096 bazơ sau khi được bộ mã hóa cục bộ xử lý sẽ được nén thành khoảng 2048 đơn vị "từ vựng", sau đó bộ mã hóa tiềm ẩn tiếp tục nén thành khoảng 1024 biểu diễn cấp cao hơn. Chiến lược nén theo từng bước này cho phép hệ thống duy trì tính toàn vẹn thông tin đồng thời giảm đáng kể độ dài trình tự cần xử lý.
Quan trọng hơn, bộ mã hóa cục bộ sử dụng cơ chế chú ý cửa sổ cục bộ, với độ phức tạp tính toán tỷ lệ tuyến tính với độ dài trình tự, chứ không phải tỷ lệ bình phương như cơ chế chú ý toàn phần truyền thống. Điều này giống như việc cải tiến từ một thuật toán sắp xếp phức tạp cần so sánh tất cả các phần tử theo cặp, thành một thuật toán hiệu quả chỉ so sánh trong phạm vi nhỏ. Chỉ ở cấp độ bộ mã hóa tiềm ẩn, hệ thống mới sử dụng cơ chế chú ý toàn phần, nhưng lúc này độ dài trình tự cần xử lý đã được rút ngắn đáng kể, gánh nặng tính toán trở nên chấp nhận được.
Các thử nghiệm thực tế cho thấy, MergeDNA có thể xử lý trình tự dài tới 4096 bazơ trên một GPU NVIDIA A100 duy nhất, với thời gian huấn luyện khoảng 5 ngày. Xét đến mức độ phức tạp của hệ thống và hiệu suất cuối cùng, chi phí tính toán như vậy là hoàn toàn hợp lý. Trong giai đoạn suy luận, tốc độ của hệ thống còn được cải thiện đáng kể, có thể nhanh chóng xử lý các trình tự DNA mới để dự đoán.
Nhóm nghiên cứu cũng đã xem xét tính linh hoạt của hệ thống trong các tình huống ứng dụng khác nhau. Đối với các nhiệm vụ phân loại cấp độ trình tự (như xác định một đoạn DNA có phải là yếu tố tăng cường hay không), hệ thống có thể chỉ sử dụng phần bộ mã hóa, bỏ qua thành phần bộ giải mã, từ đó nâng cao hiệu quả hơn nữa. Đối với các nhiệm vụ cần tạo trình tự DNA, có thể sử dụng kiến trúc bộ mã hóa-giải mã hoàn chỉnh. Đối với các nhiệm vụ cần dự đoán cấp độ bazơ (như dự đoán khả năng tiếp cận chromatin ở mỗi vị trí), hệ thống sẽ giữ lại bộ giải mã cục bộ để khôi phục độ phân giải của trình tự gốc.
Thiết kế mô-đun này giúp MergeDNA có tính thực tiễn cao. Mô hình mà nhóm nghiên cứu cung cấp chứa 380 triệu tham số, quy mô này tuy không nhỏ nhưng vẫn tương đối vừa phải so với một số mô hình ngôn ngữ lớn có hàng chục tỷ tham số. Quan trọng hơn, nhờ có chiến lược phân tách từ thông minh, MergeDNA thường có thể đạt được hoặc thậm chí vượt qua hiệu suất của các mô hình lớn hơn với tài nguyên tính toán tương đối ít hơn.
Trong quá trình triển khai thực tế, MergeDNA còn hỗ trợ nhiều chiến lược tối ưu hóa. Đối với môi trường bộ nhớ hạn chế, có thể sử dụng kỹ thuật kiểm tra điểm gradient để giảm mức sử dụng bộ nhớ. Đối với các tình huống cần xử lý trình tự siêu dài, có thể áp dụng phương pháp cửa sổ trượt để xử lý trình tự dài theo từng đoạn, sau đó tích hợp kết quả. Những cân nhắc thực tiễn này giúp MergeDNA không chỉ là một thành quả nghiên cứu trong phòng thí nghiệm, mà còn là một công cụ có thể phát huy tác dụng trong quy trình tin sinh học thực tế.
Nhóm nghiên cứu đã bắt đầu hợp tác với nhiều công ty công nghệ sinh học và tổ chức y tế để áp dụng MergeDNA vào các dự án phân tích bộ gen thực tế. Những phản hồi ban đầu cho thấy, hệ thống này có tiềm năng tốt trong việc xử lý dữ liệu bộ gen lâm sàng, lai tạo cây trồng và phân tích hệ vi sinh vật. Thành công của những ứng dụng thực tế này chứng minh tính khả thi của việc chuyển đổi nghiên cứu học thuật thành công cụ hữu ích.
Thành công của MergeDNA không chỉ là chiến thắng của một thuật toán đơn lẻ, mà quan trọng hơn, nó thể hiện một tư duy hoàn toàn mới: làm thế nào để AI thực sự hiểu và thích nghi với các đặc tính đặc biệt của dữ liệu sinh học. Ảnh hưởng của tư duy này có thể vượt xa phạm vi phân tích trình tự DNA, mang lại những thay đổi sâu sắc cho toàn bộ lĩnh vực AI tin sinh học.
Các phương pháp tin sinh học truyền thống thường theo mô hình "có công cụ trước, rồi tìm ứng dụng". Các nhà nghiên cứu phát triển các thuật toán học máy tổng quát, sau đó cố gắng áp dụng chúng vào các vấn đề sinh học. Mặc dù cách này thường đạt được kết quả tốt trong nhiều trường hợp, nhưng thường bỏ qua tính đặc thù của dữ liệu sinh học. Trình tự DNA khác với văn bản ngôn ngữ tự nhiên, cấu trúc protein khác với dữ liệu hình ảnh, mạng lưới tế bào khác với mạng xã hội. Đơn giản là mượn các công cụ có sẵn từ các lĩnh vực khác, giống như dùng đũa ăn món Tây, tuy vẫn hoàn thành chức năng cơ bản nhưng không phải là lựa chọn tối ưu.
MergeDNA đại diện cho triết lý thiết kế "ưu tiên sinh học". Nhóm nghiên cứu xuất phát từ bản chất của vấn đề sinh học, phân tích sâu sắc các đặc điểm của trình tự DNA, sau đó thiết kế kiến trúc thuật toán tương ứng. Phương pháp này giống như việc thiết kế dụng cụ ăn chuyên dụng cho một món ăn cụ thể, có thể phát huy chức năng tốt hơn. Thành công của chiến lược phân tách từ thông minh chứng minh giá trị của tư duy này: khi thuật toán AI thực sự hiểu được các quy luật nội tại của dữ liệu sinh học, nó có thể thể hiện hiệu suất vượt xa các phương pháp truyền thống.
Ý nghĩa sâu sắc hơn là MergeDNA cho thấy cách AI học cách "tự khám phá" các quy luật sinh học. Các phương pháp truyền thống thường yêu cầu các nhà nghiên cứu định nghĩa trước các đặc điểm sinh học khác nhau, sau đó để thuật toán học dựa trên các đặc điểm này. Nhưng chiến lược phân tách từ của MergeDNA hoàn toàn được học từ dữ liệu, không có ai cố ý nói cho nó biết rằng vị trí cắt nối nên dùng phân tách từ ngắn, vùng khởi động nên dùng phân tách từ trung bình. AI thông qua việc học rất nhiều, đã tự khám phá ra những quy luật sinh học này, thậm chí ở một số khía cạnh còn vượt qua nhận thức của các chuyên gia con người.
Khả năng "tự khám phá" này có ý nghĩa quan trọng đối với nghiên cứu sinh học trong tương lai. Với sự phát triển của công nghệ giải trình tự, chúng ta thu được ngày càng nhiều dữ liệu sinh học, nhưng sự hiểu biết của chúng ta về những dữ liệu này thường không theo kịp tốc độ tích lũy dữ liệu. Cách truyền thống là hình thành giả thuyết trước, sau đó thiết kế thí nghiệm để kiểm chứng giả thuyết, nhưng cách này tỏ ra bất lực khi đối mặt với lượng dữ liệu khổng lồ. Các hệ thống AI có khả năng tự khám phá quy luật dữ liệu như MergeDNA, cung cấp cho chúng ta một mô hình khám phá khoa học hoàn toàn mới: để AI trước tiên khám phá các mô hình thú vị từ dữ liệu, sau đó hướng dẫn các nhà khoa học con người tiến hành nghiên cứu sâu hơn.
Thành công của MergeDNA cũng mang lại gợi ý cho việc phân tích các dữ liệu omics sinh học khác. Trình tự RNA, trình tự protein, và dữ liệu biến đổi biểu sinh, v.v., đều có những đặc điểm tương tự như trình tự DNA: mật độ thông tin không đồng đều, thiếu ranh giới phân đoạn tự nhiên, cần hiểu biết đa quy mô. Dựa trên triết lý thiết kế của MergeDNA, các nhà nghiên cứu có thể phát triển các hệ thống phân tích thông minh phù hợp với các loại dữ liệu khác nhau này.
Từ góc độ rộng hơn, triết lý "phân tích thích ứng" mà MergeDNA thể hiện cũng có thể ảnh hưởng đến các lĩnh vực khoa học khác. Trong thiên văn học, các loại thiên thể khác nhau cần các chiến lược quan sát khác nhau; trong khoa học khí hậu, các mô hình khí hậu ở các khu vực khác nhau cần các phương pháp phân tích khác nhau; trong khoa học vật liệu, các cấu trúc ở các quy mô khác nhau cần các phương pháp mô hình hóa khác nhau. Tư duy điều chỉnh chiến lược phân tích động mà MergeDNA thể hiện, có thể truyền cảm hứng cho các lĩnh vực này phát triển các công cụ phân tích thông minh và thích ứng hơn.
Ngoài ra, chiến lược huấn luyện đa nhiệm của MergeDNA cũng cung cấp những ý tưởng mới cho thiết kế hệ thống AI. Bằng cách thiết kế khéo léo các nhiệm vụ huấn luyện bổ sung cho nhau, có thể giúp hệ thống AI đồng thời học được nhiều khả năng, đạt được hiệu quả "một công đôi việc". Phương pháp này không chỉ nâng cao hiệu quả học tập mà còn tăng cường khả năng tổng quát hóa của mô hình, giúp nó hoạt động ổn định hơn khi đối mặt với các nhiệm vụ chưa biết.
Tóm lại, giá trị thực sự của MergeDNA nằm ở chỗ nó chứng minh một quan điểm quan trọng: khi chúng ta thực sự hiểu và tôn trọng các đặc tính nội tại của dữ liệu, AI có thể phát huy tối đa tiềm năng. Quan điểm này không chỉ áp dụng cho tin sinh học, mà còn cho tất cả các lĩnh vực cần xử lý dữ liệu phức tạp. Các hệ thống AI trong tương lai không chỉ nên là bộ xử lý thông tin tổng quát, mà còn nên là những trợ lý thông minh có khả năng hiểu sâu kiến thức chuyên ngành.
Cuối cùng, thành quả nghiên cứu này từ Đại học Chiết Giang, Đại học Tây Hồ và Viện BioMap không chỉ cung cấp một công cụ mới mạnh mẽ cho phân tích trình tự DNA, mà còn cho chúng ta thấy một tương lai tươi sáng về sự kết hợp sâu sắc giữa AI và sinh học. Trong tương lai đó, AI không còn là công cụ đơn giản cho nghiên cứu sinh học, mà là một đối tác thông minh có khả năng hiểu ngôn ngữ sự sống, khám phá các quy luật sinh học và hỗ trợ khám phá khoa học. MergeDNA chỉ là một khởi đầu cho tương lai đầy hứa hẹn này, và với sự xuất hiện của nhiều đổi mới tương tự, chúng ta có lý do để mong đợi AI sẽ mang lại nhiều bất ngờ và đột phá hơn nữa cho khoa học sự sống.
Nguồn: Sohu