Đối với các nhà hóa học, cuộc cách mạng AI vẫn chưa xảy ra

Thoại Viết Hoàng · 18/05/2023

CEO Microsoft nói về những lo ngại xung quanh AI và tác động của nó với việc làm, giáo dục

Lý do các nhà nghiên cứu tìm kiếm thông tin học thuật phải cảnh giác trong thời đại này

OpenAI được đồn đoán sẽ phát hành một mô hình AI mã nguồn mở mới

Hỡi các nhân viên văn phòng! Đây là cách AI sẽ đến với công việc của bạn (I)

Các hệ thống học máy trong hóa học cần dữ liệu đào tạo chính xác và dễ tiếp cận. Chừng nào các nhà hóa học có được điều này, AI mới có tác dụng.
Nhiều người bày tỏ lo ngại rằng trí tuệ nhân tạo (AI) đã đi quá xa - hoặc có nguy cơ làm như vậy. Chẳng hạn, Geoffrey Hinton, một nhân vật nổi bật trong lĩnh vực AI, gần đây đã từ chức tại Google với lý do muốn lên tiếng về những rủi ro tiềm tàng của công nghệ này đối với xã hội và sức khỏe con người.
Nhưng trước những lo ngại về bức tranh toàn cảnh đó, trong nhiều lĩnh vực khoa học, bạn sẽ nghe thấy một sự thất vọng khác được thể hiện một cách lặng lẽ hơn: rằng AI vẫn chưa tiến đủ xa. Một trong những lĩnh vực đó là hóa học, trong đó các công cụ máy học hứa hẹn một cuộc cách mạng trong cách các nhà nghiên cứu tìm kiếm và tổng hợp các chất mới hữu ích. Nhưng một cuộc cách mạng vẫn chưa xảy ra - vì thiếu dữ liệu có sẵn để cung cấp cho các hệ thống AI đang đói.

Đối với các nhà hóa học, cuộc cách mạng AI vẫn chưa xảy ra

Bất kỳ hệ thống AI nào cũng chỉ tốt như dữ liệu mà nó được đào tạo. Các hệ thống này dựa trên cái được gọi là mạng thần kinh, mà các nhà phát triển dạy bằng cách sử dụng các tập dữ liệu đào tạo phải lớn, đáng tin cậy và không thiên vị. Nếu các nhà hóa học muốn khai thác toàn bộ tiềm năng của các công cụ AI tạo ra, họ cần giúp thiết lập các bộ dữ liệu đào tạo như vậy. Cần có thêm dữ liệu - cả thử nghiệm và mô phỏng - bao gồm dữ liệu lịch sử và kiến thức mơ hồ khác, chẳng hạn như dữ liệu từ các thử nghiệm không thành công. Và các nhà nghiên cứu phải đảm bảo rằng thông tin thu được có thể truy cập được. Nhiệm vụ này vẫn còn rất nhiều công việc đang được tiến hành.
Lấy ví dụ, các công cụ AI tiến hành tổng hợp lại. Chúng bắt đầu với cấu trúc hóa học mà một nhà hóa học muốn tạo ra, sau đó làm việc ngược lại để xác định nguyên liệu ban đầu tốt nhất và trình tự các bước phản ứng để tạo ra cấu trúc đó. Các hệ thống AI thực hiện phương pháp này bao gồm 3N-MCTS, được thiết kế bởi các nhà nghiên cứu tại Đại học Münster ở Đức và Đại học Thượng Hải ở Trung Quốc. Điều này kết hợp một thuật toán tìm kiếm đã biết với ba mạng thần kinh. Những công cụ như vậy đã thu hút được sự chú ý, nhưng vẫn còn ít nhà hóa học sử dụng chúng.
Để đưa ra dự đoán hóa học chính xác, hệ thống AI cần có đủ kiến thức về các cấu trúc hóa học cụ thể mà các phản ứng khác nhau hoạt động. Các nhà hóa học khám phá ra một phản ứng mới thường công bố kết quả khám phá điều này, nhưng thường thì những kết quả này không đầy đủ. Trừ khi các hệ thống AI có kiến thức toàn diện, nếu không chúng có thể sẽ đề xuất các nguyên liệu ban đầu có cấu trúc làm ngừng hoạt động của phản ứng hoặc dẫn đến sản phẩm không chính xác.
Một ví dụ về tiến trình hỗn hợp xuất hiện trong cái mà các nhà nghiên cứu AI gọi là 'thiết kế nghịch đảo'. Trong hóa học, điều này liên quan đến việc bắt đầu với các tính chất vật lý mong muốn và sau đó xác định các chất có các tính chất này và lý tưởng nhất là có thể được sản xuất với giá rẻ. Ví dụ, thiết kế nghịch đảo dựa trên AI đã giúp các nhà khoa học lựa chọn vật liệu tối ưu để chế tạo điốt phát quang hữu cơ lân quang xanh.
Các phương pháp tính toán đối với thiết kế nghịch đảo, yêu cầu một mô hình đề xuất các cấu trúc với các đặc điểm mong muốn, đã được sử dụng trong hóa học và kết quả đầu ra của chúng thường được các nhà nghiên cứu xem xét kỹ lưỡng. Nếu AI muốn vượt trội hơn các công cụ tính toán đã có từ trước trong thiết kế nghịch đảo, thì nó cần có đủ dữ liệu đào tạo liên quan đến cấu trúc hóa học với các đặc tính. Nhưng dữ liệu đào tạo 'đủ' có nghĩa là gì trong bối cảnh này phụ thuộc vào loại AI được sử dụng.
Một hệ thống AI tổng quát chung như ChatGPT, được phát triển bởi OpenAI ở San Francisco, California, chỉ đơn giản là đói dữ liệu. Để áp dụng một hệ thống AI tổng quát như vậy vào hóa học, sẽ cần hàng trăm nghìn - hoặc thậm chí có thể hàng triệu - điểm dữ liệu.
Một cách tiếp cận AI tập trung vào hóa học hơn sẽ đào tạo hệ thống về cấu trúc và tính chất của các phân tử. Trong ngôn ngữ của AI, cấu trúc phân tử là đồ thị. Trong các phân tử, liên kết hóa học kết nối các nguyên tử - giống như các cạnh kết nối các nút trong biểu đồ. Các hệ thống AI như vậy được cung cấp từ 5.000–10.000 điểm dữ liệu đã có thể đánh bại các phương pháp tính toán thông thường để trả lời các câu hỏi hóa học. Vấn đề là, trong nhiều trường hợp, thậm chí 5.000 điểm dữ liệu là nhiều hơn nhiều so với hiện có.
Công cụ dự đoán cấu trúc protein AlphaFold, được cho là ứng dụng AI hóa học thành công nhất, sử dụng phương pháp biểu diễn đồ thị như vậy. Những người tạo ra AlphaFold đã đào tạo nó trên một bộ dữ liệu đáng gờm: thông tin trong Ngân hàng Dữ liệu Protein, được thành lập vào năm 1971 để đối chiếu tập hợp ngày càng nhiều các cấu trúc protein được xác định bằng thực nghiệm và hiện có hơn 200.000 cấu trúc. AlphaFold cung cấp một ví dụ tuyệt vời về sức mạnh mà các hệ thống AI có thể có khi được cung cấp đủ dữ liệu chất lượng cao.
Vậy làm cách nào để các hệ thống AI khác có thể tạo hoặc truy cập dữ liệu hóa học nhiều hơn và tốt hơn? Một giải pháp khả thi là thiết lập các hệ thống lấy dữ liệu từ các tài liệu nghiên cứu đã xuất bản và cơ sở dữ liệu hiện có, chẳng hạn như thuật toán do các nhà nghiên cứu tại Đại học Cambridge, Vương quốc Anh tạo ra, chuyển đổi tên hóa học thành cấu trúc. Cách tiếp cận này đã đẩy nhanh tiến độ sử dụng AI trong hóa học hữu cơ.
Một cách tiềm năng khác để tăng tốc mọi thứ là tự động hóa các hệ thống phòng thí nghiệm. Các tùy chọn hiện có bao gồm các hệ thống xử lý vật liệu bằng rô-bốt, có thể được thiết lập để tạo và đo lường các hợp chất nhằm kiểm tra kết quả đầu ra của mô hình AI. Tuy nhiên, hiện tại khả năng này còn hạn chế, bởi vì các hệ thống chỉ có thể thực hiện một phạm vi phản ứng hóa học tương đối hẹp so với một nhà hóa học con người.
Các nhà phát triển AI có thể huấn luyện các mô hình của họ bằng cả dữ liệu thực và dữ liệu mô phỏng. Các nhà nghiên cứu tại Viện Công nghệ Massachusetts ở Cambridge đã sử dụng phương pháp này để tạo ra một mô hình dựa trên đồ thị có thể dự đoán các tính chất quang học của các phân tử, chẳng hạn như màu của chúng
Có một giải pháp khác, đặc biệt rõ ràng: các công cụ AI cần dữ liệu mở. Cách mọi người xuất bản bài báo của họ phải phát triển để làm cho dữ liệu dễ tiếp cận hơn. Đây là một lý do tại sao Nature yêu cầu các tác giả gửi mã và dữ liệu của họ vào các kho lưu trữ mở. Đó cũng là một lý do khác để tập trung vào khả năng tiếp cận dữ liệu, bên trên và bên ngoài các cuộc khủng hoảng khoa học xung quanh việc sao chép kết quả và rút lại hồ sơ cao. Các nhà hóa học đã giải quyết vấn đề này bằng các phương tiện như Cơ sở dữ liệu phản ứng mở.
Nhưng ngay cả điều này cũng có thể không đủ để cho phép các công cụ AI phát huy hết tiềm năng của chúng. Các bộ huấn luyện tốt nhất có thể cũng sẽ bao gồm dữ liệu về các kết quả tiêu cực, chẳng hạn như các điều kiện phản ứng không tạo ra các chất mong muốn. Và dữ liệu cần phải được ghi lại ở các định dạng đã được thống nhất và nhất quán, mà hiện tại chúng không có.
Các ứng dụng hóa học đòi hỏi các mô hình máy tính phải tốt hơn nhà khoa học giỏi nhất của con người. Chỉ bằng cách thực hiện các bước để thu thập và chia sẻ dữ liệu, AI mới có thể đáp ứng các kỳ vọng trong hóa học và tránh trở thành trường hợp cường điệu hóa hy vọng.
Nature 617 , 438 (2023)