AI và các tiêu chuẩn mới hứa hẹn sẽ làm cho dữ liệu khoa học trở nên hữu ích hơn

Thoại Viết Hoàng · 22/08/2023

Mỗi khi một nhà khoa học thực hiện một thí nghiệm, hoặc một nhà khoa học xã hội thực hiện một cuộc khảo sát, hoặc một học giả nhân văn phân tích một văn bản, họ sẽ tạo ra dữ liệu.

AI và các tiêu chuẩn mới hứa hẹn sẽ làm cho dữ liệu khoa học trở nên hữu ích hơn

Công việc nào sẽ tồn tại hoặc biến mất trong cuộc cách mạng AI?

Khoa học hoạt động dựa trên dữ liệu - nếu không có nó, chúng ta sẽ không có những hình ảnh tuyệt đẹp của Kính viễn vọng Không gian James Webb, vắc-xin ngăn ngừa bệnh tật hoặc cây tiến hóa theo dõi dòng dõi của mọi sự sống.
Học bổng này tạo ra một lượng dữ liệu không thể tưởng tượng được - vậy làm thế nào để các nhà nghiên cứu theo dõi nó? Và làm thế nào để họ đảm bảo rằng nó có thể truy cập được để sử dụng bởi cả con người và máy móc?
Để cải thiện và nâng cao khoa học, các nhà khoa học cần có khả năng tái tạo dữ liệu của người khác hoặc kết hợp dữ liệu từ nhiều nguồn để tìm hiểu điều gì đó mới.
Bất kỳ loại chia sẻ yêu cầu quản lý. Nếu hàng xóm của bạn cần mượn một công cụ hoặc nguyên liệu, bạn phải biết liệu bạn có nó hay không và bạn cất giữ nó ở đâu. Dữ liệu nghiên cứu có thể nằm trên máy tính xách tay của sinh viên mới tốt nghiệp, được chôn trong bộ sưu tập USB của giáo sư hoặc được lưu lâu hơn trong kho lưu trữ dữ liệu trực tuyến.
Tôi là một nhà khoa học thông tin nghiên cứu các nhà khoa học khác. Chính xác hơn, tôi nghiên cứu cách các nhà khoa học nghĩ về dữ liệu nghiên cứu và cách họ tương tác với dữ liệu của chính họ và dữ liệu của người khác. Tôi cũng dạy học sinh cách quản lý dữ liệu của chính họ hoặc của người khác theo những cách giúp nâng cao kiến thức.
Quản lý dữ liệu nghiên cứu
Quản lý dữ liệu nghiên cứu là một lĩnh vực học bổng tập trung vào khám phá và tái sử dụng dữ liệu. Là một lĩnh vực, nó bao gồm các dịch vụ dữ liệu nghiên cứu, tài nguyên và cơ sở hạ tầng mạng. Ví dụ: một loại cơ sở hạ tầng, kho lưu trữ dữ liệu, cung cấp cho các nhà nghiên cứu một nơi để ký gửi dữ liệu của họ nhằm lưu trữ lâu dài để những người khác có thể tìm thấy dữ liệu đó. Nói tóm lại, quản lý dữ liệu nghiên cứu bao gồm vòng đời của dữ liệu từ cái nôi đến nấm mồ cho đến sự tái sinh trong nghiên cứu tiếp theo.
Quản lý dữ liệu nghiên cứu thích hợp cũng cho phép các nhà khoa học sử dụng dữ liệu đã có thay vì thu thập dữ liệu đã tồn tại, giúp tiết kiệm thời gian và tài nguyên.
Với việc chính trị hóa khoa học ngày càng tăng, nhiều tổ chức khoa học quốc gia và quốc tế đã nâng cao tiêu chuẩn của họ về trách nhiệm giải trình và tính minh bạch. Các cơ quan liên bang và các nhà tài trợ nghiên cứu lớn khác như Viện Y tế Quốc gia hiện ưu tiên quản lý dữ liệu nghiên cứu và yêu cầu các nhà nghiên cứu phải có kế hoạch quản lý dữ liệu trước khi họ có thể nhận được bất kỳ khoản tài trợ nào.
Các nhà khoa học và người quản lý dữ liệu có thể làm việc cùng nhau để thiết kế lại hệ thống mà các nhà khoa học sử dụng để giúp việc khám phá và bảo quản dữ liệu dễ dàng hơn. Đặc biệt, việc tích hợp AI có thể giúp dữ liệu này dễ truy cập và tái sử dụng hơn.
Quản lý dữ liệu thông minh nhân tạo
Nhiều tiêu chuẩn mới để quản lý dữ liệu nghiên cứu này cũng xuất phát từ việc tăng cường sử dụng AI, bao gồm cả học máy, trên các lĩnh vực dựa trên dữ liệu. Trí tuệ nhân tạo làm cho mọi dữ liệu đều có thể xử lý được bằng máy - nghĩa là máy có thể sử dụng được mà không cần sự can thiệp của con người. Giờ đây, các học giả có thể coi máy móc không chỉ là công cụ mà còn là cộng tác viên và người tái sử dụng dữ liệu tự động tiềm năng.
Chìa khóa cho dữ liệu có thể xử lý bằng máy là siêu dữ liệu. Siêu dữ liệu là những mô tả mà các nhà khoa học đặt ra cho dữ liệu của họ và có thể bao gồm các yếu tố như người tạo, ngày tháng, phạm vi bảo hiểm và chủ đề. Siêu dữ liệu tối thiểu là hữu ích tối thiểu, nhưng siêu dữ liệu chuẩn hóa chính xác và đầy đủ làm cho dữ liệu trở nên hữu ích hơn cho cả người và máy.
Cần có một đội ngũ cán bộ quản lý dữ liệu nghiên cứu và thủ thư để biến dữ liệu có thể xử lý bằng máy thành hiện thực. Các chuyên gia thông tin này làm việc để tạo điều kiện giao tiếp giữa các nhà khoa học và hệ thống bằng cách đảm bảo chất lượng, tính đầy đủ và tính nhất quán của dữ liệu được chia sẻ.
Các nguyên tắc dữ liệu FAIR do một nhóm các nhà nghiên cứu có tên là FORCE11 tạo ra vào năm 2016 và được sử dụng trên toàn thế giới, cung cấp hướng dẫn về cách cho phép máy móc và con người tái sử dụng dữ liệu. Dữ liệu FAIR có thể tìm thấy, truy cập, tương tác và tái sử dụng – nghĩa là dữ liệu có siêu dữ liệu đầy đủ và mạnh mẽ.
Trước đây, tôi đã nghiên cứu cách các nhà khoa học khám phá và tái sử dụng dữ liệu. Tôi nhận thấy rằng các nhà khoa học có xu hướng sử dụng các lối tắt trong đầu khi họ tìm kiếm dữ liệu - ví dụ: họ có thể quay lại các nguồn quen thuộc và đáng tin cậy hoặc tìm kiếm các thuật ngữ chính nhất định mà họ đã sử dụng trước đó. Lý tưởng nhất là nhóm của tôi có thể xây dựng quy trình ra quyết định này của các chuyên gia và loại bỏ càng nhiều thành kiến càng tốt để cải thiện AI. Việc tự động hóa các lối tắt tinh thần này sẽ làm giảm công việc tốn thời gian trong việc tìm đúng dữ liệu.
Kế hoạch quản lý dữ liệu
Nhưng vẫn còn một phần quản lý dữ liệu nghiên cứu mà AI không thể đảm nhận. Kế hoạch quản lý dữ liệu mô tả cái gì, ở đâu, khi nào, tại sao và ai quản lý dữ liệu nghiên cứu. Các nhà khoa học điền vào chúng và phác thảo các vai trò và hoạt động để quản lý dữ liệu nghiên cứu trong và sau khi nghiên cứu kết thúc. Họ trả lời các câu hỏi như “Ai chịu trách nhiệm bảo quản lâu dài”, “Dữ liệu sẽ tồn tại ở đâu”, “Làm cách nào để giữ an toàn cho dữ liệu của tôi” và “Ai trả tiền cho tất cả những điều đó?”
Đề xuất tài trợ cho gần như tất cả các cơ quan tài trợ trên khắp các quốc gia hiện nay đều yêu cầu kế hoạch quản lý dữ liệu. Những kế hoạch này báo hiệu cho các nhà khoa học rằng dữ liệu của họ có giá trị và đủ quan trọng để cộng đồng chia sẻ. Ngoài ra, các kế hoạch này còn giúp các cơ quan tài trợ theo dõi nghiên cứu và điều tra mọi hành vi sai trái tiềm ẩn. Nhưng quan trọng nhất, chúng giúp các nhà khoa học đảm bảo dữ liệu của họ có thể truy cập được trong nhiều năm.
Làm cho tất cả dữ liệu nghiên cứu trở nên CÔNG BẰNG và mở nhất có thể sẽ cải thiện quy trình khoa học. Và việc tiếp cận nhiều dữ liệu hơn sẽ mở ra khả năng thảo luận sáng suốt hơn về cách thúc đẩy phát triển kinh tế, cải thiện việc quản lý tài nguyên thiên nhiên, nâng cao sức khỏe cộng đồng và cách phát triển các công nghệ có trách nhiệm và đạo đức để cải thiện cuộc sống. Tất cả trí tuệ, nhân tạo hay cách khác, sẽ được hưởng lợi từ việc tổ chức, truy cập và sử dụng dữ liệu nghiên cứu tốt hơn.
Tham khảo bài viết gốc tại đây: