Cách đảm bảo chất lượng dữ liệu để ngăn chặn ảo giác do AI gây ra

Derpy
Derpy
Phản hồi: 0

Derpy

Intern Writer
Trí tuệ nhân tạo (AI) đã và đang làm thay đổi cách thức hoạt động của nhiều ngành công nghiệp, đặc biệt là những ngành có tiếp xúc trực tiếp với khách hàng. Các ứng dụng doanh nghiệp được hỗ trợ bởi AI không chỉ mang lại giá trị thiết thực cho khách hàng mà còn nâng cao hiệu quả cho các hoạt động kinh doanh. Tuy nhiên, việc ứng dụng AI cũng đi kèm với những rủi ro đáng kể. Các mô hình ngôn ngữ lớn (LLMs) nếu được xây dựng từ dữ liệu có thiên kiến hoặc không đầy đủ có thể dẫn đến những "ảo giác" không đáng có, ảnh hưởng tiêu cực đến các kết quả kinh doanh (A. Pequeno, tháng 2/2024).

Để đạt được kết quả tối ưu khi sử dụng AI, điều quan trọng là phải có dữ liệu phong phú, chính xác và không thiên lệch. Dữ liệu bị thiên lệch, không đầy đủ, không được gán nhãn hay chính xác có thể sinh ra những “ảo giác” do AI tạo ra. Những bất nhất về sự thật hoặc kết quả có thiên lệch có thể trông có vẻ chính xác và hữu ích, nhưng thực tế lại có thể gây ảnh hưởng tiêu cực đến quyết định kinh doanh. Ngay cả dữ liệu kinh doanh sạch cũng có thể góp phần vào việc này nếu dữ liệu đào tạo ở giai đoạn trước đó bị thiên lệch hoặc không đầy đủ, hoặc nếu việc giám sát kết quả của AI không thể truy cập dữ liệu tham chiếu chất lượng cao và kiến thức liên quan.
iStock-1846318820_BestForRent-scaled.jpg

Chắc chắn rằng các tổ chức muốn khai thác AI đang xem xét các thách thức về dữ liệu là một rào cản chính khi họ làm việc để đào tạo, triển khai, mở rộng và xác định lợi tức đầu tư từ các sáng kiến AI. Điều này chỉ ra rằng ngày càng có nhu cầu cao hơn về các công cụ và phương pháp để xác nhận độ tin cậy của kết quả từ AI.

Một ví dụ thực tế trong lĩnh vực dữ liệu y tế sẽ minh họa các thực hành về chất lượng dữ liệu cần thiết để đảm bảo kết quả AI chính xác. Bắt đầu với việc phân tích, làm sạch và làm phong phú dữ liệu đào tạo và dữ liệu kinh doanh bằng các quy tắc tự động và lập luận. Áp dụng ngữ nghĩa chuyên gia và việc truy xuất tăng cường có hỗ trợ hình ảnh trong môi trường chất lượng dữ liệu cao để đảm bảo đào tạo và giám sát chất lượng kết quả có thể quan sát được (S. Hedden, tháng 12/2024).

Để ngăn chặn các ảo giác từ AI ảnh hưởng đến hoạt động kinh doanh, một phương pháp tiếp cận chất lượng dữ liệu toàn diện là cần thiết, bao gồm dữ liệu đào tạo đạt "tiêu chuẩn vàng"; dữ liệu kinh doanh được làm sạch và tăng cường thường xuyên; và đào tạo AI có giám sát dựa trên nội dung có thể quan sát được, lý luận máy và các quy tắc kinh doanh. Các yếu tố này phải được bổ sung bởi quy trình kiểm tra và sửa chữa kết quả tự động được hỗ trợ bởi dữ liệu tham chiếu chất lượng cao, các quy tắc kinh doanh, lý luận máy và RAG.

Việc đảm bảo độ chính xác trong các ứng dụng AI có thể liên quan đến sức khỏe và sự sống của con người cũng như doanh nghiệp. Ví dụ về rủi ro y tế cơ bản sẽ minh họa cho nhu cầu khẩn thiết về đầu ra chính xác từ AI - được hỗ trợ bởi dữ liệu sạch, quá trình và khả năng quan sát kết quả, cũng như giám sát kết quả tự động. Trong kịch bản này, một loại thuốc được kê dưới dạng miếng dán với liều dùng thông thường là 15 miligam. Thuốc cũng có sẵn dưới dạng viên nén với liều thấp hơn là 5 miligam. Một ứng dụng được hỗ trợ bởi AI có thể phát sinh một tuyên bố sai khi kết hợp hai thông tin này lại, nói rằng bệnh nhân có thể dùng "liều 15mg thông thường, có sẵn dưới dạng viên nén". Điều này rất dễ bị bỏ qua, ngay cả với con người, nhưng lại là một ảo giác AI có thể gây nguy hiểm. Một chuyên gia y tế có kinh nghiệm sẽ dễ dàng nhận ra sai sót - việc sử dụng 15 miligam thuốc ở dạng viên nén sẽ gấp ba lần liều khuyến nghị, có thể gây ra quá liều. Một người không có chuyên môn hỏi ứng dụng AI về liều lượng có thể quyết định uống ba viên 5 miligam - dẫn đến hậu quả có thể gây tử vong. Ở đây, sức khỏe và sự an toàn của bệnh nhân đang bị đe dọa và rất phụ thuộc vào dữ liệu sạch, được gán nhãn tốt và đầu ra chính xác từ AI.

Những sai sót này có thể được tránh bằng cách kết hợp dữ liệu đào tạo và tham chiếu chất lượng cao. Việc giám sát và đào tạo kết quả từ AI được hỗ trợ bởi lý luận máy ngữ nghĩa và các quy tắc kinh doanh cùng với việc kiểm tra kết quả tự động thông qua các nguồn tài nguyên chuyên gia cũng đóng góp vào việc tạo ra một hệ thống AI hiệu quả hơn. Ngoài việc kết hợp các hoạt động chất lượng dữ liệu truyền thống như làm sạch, tích hợp, hòa nhập và làm phong phú dữ liệu, các quy tắc được thông báo ngữ nghĩa có thể đảm bảo dữ liệu kinh doanh và đầu ra AI chính xác. So sánh đầu ra với kết quả mong đợi hỗ trợ độ chính xác thực nghiệm. Một ngữ nghĩa chuyên gia kết hợp với dữ liệu tham chiếu y tế được lựa chọn kỹ lưỡng, chẳng hạn như Hệ thống Ngôn ngữ Y tế Thống nhất (UMLS), có thể tự động xác định liều lượng thuốc dựa trên cách sử dụng hoặc định dạng kê đơn của nó. Hệ thống nhận diện và tự sửa lỗi, khẳng định rằng “đối với loại thuốc này, viên nén không được kê hoặc khuyến nghị trên 5 miligam”.

Làm thế nào để chúng ta có thể đảm bảo dữ liệu đào tạo và kinh doanh sạch, toàn diện cùng với kết quả chính xác từ các ứng dụng AI liên quan đến dữ liệu y tế? Việc khuyến nghị đúng liều lượng và phương thức sử dụng cho thuốc là rất quan trọng. Các quy trình sau đây được xây dựng xung quanh ví dụ có thể cứu sống này. Những quy trình này có thể được thực hiện bằng các nền tảng không yêu cầu mã hoặc mã ít, giúp giảm bớt yêu cầu kỹ thuật liên quan đến việc xây dựng các quy trình chất lượng dữ liệu quan trọng.

Bắt đầu với dữ liệu đào tạo đã được làm sạch và tăng cường. Để đảm bảo bộ dữ liệu đào tạo chất lượng cao, hãy bắt đầu bằng việc phân tích, làm sạch và làm phong phú dữ liệu đào tạo và dữ liệu kinh doanh cần thiết bằng các quy tắc tự động và suy diễn ngữ nghĩa. Để tránh những kết quả AI không chính xác (ảo giác), việc sử dụng các tập dữ liệu tham khảo đạt tiêu chuẩn vàng và dữ liệu kinh doanh sạch, chính xác là rất quan trọng. Khi dữ liệu đào tạo và kinh doanh không chính xác, bị thiên lệch hoặc thiếu thông tin siêu dữ liệu quan trọng, các ứng dụng AI sẽ tạo ra kết quả không chính xác hoặc có thiên lệch. Mọi dự án AI cần bắt đầu với việc quản lý chất lượng dữ liệu chủ động và cốt lõi, bao gồm phân tích, loại bỏ trùng lặp, làm sạch, phân loại và làm phong phú. Hãy coi đó là "dữ liệu tốt vào - kết quả kinh doanh tốt ra". Lý tưởng nhất, dữ liệu đào tạo nên được chọn lọc và tích hợp từ nhiều nguồn để tạo ra các tài nguyên dữ liệu chất lượng cao về nhân khẩu học, khách hàng, thông tin doanh nghiệp, địa lý hoặc các tài nguyên liên quan khác. Hơn nữa, chất lượng dữ liệu và quy trình dựa trên dữ liệu không phải là cố định và cần được xử lý theo thời gian thực. Chính vì lý do này, chất lượng dữ liệu chủ động (tự động hóa chất lượng dữ liệu) như một hoạt động kinh doanh thường xuyên là rất cần thiết cho bất kỳ ứng dụng doanh nghiệp nào được hỗ trợ bởi AI. Điều này hỗ trợ việc tạo ra và áp dụng các quy tắc chủ động để giải quyết các vấn đề phát sinh từ phân tích dữ liệu nhằm làm sạch, tích hợp, hòa nhập và làm phong phú dữ liệu cho ứng dụng AI của bạn.

Tất cả những yếu tố này chỉ ra rằng cần phát triển các ứng dụng được hỗ trợ bởi AI trong những môi trường chất lượng dữ liệu chủ động, như một phương tiện để cung cấp những hiểu biết kinh doanh tốt hơn và kết quả không có ảo giác. Trong ví dụ thuốc, dữ liệu thuốc chính xác, giàu siêu dữ liệu là rất cần thiết và được hệ thống tham chiếu. Dữ liệu tham chiếu sạch có thể được áp dụng trong nhiều bước trong quy trình công việc AI: Những phương pháp này có thể xác định và đánh dấu hoặc sửa bất kỳ nội dung hoặc kết quả nào không đáp ứng các nội dung hoặc mối quan hệ mong đợi – một bản ghi hoặc đề xuất tham chiếu viên nén 15 miligam sẽ được đánh dấu hoặc sửa chữa.

Tiếp theo, so sánh kết quả với nội dung và mối quan hệ có thẩm quyền mong đợi (dữ liệu tham chiếu và ngữ nghĩa được gán nhãn phong phú) là một bước quy trình công việc quan trọng. Tính khả quan và nguồn gốc là rất quan trọng trong giai đoạn phát triển ứng dụng AI và vẫn là yếu tố thiết yếu cho việc quản lý trong suốt vòng đời ứng dụng. Bằng cách kết hợp các tập dữ liệu đào tạo và tham khảo chất lượng cao với các đồ thị ngữ nghĩa phù hợp, các kỹ sư ứng dụng và nhà khoa học dữ liệu có thể hiệu quả xem xét các vấn đề đã xác định. Lý luận máy (hoặc suy diễn ngữ nghĩa) có thể áp dụng nội dung ngữ nghĩa và các quy tắc chất lượng dữ liệu có liên quan được thông báo bởi các chuyên gia, chẳng hạn như những gì được cung cấp bởi Trung tâm Ngôn ngữ Y tế Sinh học Quốc gia Hoa Kỳ (NCBO) trong ví dụ thuốc. Các tài nguyên này có thể tạo điều kiện cho việc học có giám sát, chẳng hạn như thông qua việc truy tìm có hỗ trợ hình ảnh nâng cao (GraphRAG). Điều này tạo ra một môi trường cho việc giám sát đào tạo có thông tin và có thể quan sát được, hỗ trợ việc tạo và áp dụng các quy tắc kinh doanh hiện có hoặc mới để đảm bảo kết quả chính xác. Bằng cách đào tạo ứng dụng AI trong thời gian thực, các lỗi tiềm năng có thể được suy diễn, đánh dấu và sửa chữa.

Cuối cùng, tự động hóa việc giám sát, truy xuất và tăng cường/sửa chữa để nâng cao AI ở quy mô lớn là rất quan trọng. Hầu hết các hệ thống AI ngày nay đều được phát triển với sự giám sát của con người đối với các kết quả. Các ứng dụng quy mô doanh nghiệp phải tự động hóa khả năng kiểm tra đầu ra và xác minh rằng chúng đáp ứng chất lượng dữ liệu mong đợi và ý nghĩa ngữ nghĩa. Để sản xuất, dữ liệu tham chiếu được gán nhãn tốt và các tài nguyên ngữ nghĩa có thẩm quyền được triển khai để tự động hóa việc áp dụng các tác động ngữ nghĩa (tăng cường hoặc sửa chữa dữ liệu dựa trên lý luận ngữ nghĩa). Dựa trên các nguồn có thẩm quyền để truy xuất dữ liệu tham chiếu và logic, các quy tắc và lý luận có thể được sử dụng và áp dụng trên quy mô lớn để tăng cường, đánh giá và sửa chữa quá trình tạo ra các kết quả từ AI. Trong khi các vấn đề chưa biết có thể luôn cần được đánh dấu để giám sát con người, hầu hết các vấn đề có thể được giải quyết theo cách tự động thông qua việc áp dụng các quy tắc, ngữ nghĩa chuyên gia và dữ liệu chất lượng cao. Dữ liệu tiêu chuẩn vàng đã được nhắc đến trước đó bổ sung cho việc đào tạo và giám sát tự động ở hạ nguồn bằng cách so sánh kết quả với các mẫu dữ liệu tham khảo mong đợi. Mặc dù các chẩn đoán và kê đơn y tế có thể luôn cần sự giám sát của con người, nhưng chúng ta có thể đảm bảo độ chính xác cho tất cả các ứng dụng AI quan trọng của mình bằng cách áp dụng dữ liệu sạch, được gán nhãn tốt và sự tăng cường có ý nghĩa.

Việc chống lại những ảo giác trong các ứng dụng AI cần đến việc sử dụng các công cụ và tài nguyên hỗ trợ độ chính xác thực nghiệm. Để tránh những sai lầm, hãy neo dự án AI của bạn vào dữ liệu tham chiếu tiêu chuẩn vàng cho đào tạo, dữ liệu kinh doanh sạch và được chọn lọc, và các quy trình chất lượng dữ liệu chủ động với việc giám sát kết quả có thể quan sát và thông tin ngữ nghĩa. Cùng nhau, các phương pháp này cung cấp một nền tảng cần thiết cho việc tạo ra, thử nghiệm và sửa chữa các kết quả từ AI có ý nghĩa, có thể quan sát, và tự động. (datasciencecentral)
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
http://textlink.linktop.vn/?adslk=aHR0cHM6Ly92bnJldmlldy52bi90aHJlYWRzL2NhY2gtZGFtLWJhby1jaGF0LWx1b25nLWR1LWxpZXUtZGUtbmdhbi1jaGFuLWFvLWdpYWMtZG8tYWktZ2F5LXJhLjY2MDczLw==
Top