AI chưa sẵn sàng để thay thế bác sĩ X quang giải thích ảnh chụp X-quang ngực

Một nghiên cứu của Đan Mạch cho thấy các công cụ trí tuệ nhân tạo (AI) có sẵn trên thị trường có độ chính xác ở các mức độ khác nhau trong việc đánh dấu các bất thường trên phim chụp X-quang ngực nhưng lại cho ra nhiều kết quả dương tính giả hơn so với các báo cáo X quang.
AI chưa sẵn sàng để thay thế bác sĩ X quang giải thích ảnh chụp X-quang ngực
Khi thử nghiệm bốn công cụ AI được đánh dấu CE trên các ảnh chụp X quang trong thế giới thực từ khu vực Copenhagen, các nhà điều tra đã báo cáo các khu vực dưới đường cong đặc tính hoạt động của máy thu nằm trong khoảng từ 0,83-0,88 đối với bệnh về đường hô hấp, 0,89-0,97 đối với tràn khí màng phổi và 0,94-0,97 đối với tràn dịch màng phổi bằng X quang. báo cáo làm tài liệu tham khảo.
Louis Plesner, MD, thuộc Đại học Copenhagen, Đan Mạch và các đồng tác giả đã tìm thấy nhiều giá trị độ nhạy và độ đặc hiệu cho các công cụ AI:
Annalize Enterprise CXR (phiên bản 2.2): độ nhạy 72% và độ đặc hiệu 86% đối với bệnh đường hô hấp; 90% và 98% đối với tràn khí màng phổi; 95% và 83% tràn dịch màng phổi
SmartUrgences (phiên bản 1.24 với ngưỡng độ nhạy cao): độ nhạy 91% và độ đặc hiệu 62% đối với bệnh đường hô hấp; 73% và 99% đối với tràn khí màng phổi; 78% và 92% tràn dịch màng phổi
ChestEye (phiên bản 2.6): độ nhạy 80% và độ đặc hiệu 76% đối với bệnh đường hô hấp; 78% và 98% đối với tràn khí màng phổi; Tràn dịch màng phổi 68% và 97%
AI-Rad Companion (phiên bản 10): độ nhạy 79% và độ đặc hiệu 72% đối với bệnh về đường hô hấp; 71% và 98% đối với tràn khí màng phổi; 80% và 92% tràn dịch màng phổi
"Trong số các công cụ AI được kiểm tra trong nghiên cứu này, chúng tôi đã quan sát thấy sự khác biệt rõ ràng về sự cân bằng giữa độ nhạy và độ đặc hiệu của từng công cụ. Điều này dường như không thể đoán trước được. Do đó, khi triển khai một công cụ AI, điều quan trọng là phải hiểu được mức độ phổ biến và mức độ nghiêm trọng của bệnh." trang web và việc thay đổi ngưỡng công cụ AI sau khi triển khai có thể cần thiết để hệ thống có khả năng chẩn đoán mong muốn", nhóm viết trong Radiologyopens in a new tab hoặc window.
Louis Plesner, MD, thuộc Đại học Copenhagen, Đan Mạch và các đồng tác giả đã tìm thấy nhiều giá trị độ nhạy và độ đặc hiệu cho các công cụ AI:
Annalize Enterprise CXR (phiên bản 2.2): độ nhạy 72% và độ đặc hiệu 86% đối với bệnh đường hô hấp; 90% và 98% đối với tràn khí màng phổi; 95% và 83% tràn dịch màng phổi
SmartUrgences (phiên bản 1.24 với ngưỡng độ nhạy cao): độ nhạy 91% và độ đặc hiệu 62% đối với bệnh đường hô hấp; 73% và 99% đối với tràn khí màng phổi; 78% và 92% tràn dịch màng phổi
ChestEye (phiên bản 2.6): độ nhạy 80% và độ đặc hiệu 76% đối với bệnh đường hô hấp; 78% và 98% đối với tràn khí màng phổi; Tràn dịch màng phổi 68% và 97%
AI-Rad Companion (phiên bản 10): độ nhạy 79% và độ đặc hiệu 72% đối với bệnh về đường hô hấp; 71% và 98% đối với tràn khí màng phổi; 80% và 92% tràn dịch màng phổi
"Trong số các công cụ AI được kiểm tra trong nghiên cứu này, chúng tôi đã quan sát thấy sự khác biệt rõ ràng về sự cân bằng giữa độ nhạy và độ đặc hiệu của từng công cụ. Điều này dường như không thể đoán trước được. Do đó, khi triển khai một công cụ AI, điều quan trọng là phải hiểu được mức độ phổ biến và mức độ nghiêm trọng của bệnh." trang web và việc thay đổi ngưỡng công cụ AI sau khi triển khai có thể cần thiết để hệ thống có khả năng chẩn đoán mong muốn", nhóm viết trong Radiologyopens in a new tab hoặc window.
Masahiro Yanagawa, MD, PhD, và Noriyuki Tomiyama, MD, PhD, cả hai đều thuộc Trường Y khoa Đại học Osaka ở Nhật Bản, đã đồng ý, nhấn mạnh các giới hạn của AI trong bối cảnh này.
"Vì chụp X quang ngực trước sau và chụp X quang ngực có nhiều phát hiện làm giảm tính đặc hiệu của các công cụ AI, các bác sĩ X quang nên nhận thức được những hạn chế của các công cụ này liên quan đến cả độ nhạy và độ đặc hiệu. Phải cẩn thận để không đánh giá quá cao kết quả của các công cụ AI trong những trường hợp đầy thử thách như vậy," Yanagawa và Tomiyama viết trong một bài bình luận được mời mở trong một tab hoặc cửa sổ mới.
Đối với nghiên cứu hồi cứu của mình, Plesner và các đồng nghiệp đã mời các nhà cung cấp AI thử nghiệm thuật toán của họ trên ảnh chụp X-quang ngực trong thế giới thực từ bốn bệnh viện trong khu vực Copenhagen. Các bức ảnh chụp X quang được thực hiện từ 2.040 bệnh nhân người lớn liên tiếp (50,6% là phụ nữ; độ tuổi trung bình là 72 tuổi).
Bốn trong số bảy nhà cung cấp AI được mời đã đồng ý tham gia và sử dụng các công cụ AI của họ để so sánh với các báo cáo X quang lâm sàng do bác sĩ X quang thực hiện để tham khảo.
Tất cả bốn công cụ AI đều tạo ra nhiều kết quả dương tính giả hơn đáng kể. Ví dụ: khi xác định bệnh về đường hàng không, tỷ lệ dương tính giả dao động từ 13,7% với thuật toán Annalize đến 36,9% với SmartUrgences. Để so sánh, các bác sĩ X quang có tỷ lệ dương tính giả là 11,6%.
Chỉ có thuật toán SmartUrgences, khi được điều chỉnh ở độ đặc hiệu cao, mới không tạo ra nhiều kết quả dương tính giả hơn các bác sĩ X quang trong việc cảnh báo tràn khí màng phổi và tràn dịch màng phổi.
Tỷ lệ âm tính giả rất khác nhau tùy thuộc vào phát hiện và công cụ AI.
Các tác giả cho biết, một hạn chế là các bác sĩ X quang có quyền truy cập vào thông tin lâm sàng, chụp X quang ngực nghiêng và hình ảnh trước đó mà các công cụ AI không có, có khả năng mang lại cho họ một “lợi thế không công bằng”. Những hạn chế khác có thể có của nghiên cứu bao gồm việc thiếu đánh giá AI trên X quang ngực nghiêng và những phát hiện này có thể không áp dụng được cho các cơ sở ngoài bệnh viện.
Tham khảo bài viết gốc tại đây:
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top