ChatGPT đưa ra các quyết định lâm sàng ngày càng tốt liệu có thay thế được bác sĩ không?

ChatGPT đưa ra các quyết định lâm sàng ổn—Thường thì, nhưng đừng nghĩ đến việc thay thế bác sĩ của bạn bằng một chatbot ngay bây giờ hoặc bao giờ.
ChatGPT đưa ra các quyết định lâm sàng ngày càng tốt liệu có thay thế được bác sĩ không?
Liệu một ngày nào đó ChatGPT có thể hỗ trợ bác sĩ chẩn đoán bệnh nhân? Nó có thể một ngày nào đó là có thể.
Trong một nghiên cứu gần đây, các nhà nghiên cứu đã cung cấp thông tin ChatGPT từ các bệnh nhân hư cấu được tìm thấy trong sách hướng dẫn tham khảo y tế trực tuyến để tìm hiểu xem chatbot có thể đưa ra các quyết định lâm sàng như chẩn đoán bệnh nhân và kê đơn điều trị hiệu quả như thế nào. Các nhà nghiên cứu nhận thấy rằng ChatGPT có độ chính xác 72% trong các quyết định của mình, mặc dù bot này thực hiện tốt hơn một số loại nhiệm vụ lâm sàng so với các loại nhiệm vụ khác. Nó cũng không cho thấy bằng chứng nào về sự thiên vị dựa trên tuổi tác hoặc giới tính. Mặc dù nghiên cứu này có quy mô nhỏ và không sử dụng dữ liệu thực của bệnh nhân, nhưng những phát hiện này chỉ ra tiềm năng của chatbot trong việc giúp chăm sóc y tế hiệu quả hơn và ít sai lệch hơn.
Marc Succi, phó chủ tịch phụ trách đổi mới và thương mại hóa tại Mass General Brigham, một hệ thống chăm sóc sức khỏe ở khu vực Boston, đồng thời là tác giả cấp cao của nghiên cứu, cho biết: “Nghiên cứu này xem xét hiệu suất của GPT trong toàn bộ kịch bản lâm sàng”.
Được xuất bản trên Tạp chí Nghiên cứu Internet Y tế vào ngày 22 tháng 8, nghiên cứu đã sử dụng tất cả 36 mô tả lâm sàng từ Cẩm nang Merck, một sổ tay tham khảo y tế trực tuyến, làm bệnh nhân để ChatGPT thực hiện quá trình chẩn đoán và điều trị. Minh họa lâm sàng là các nghiên cứu trường hợp bệnh nhân được sử dụng để giúp đào tạo các chuyên gia chăm sóc sức khỏe về tư duy phê phán và kỹ năng ra quyết định trong khi chăm sóc bệnh nhân. Các nhà nghiên cứu nhập nội dung của từng minh họa, sau đó xem qua các câu hỏi được trình bày trong sổ tay cho từng trường hợp. Các nhà nghiên cứu đã chọn loại trừ mọi câu hỏi về việc kiểm tra hình ảnh vì ChatGPT dựa trên văn bản.
Đầu tiên, các nhà nghiên cứu chỉ đạo bot tạo ra một danh sách các chẩn đoán phân biệt dựa trên họa tiết—nói cách khác, một danh sách các chẩn đoán có thể xảy ra mà ban đầu không thể loại bỏ. Sau đó, chatbot được yêu cầu đề xuất những xét nghiệm nào nên được thực hiện, sau đó là yêu cầu chẩn đoán cuối cùng. Cuối cùng, các nhà nghiên cứu đã hỏi ChatGPT về phương pháp điều trị hoặc chăm sóc theo dõi mà bệnh nhân nên nhận. Một số câu hỏi trong sổ tay cũng hỏi ChatGPT về các chi tiết y tế của từng trường hợp, những chi tiết này không nhất thiết liên quan đến việc đề xuất chăm sóc lâm sàng.
Nhìn chung, ChatGPT đưa ra phản hồi chính xác 72%, nhưng độ chính xác thay đổi tùy thuộc vào loại nhiệm vụ lâm sàng. Nhiệm vụ mà chatbot hoạt động hiệu quả nhất là đưa ra chẩn đoán cuối cùng một cách chính xác sau khi nó được cung cấp cả thông tin bệnh nhân ban đầu và kết quả xét nghiệm chẩn đoán bổ sung, với tỷ lệ thành công là 77%. Các câu hỏi được chỉ định là “linh tinh”, hỏi về chi tiết y tế của từng trường hợp, đạt độ chính xác tương tự ở mức 76%.
Tuy nhiên, chatbot không hiệu quả trong việc hoàn thành các loại nhiệm vụ lâm sàng khác. Nó có hiệu quả khoảng 69% trong việc đề xuất các xét nghiệm chẩn đoán chính xác cho mô tả bệnh nhân ban đầu cũng như kê đơn điều trị và chăm sóc theo dõi sau khi đưa ra chẩn đoán cuối cùng. ChatGPT hoạt động kém nhất khi đưa ra chẩn đoán phân biệt, với độ chính xác chỉ 60%.
Succi cho biết anh không ngạc nhiên khi chatbot gặp khó khăn nhất trong việc chẩn đoán phân biệt. “Đó thực sự là trường y và nội trú - nó có thể đưa ra những khác biệt tốt với rất ít thông tin trình bày,” ông nói.
Một lợi thế của việc sử dụng chatbot như ChatGPT có thể là giảm sai lệch về mặt y tế. Trong nghiên cứu, các nhà nghiên cứu không tìm thấy bằng chứng về bất kỳ sự khác biệt nào trong phản ứng của chương trình so với độ tuổi hoặc giới tính của bệnh nhân, được đưa ra trong mỗi họa tiết. Tuy nhiên, Wolpe cho biết rằng sự thiên vị vẫn có thể xuất hiện trong phản hồi của bot trong trường hợp dữ liệu và nghiên cứu y tế bị sai lệch. Một số ví dụ có thể là kết quả đo nồng độ oxy trong mạch ở những người có làn da sẫm màu hơn hoặc các triệu chứng đau tim ở phụ nữ, mà các nghiên cứu đã chỉ ra rằng ít có khả năng là những gì mọi người nghĩ là triệu chứng đau tim “điển hình”.
Nghiên cứu này có một số hạn chế, bao gồm cả việc nó không sử dụng dữ liệu bệnh nhân thực tế và chỉ bao gồm một số lượng nhỏ bệnh nhân (hư cấu). Succi cho biết, việc các nhà nghiên cứu không biết ChatGPT được đào tạo như thế nào cũng là một hạn chế và mặc dù kết quả rất đáng khích lệ nhưng chatbot sẽ không sớm thay thế bác sĩ của bạn. “Bác sĩ của bạn sẽ không đi đâu cả,” anh ấy nói.
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top