GPT-4 có thể là Cứu tinh trong lĩnh vực y tế không?

Thoại Viết Hoàng · 15/08/2023

Các khả năng của GPT-4 khiến nó trở thành một trình phát phù hợp để hỗ trợ chăm sóc sức khỏe. Tuy nhiên, nó có hoàn toàn đáng tin cậy?

Trường hợp AI có thể và không thể trợ giúp trong quản lý nhân sự

GPT-4 có thể là Cứu tinh trong lĩnh vực y tế không?

Mặc dù các khả năng của OpenAI đã đi vào mọi lĩnh vực có thể, nhưng có một lĩnh vực mà LLM, nếu được sử dụng đúng cách, có thể có tác động cao nhất bằng cách ảnh hưởng trực tiếp đến cuộc sống - lĩnh vực y tế. Đầu năm nay, ChatGPT thậm chí đã vượt qua cả ba phần của Kỳ thi cấp phép y tế Hoa Kỳ (USMLE) và chúng tôi thậm chí còn thấy cách ChatGPT đã giúp cứu sống một chú chó thông qua chẩn đoán y tế chính xác. Tuy nhiên, chúng ta chưa thấy nhiều ứng dụng thực tế trong lĩnh vực y tế. Các khả năng của GPT-4 có làm cho nó trở thành một ứng dụng phù hợp trong lĩnh vực y tế không?
Tiềm năng to lớn
Một bài báo do OpenAI và Microsoft phát hành về Khả năng của GPT-4 đối với các Vấn đề Thách thức Y tế đã được phát hành vào tháng 3 năm nay. Trong nghiên cứu này, GPT-4 đã thể hiện khả năng hiểu ngôn ngữ và khả năng tạo ấn tượng trong y học. Nghiên cứu đánh giá hiệu suất của GPT-4 trong các bài kiểm tra năng lực y tế và bộ dữ liệu điểm chuẩn, mặc dù mô hình này không chuyên về y học.
Các nhà nghiên cứu đánh giá hiệu suất của GPT-4 trên các tài liệu thực hành USMLE chính thức và bộ dữ liệu MultiMedQA. GPT-4 vượt qua điểm thi USMLE hơn 20 điểm, vượt trội so với các mẫu trước đó (bao gồm cả GPT-3.5) và thậm chí cả các mẫu được tinh chỉnh cho kiến thức y tế. Ngoài ra, GPT-4 thể hiện khả năng hiệu chuẩn xác suất được cải thiện, ngụ ý rằng nó tốt hơn trong việc dự đoán các câu trả lời đúng. Nghiên cứu này cũng khám phá cách GPT-4 có thể giải thích lập luận y tế, tùy chỉnh giải thích và tạo các tình huống giả định, cho thấy tiềm năng của nó đối với giáo dục và thực hành y tế. Các phát hiện nêu bật các khả năng của GPT-4 trong khi thừa nhận những thách thức liên quan đến độ chính xác và an toàn trong các ứng dụng trong thế giới thực.
So với các mẫu cũ hơn, GPT-4 đã tốt hơn nhiều khi được thử nghiệm trong các bài kiểm tra y tế chính thức như USMLE. GPT-4 đã cải thiện hơn 30 điểm phần trăm khi so sánh với GPT-3.5. Trong khi GPT-3.5 đang tiến gần đến số điểm vượt qua này (60% câu hỏi trắc nghiệm là đúng), thì GPT-4 đã vượt qua số điểm rất lớn.
Alignment and Safety In Place
Khi phiên bản cũ hơn của GPT-4, được gọi là mẫu cơ sở, được so sánh với GPT-4, phiên bản trước có hiệu suất tốt hơn một chút khoảng 3-5% trong một số thử nghiệm. Điều này cho thấy rằng khi mô hình được làm an toàn hơn và tốt hơn theo hướng dẫn, nó có thể đã mất một chút hiệu suất thô. Các nhà nghiên cứu gợi ý rằng công việc trong tương lai có thể tập trung vào việc tìm cách cân bằng độ chính xác và an toàn hiệu quả hơn bằng cách tinh chỉnh quy trình đào tạo hoặc bằng cách sử dụng dữ liệu y tế chuyên biệt.
Med-PaLM phù hợp ở đâu?
Nghiên cứu trên không so sánh GPT-4 với các mẫu như Med-PaLM và Flan-PaLM 540B, vì các mẫu này không có sẵn cho mọi người dùng thử tại thời điểm nghiên cứu.
Google gần đây đã ra mắt LLM chăm sóc sức khỏe đa phương thức của họ với Med-PaLMM – một mô hình tổng quát đa phương thức lớn giúp mã hóa và diễn giải dữ liệu y sinh. Khả năng của nó tiên tiến hơn nhiều so với GPT-4 khi xem xét cách nó có thể xử lý nhiều loại dữ liệu y tế khác nhau như ngôn ngữ lâm sàng, hình ảnh y tế, bộ gen và thậm chí thực hiện nhiều nhiệm vụ khác nhau. Mô hình có thể khái quát hóa các nhiệm vụ y tế mới và thực hiện lý luận đa phương thức mà không cần đào tạo cụ thể. Nó có thể nhận dạng và giải thích chính xác các tình trạng y tế bằng hình ảnh chỉ bằng cách sử dụng các hướng dẫn và lời nhắc bằng ngôn ngữ.
Never Fool-Proof
Tuy nhiên, các ứng dụng GPT-4 không đa dạng như các ứng dụng mà Med-PaLM cung cấp. Mặc dù GPT-4 đã được công bố với các tính năng đa phương thức nhưng nó vẫn chưa có sẵn cho người dùng. Hơn nữa, đã có những quan sát tiêu cực về khả năng của GPT-4 trong chẩn đoán y tế. Kết quả có vấn đề và sai lệch là một phần của kết quả, đồng thời có những lo ngại về việc GPT-4 có xu hướng nhúng vào các thành kiến xã hội có thể cản trở sự phù hợp của GPT-4 trong việc hỗ trợ các quyết định lâm sàng.
Vấn đề phổ biến về ảo giác vẫn còn tồn tại với việc GPT-4 đưa ra thông tin không chính xác. Mô hình đã tạo ra các câu trả lời không chính xác cho các trích dẫn y khoa. GPT-4 tạo ra hơn 20% lỗi đối với các trích dẫn y tế.

Mặc dù GPT-4 có thể không hoàn toàn đáng tin cậy với vai trò hỗ trợ y tế để chẩn đoán với hiệu suất hiện tại , nhưng có những chức năng khác mà mô hình này có thể hỗ trợ. Các bệnh viện đang xem xét AI để giúp bác sĩ giảm bớt tình trạng kiệt sức. Với các ứng dụng có thể viết ghi chú cho hồ sơ sức khỏe điện tử và soạn thảo các ghi chú đồng cảm cho bệnh nhân, AI có thể giúp quá trình diễn ra suôn sẻ. Ghi lại nhận xét của bác sĩ và bệnh nhân, sau đó tạo định dạng tóm tắt của bác sĩ cho hồ sơ sức khỏe điện tử là một trong những trường hợp sử dụng tốt nhất trong lĩnh vực y tế. Với những hạn chế hiện tại, GPT-4 vẫn còn một chặng đường dài trước khi có thể được áp dụng hoàn toàn trong lĩnh vực y tế.