ChatGPT vượt điểm Sinh viên y khoa về các câu hỏi kiểm tra chăm sóc lâm sàng phức tạp

Một nghiên cứu mới cho thấy khả năng của AI trong việc phân tích văn bản y tế và đưa ra chẩn đoán chuẩn đến nỗi chúng ta buộc phải suy nghĩ lại về đào trong trong ngành y thời trí tuệ nhân tạo lên ngôi.
ChatGPT vượt điểm Sinh viên y khoa về các câu hỏi kiểm tra chăm sóc lâm sàng phức tạp
ChatGPT có thể vượt trội so với sinh viên y khoa năm thứ nhất và năm thứ hai trong việc trả lời các câu hỏi kiểm tra chăm sóc lâm sàng đầy thách thức, một nghiên cứu mới của các nhà nghiên cứu Stanford đã tiết lộ. Các phát hiện nêu bật tác động ngày càng nhanh của trí tuệ nhân tạo (AI) đối với giáo dục y tế và thực hành lâm sàng, đồng thời gợi ý sự cần thiết của một phương pháp mới để giảng dạy cho các bác sĩ trong tương lai.
ChatGPT là hệ thống AI mô hình ngôn ngữ lớn nổi tiếng nhất đã làm say đắm thế giới trong vài tháng qua. Các hệ thống được đào tạo trên toàn bộ nội dung internet và hoạt động như các chatbot trực tuyến, cho phép người dùng nhập văn bản và sau đó nhanh chóng nhận được văn bản giống như con người được tạo tự động để phản hồi.
Các nghiên cứu gần đây đã chỉ ra rằng ChatGPT có thể xử lý thành công các câu hỏi trắc nghiệm trong Kỳ thi cấp phép y tế Hoa Kỳ (USMLE), kỳ thi mà các bác sĩ phải vượt qua để hành nghề y. Các tác giả của Stanford muốn khám phá cách hệ thống AI có thể xử lý các câu hỏi mở, khó hơn được sử dụng để đánh giá các kỹ năng suy luận lâm sàng của sinh viên năm thứ nhất và năm thứ hai tại Stanford. Những câu hỏi này tiết lộ chi tiết về một trường hợp bệnh nhân trong các đoạn riêng biệt được phân tách bằng các câu hỏi yêu cầu học sinh thực hiện các kỹ năng lập luận lâm sàng, chẳng hạn như đưa ra các chẩn đoán có thể xảy ra.
Trong bài báo mới xuất bản trên tạp chí JAMA Internal Medicine, các nhà nghiên cứu nhận thấy rằng trung bình người mẫu đạt điểm cao hơn bốn điểm so với sinh viên trong phần báo cáo trường hợp này của bài kiểm tra.
Eric Strong, bác sĩ bệnh viện và phó giáo sư lâm sàng tại Trường Y khoa Stanford và là tác giả cho biết: “Chúng tôi rất ngạc nhiên về việc ChatGPT đã làm tốt như thế nào đối với các loại câu hỏi lý luận y tế có đáp án tự do này bằng cách vượt qua điểm số của những người làm bài kiểm tra trên người”. của nghiên cứu.
Đồng tác giả Alicia DiGiammarino, Giám đốc Giáo dục Thực hành Y khoa Năm 2 tại Trường Y cho biết: “Với những loại kết quả này, chúng tôi thấy bản chất của việc giảng dạy và kiểm tra lý luận y khoa thông qua văn bản được hỗ trợ bởi các công cụ mới”. "ChatGPT và các chương trình khác giống như vậy đang thay đổi cách chúng tôi giảng dạy và cuối cùng là hành nghề y."
AI là một học sinh thành công
Nghiên cứu mới đã sử dụng phiên bản mới nhất của ChatGPT, được gọi là GPT-4, được phát hành vào tháng 3 năm 2023. Nghiên cứu này tiếp nối một nghiên cứu trước đó mà Strong và DiGiammarino đã dẫn đầu liên quan đến phiên bản tiền nhiệm, GPT-3.5, được phát hành bởi San Nhà sản xuất có trụ sở tại Francisco, OpenAI, vào tháng 11 năm 2022.
Đối với cả hai nghiên cứu, các nhà nghiên cứu Stanford đã tổng hợp 14 trường hợp lý luận lâm sàng. Các trường hợp, với các mô tả bằng văn bản có độ dài từ vài trăm từ đến một nghìn từ, chứa vô số chi tiết không liên quan, chẳng hạn như các bệnh mãn tính và thuốc men không liên quan, giống như các biểu đồ y tế của bệnh nhân ngoài đời thực. Trong kỳ thi, thí sinh phải viết ra một đoạn văn dài câu trả lời cho một bộ câu hỏi đặt ra sau mỗi báo cáo trường hợp.
Phân tích văn bản và soạn câu trả lời gốc theo cách này trái ngược với sự đơn giản tương đối của các câu hỏi kiểm tra trắc nghiệm USMLE. Những câu hỏi đó bao gồm một đoạn văn ngắn, một câu hỏi và năm câu trả lời có thể. Gần như tất cả các thông tin được cung cấp có liên quan đến câu trả lời đúng.
Strong nói: “Không có gì quá ngạc nhiên khi ChatGPT và các chương trình tương tự sẽ làm tốt các câu hỏi trắc nghiệm. "Tất cả những gì thí sinh được cho biết là phần trọng tâm của câu hỏi, vì vậy chủ yếu là thu hồi thông tin. Một ngọn đồi khó leo hơn nhiều là một câu hỏi mở, tự do trả lời."
Tuy nhiên, một hỗ trợ nhỏ mà ChatGPT cần trước khi trả lời các câu hỏi dựa trên trường hợp là kỹ thuật nhanh chóng. Vì ChatGPT dựa trên toàn bộ internet nên nó có thể không giải thích chính xác các thuật ngữ tập trung vào chăm sóc sức khỏe được sử dụng trong thử nghiệm. Một ví dụ là "danh sách vấn đề", đề cập đến các vấn đề y tế trong quá khứ và hiện tại của bệnh nhân nhưng có thể xuất hiện trong các ngữ cảnh phi y tế khác.
Sau khi điều chỉnh một số câu hỏi cho phù hợp, các nhà nghiên cứu của Stanford nhập thông tin vào ChatGPT, ghi lại câu trả lời của chatbot và chuyển chúng cho những người chấm điểm có kinh nghiệm. Điểm của chương trình AI sau đó được so sánh với các sinh viên y khoa năm thứ nhất và năm thứ hai đã giải quyết các trường hợp tương tự.
Trong nghiên cứu trước, GPT-3.5 đã "vượt qua ranh giới" trong các phản hồi của nó, Strong nói. Tuy nhiên, trong nghiên cứu mới với GPT-4, chatbot đạt điểm trung bình cao hơn 4,2 điểm so với học sinh và công bố tỷ lệ đạt điểm là 93% so với 85% của học sinh.
Tuy nhiên, cũng như ChatGPT đã hoạt động, nó không hoàn hảo. Một vấn đề đặc biệt liên quan đã giảm đáng kể với GPT-4 so với 3.5 là sự ngụy tạo—việc bổ sung các chi tiết sai lệch, chẳng hạn như bệnh nhân bị sốt trong khi thực tế bệnh nhân không bị sốt trong một nghiên cứu trường hợp cụ thể. "Ký ức sai lầm" khó hiểu có thể bắt nguồn từ sự kết hợp, trong đó ChatGPT đang lấy thông tin từ các trường hợp tương tự.
Suy nghĩ lại về giáo dục y khoa
Liên quan đến thiết kế chương trình giảng dạy và tính toàn vẹn của bài kiểm tra, ảnh hưởng của ChatGPT đã được cảm nhận tại Trường Y khoa Stanford. Học kỳ vừa qua, ban giám hiệu nhà trường đã quyết định chuyển các kỳ thi từ sách mở—nghĩa là có quyền truy cập Internet vào ChatGPT—sang sách đóng. Bây giờ học sinh phải suy luận thông qua các câu hỏi hoàn toàn dựa trên trí nhớ. DiGiammarino cho biết, mặc dù cách tiếp cận này có những ưu điểm nhưng nhược điểm chính là các kỳ thi không còn đánh giá khả năng thu thập thông tin từ các nguồn của học sinh nữa - một kỹ năng quan trọng trong chăm sóc lâm sàng.
Nhận thức sâu sắc về vấn đề này, các giảng viên và nhân viên của Trường Y đã bắt đầu triệu tập thành một nhóm làm việc về AI. Nhóm đang xem xét các bản cập nhật chương trình giảng dạy sẽ kết hợp các công cụ AI để hỗ trợ việc học của sinh viên, tất cả đều nhằm mục tiêu chuẩn bị về mặt sư phạm cho các bác sĩ lâm sàng tương lai.
DiGiammarino nói: “Chúng tôi không muốn các bác sĩ quá phụ thuộc vào AI ở trường đến nỗi họ không học được cách tự mình suy luận về các trường hợp. "Nhưng tôi sợ hơn về một thế giới nơi các bác sĩ không được đào tạo để sử dụng AI một cách hiệu quả và thấy nó phổ biến trong thực tế hiện đại."
Strong cho biết thêm: “Chúng ta có thể phải mất nhiều thập kỷ nữa mới có thể thay thế hoàn toàn các bác sĩ. "Nhưng chúng ta chỉ còn vài năm nữa là có thể kết hợp AI vào y học hàng ngày."
Tham khảo bài viết gốc tại đây
 


Đăng nhập một lần thảo luận tẹt ga
Thành viên mới đăng
Top