Microsoft vô tình để lộ thông số GPT-4 và các mô hình OpenAI khác

Nguyễn Văn Sơn · 14:19, Thứ 5

Một bài báo y khoa của Microsoft và Đại học Washington đã vô tình tiết lộ thông số kỹ thuật của các mô hình AI do OpenAI phát triển, bao gồm GPT-4, GPT-4o, và o1.

Thông số kỹ thuật được tiết lộ

GPT-4: 1,76 nghìn tỷ tham số.
GPT-4o: 200 tỷ tham số.
GPT-4o mini: 8 tỷ tham số.
o1-preview: 300 tỷ tham số.
o1-mini: 100 tỷ tham số.
Claude 3.5 Sonnet: 175 tỷ tham số.

Điều bất ngờ nhất là GPT-4o có thông số thấp hơn nhiều so với kỳ vọng, trong đó phiên bản mini chỉ có 8 tỷ tham số. Một số ý kiến cho rằng GPT-4o mini có thể là một mô hình dạng MoE (Mixture of Experts), trong đó chỉ 8 tỷ tham số được kích hoạt tại mỗi bước xử lý.

Tiêu chuẩn đánh giá MEDEC và ứng dụng y khoa

Bài báo tiết lộ nhóm nghiên cứu từ Microsoft và Đại học Washington đã phát triển tiêu chuẩn MEDEC (Medical Error Detection and Correction), được thiết kế để phát hiện và sửa lỗi trong các ghi chú lâm sàng.

Thông tin về dữ liệu MEDEC

Gồm 3.848 văn bản lâm sàng từ 488 ghi chú tại 3 hệ thống bệnh viện Mỹ.
Chia thành 5 loại lỗi y khoa chính:
1. Chẩn đoán: Sai về chẩn đoán.
2. Quản lý: Sai trong các bước quản lý bệnh.
3. Điều trị: Sai trong phương pháp điều trị.
4. Thuốc: Khuyến nghị dùng thuốc sai.
5. Tác nhân gây bệnh: Nhầm lẫn về sinh vật gây bệnh.

Thử nghiệm AI và đối chiếu với bác sĩ

MEDEC được dùng để đánh giá hiệu suất của nhiều mô hình AI, bao gồm:

GPT-4, GPT-4o, o1-preview, Claude 3.5 Sonnet, Gemini 2.0 Flash.

Các thử nghiệm gồm 3 nhiệm vụ chính:

Xác định lỗi có tồn tại hay không.
Xác định câu có lỗi.
Đưa ra bản sửa lỗi.

Kết quả cho thấy:

LLM (mô hình ngôn ngữ lớn) hoạt động tốt trong việc phát hiện và sửa lỗi, nhưng vẫn kém bác sĩ con người.
o1-preview vượt trội về sửa lỗi, trong khi Claude 3.5 Sonnet có độ chính xác cao nhất trong phát hiện lỗi.

Thách thức trong ứng dụng LLM vào y khoa

LLM thường tạo ra "ảo giác", đưa ra thông tin không chính xác hoặc hư cấu, gây nguy cơ trong ra quyết định lâm sàng.
Việc phát hiện lỗi trong văn bản lâm sàng yêu cầu không chỉ chuyên môn y tế mà còn kinh nghiệm thực tế.

Các thử nghiệm nhấn mạnh rằng LLM cần được cải thiện để đạt độ tin cậy tương đương với bác sĩ trong các nhiệm vụ y khoa phức tạp.
Tác giả của nghiên cứu của Microsoft gồm:

Wen-wai Yim: Nhà khoa học ứng dụng cao cấp tại Microsoft, có nền tảng trong kỹ thuật sinh học, tin học y sinh và y tế. Lĩnh vực nghiên cứu chính của cô bao gồm trích xuất thông tin từ ghi chú lâm sàng và dữ liệu y khoa.
Yujuan Fu: Nghiên cứu sinh tiến sĩ tại Đại học Washington, chuyên về xử lý ngôn ngữ tự nhiên trong y tế, đặc biệt là tinh chỉnh các mô hình ngôn ngữ lớn.
Zhaoyi Sun: Nghiên cứu sinh tiến sĩ tại Đại học Washington, tập trung vào việc áp dụng mô hình ngôn ngữ lớn (LLM) để cải thiện ứng dụng trong lâm sàng và nghiên cứu học sâu đa phương thức.
Fei Xia: Giáo sư tại Khoa Ngôn ngữ học, Đại học Washington, với kinh nghiệm trong xử lý ngôn ngữ tự nhiên, đặc biệt là trong các dự án về ngữ pháp cây và học ngôn ngữ.

Xem ra tất cả các tác giả này đều là người gốc Trung Quốc.