GPT trong ChatGPT thực ra nghĩa là gì?

Đoàn Thúy Hà · 03/08/2023

Ngày nay, khó có thể lướt qua một trang web tin tức mà không thấy nhắc đến "ChatGPT". Kể từ khi được công bố vào ngày 20 tháng 11 năm 2022, chatbot thông minh này đã đạt hơn 100 triệu người dùng hàng tháng và đã tăng vọt trong một số từ khóa được tìm kiếm nhiều nhất trên Google.
Mặc dù rất phổ biến, nhưng rất ít người có thể nói ngay được ý nghĩa của "GPT" trong ChatGPT. Thực ra, nó là viết tắt của "Generative Pre-trained Transformer" (tạm dịch: Bộ chuyển đổi đã được tiền huấn luyện có tính tạo sinh).
ChatGPT là một chương trình máy tính được phát triển bởi OpenAI, sử dụng trí tuệ nhân tạo (AI) để tạo các cuộc trò chuyện dựa trên văn bản với người dùng. Hỏi bất kỳ câu hỏi nào (với giới hạn lý hợp lý) hoặc yêu cầu điều gì đó, ChatGPT sẽ phản hồi bằng một đoạn văn bản có thể cảm giác rất tự nhiên và giống con người.

Nói một cách kỹ thuật hơn, ChatGPT là một chatbot dựa trên mô hình ngôn ngữ lớn, có nghĩa là nó được cung cấp lượng dữ liệu văn bản không tưởng - chẳng hạn như sách, bài báo tin tức và trang web - từ đó nó học cách xây dựng các câu.
Nó có thể được sử dụng cho mọi mục đích, như viết mã máy tính, phục vụ như một trợ lý ảo chatbot, tạo nội dung, và thậm chí viết các bài báo tin tức (tuy nhiên không phải lúc nào cũng thành công).
Tôi đã yêu cầu ChatGPT đưa ra giải thích về thuật ngữ "Generative Pre-trained Transformer". Nó trả lời như sau:
""Generative Pre-trained Transformer" là thuật ngữ mô tả các đặc điểm và đặc tính của kiến trúc mô hình ngôn ngữ. Hãy phân tích ý nghĩa của từng thành phần:

Generative: Trong ngữ cảnh xử lý ngôn ngữ tự nhiên, "generative" có nghĩa là mô hình có khả năng tạo ra văn bản mới giống như ngôn ngữ con người. Nó có thể tạo ra các câu, đoạn văn hoặc văn bản dài có tính liên kết ngữ cảnh dựa trên các mẫu nó học được trong quá trình huấn luyện.
Pre-trained: "Pre-training" là giai đoạn đầu tiên của quá trình huấn luyện mô hình trên một tập dữ liệu lớn chứa rất nhiều văn bản từ internet hoặc các nguồn khác. Trong quá trình này, mô hình học cách dự đoán từ tiếp theo trong một câu dựa trên các từ trước đó. Quá trình này cho phép mô hình nắm bắt các mẫu thống kê và mối quan hệ có mặt trong dữ liệu.
Transformer: "Transformer" là một loại kiến trúc học sâu cụ thể được giới thiệu trong bài báo "Attention Is All You Need" của Vaswani et al. vào năm 2017. Nó sử dụng cơ chế tự chú ý để xử lý các chuỗi đầu vào song song, cho phép mô hình xem xét sự quan trọng của các từ khác nhau trong đầu vào khi tạo ra đầu ra. Transformers đã trở nên phổ biến trong các nhiệm vụ xử lý ngôn ngữ tự nhiên nhờ khả năng xử lý các phụ thuộc cách xa và khả năng song song hóa của chúng."

Ngoài ChatGPT của OpenAI, còn một số GPT khác tồn tại. Có BloombergGPT, sử dụng công nghệ trí tuệ nhân tạo tương tự như ChatGPT của OpenAI nhưng đã được đào tạo đặc biệt trên dữ liệu liên quan đến tài chính và ngành tài chính. Còn GPT-Neo, là một mô hình ngôn ngữ lớn mã nguồn mở được lấy cảm hứng từ GPT-3 của OpenAI.
Hiện tại, OpenAI và ChatGPT là những cái tên nổi tiếng nhất trong lĩnh vực "Generative Pre-trained Transformer", nhưng cũng có rất nhiều công ty khác đang cạnh tranh để giành vị trí hàng đầu.