Cốt lõi đằng sau ChatGPT là gì?

VNR Content · 28/12/2022

Vào tháng 12/2022, ChatGPT chỉ là một công cụ trò chuyện bị nhiều người trêu chọc. Nhưng bước sang năm 2023, nó đã chuyển thành các công cụ hiệu quả.
Microsoft thông báo rằng họ đang đàm phán với OpenAI, nhóm phát triển ChatGPT, đầu tư hàng chục tỷ đô la và có kế hoạch tích hợp công cụ này vào các dịch vụ đám mây, công cụ tìm kiếm và thậm chí cả bộ phần mềm văn phòng. Các trường đại học và tổ chức học thuật ở nước ngoài cũng đã đưa ra một cuộc thảo luận lớn về việc sử dụng ChatGPT để viết bài có tuân thủ hay không; các công ty tư vấn cũng bắt đầu lo lắng về việc liệu họ có bị cướp việc làm hay không.

Không còn nghi ngờ gì nữa, sự nhiệt tình trong ứng dụng của ChatGPT đã được khơi dậy; các kịch bản ứng dụng cũng đang được mở rộng. Nhưng ChatGPT không đạt được trong một sớm một chiều, nhìn rộng hơn, đằng sau điều này là làn sóng lớn về "sự trỗi dậy của trí tuệ" AIGC. Vì vậy, các nút phát triển của AIGC là gì? Các công ty cạnh tranh bằng cái gì?
AIGC đã từng bước bứt phá như thế nào?
AI biết sáng tạo và biết vẽ, đây có thể nói là bước cải tiến "nhảy cóc" của trí tuệ nhân tạo. Chẳng hạn, mặc dù trí tuệ nhân tạo ngày càng trở nên phổ biến trong cuộc sống, chúng ta đã quen với việc máy móc thay con người khuân vác vật nặng, chế tạo những sản phẩm tinh vi, hoàn thành các phép tính phức tạp, v.v. Tuy nhiên, nếu trí tuệ nhân tạo gần con người hơn thì nó phải có khả năng “sáng tạo” của con người. Đây là những gì chúng ta nói về AIGC.
Việc cải thiện các khả năng của AI không đạt được trong một sớm một chiều mà hầu hết chúng đều đã trải qua quá trình phát triển theo chu kỳ "mô hình đột phá - cải tiến đáng kể - quy mô sản xuất - gặp trở ngại - đột phá lại mô hình - cải tiến đáng kể". Để đi vào cuộc sống của con người, nó phải có khả năng "quy mô sản xuất" và giảm đáng kể mức tiêu thụ tài nguyên và ngưỡng học tập cho dân thường.
Lấy AI vẽ tranh làm ví dụ, nó đã trải qua ba mấu chốt:
Đầu tiên, bước đột phá sớm: Năm 2014, mạng tạo đối đầu (GAN) ra đời, mạng thực sự "dạy" AI tự vẽ.
GAN (generative adversarial network) bao gồm hai mô hình, một là mạng thế hệ G và một là mạng phân biệt D. G chịu trách nhiệm tạo ra các bức tranh từ nhiễu ngẫu nhiên nhận được và D phải đánh giá xem bức tranh này được vẽ bởi G hay tồn tại trong thế giới thực. G và D cạnh tranh với nhau và khả năng không ngừng được cải thiện, khi D không còn có thể phán đoán những bức tranh do G tạo ra, quá trình huấn luyện đã đạt đến thế cân bằng.
Bước đột phá của GAN nằm ở thiết kế khéo léo của phương pháp "học tự giám sát", đã vượt ra khỏi tình trạng tiến thoái lưỡng nan của ứng dụng trước đây về học có giám sát yêu cầu một lượng lớn dữ liệu nhãn và có thể được sử dụng rộng rãi trong tạo ảnh, chuyển kiểu, nghệ thuật AI và sửa màu ảnh đen trắng cũ.
Nhưng khuyết điểm của nó cũng bắt nguồn từ sự đột phá này: do phải huấn luyện đồng bộ 2 model nên GAN kém ổn định và dễ bị sập mode. Và một hiện tượng thú vị khác là "kịch bản helvetica": Nếu mô hình G tìm thấy một lỗi có thể đánh lừa mô hình D, nó sẽ bắt đầu lười biếng và liên tục sử dụng bức ảnh này để đánh lừa D, dẫn đến toàn bộ số dư không hợp lệ.
Mô hình cũng sẽ ì trệ, đặc điểm này thực sự là rất con người.
Nút thứ hai, được cải thiện rất nhiều: Vào năm 2020, một bài báo học thuật về Mô hình khuếch tán sẽ cải thiện đáng kể trình độ vẽ của AI.
Nguyên tắc của mô hình khuếch tán là "tăng nhiễu trước, sau đó giảm nhiễu". Đầu tiên, nhiễu Gaussian dần dần được áp dụng cho hình ảnh hiện có cho đến khi hình ảnh bị phá hủy hoàn toàn, sau đó ảnh gốc dần dần được khôi phục ngược lại theo nhiễu Gaussian đã cho. Sau khi quá trình đào tạo mô hình hoàn tất, hãy nhập một nhiễu Gaussian ngẫu nhiên và một hình ảnh có thể được tạo ra từ con số không.
Thiết kế này giúp giảm đáng kể độ khó của việc đào tạo mô hình, vượt qua những hạn chế của mô hình GAN và có sự đa dạng trên cơ sở thực tế, vì vậy nó có thể tạo ra hình ảnh nhanh hơn và ổn định hơn.
Sự "cất cánh" của mô hình khuếch tán trong ngành AI bắt nguồn từ tháng 1/2021. Dựa trên điều này, Open AI đã phát triển mô hình tạo hình ảnh văn bản DALL·E, mô hình này có thể tạo ra hình ảnh gần với đời thực nhưng không thực sự tồn tại, khiến ngành công nghiệp AI bị sốc ba lần. Tuy nhiên, mô hình này vẫn có khuyết điểm là xử lý chậm và tiêu thụ bộ nhớ lớn do số lượng phép tính lớn trong không gian pixel.
Nút thứ ba, sản xuất hàng loạt: Khuếch tán ổn định, sẽ ra đời vào mùa hè năm 2022, sẽ khiến lý thuyết hàn lâm của Gaoda trở nên "có cơ sở".
Vào tháng 8 năm ngoái, Stability AI đã đưa quá trình khuếch tán vào không gian tiềm ẩn chiều thấp hơn (Khuếch tán tiềm ẩn), do đó phát triển mô hình Khuếch tán ổn định. Cải tiến do mô hình này mang lại là mức tiêu thụ tài nguyên giảm đi rất nhiều, card đồ họa cấp độ người tiêu dùng có thể được điều khiển và nó có thể được vận hành thuận tiện hơn. Người bình thường cũng có thể trải nghiệm khả năng sáng tạo đáng kinh ngạc của trí tuệ nhân tạo. Hơn nữa, nhóm phát triển cũng đã biến tất cả các mã, mô hình và thư viện tham số trọng lượng thành nguồn mở, thực hành tinh thần chia sẻ và phân quyền của Geek.
Ngưỡng được hạ xuống và hiệu ứng được cải thiện, vì vậy nó rất phổ biến. Mười ngày sau khi phát hành, dữ liệu hoạt động đạt 17 triệu tờ mỗi ngày, nếu in tất cả ra giấy A4 và xếp chồng lên nhau thì tương đương tòa nhà 52 tầng.
Chia sẻ là một tính năng khác của Ổn định AI. Trong cộng đồng nguồn mở, ngoài bộ nhớ nhỏ hơn và tốc độ nhanh hơn, Stable Diffusion đã nhận được các hướng dẫn và hướng dẫn toàn diện hơn, lời nhắc được chia sẻ, giao diện người dùng mới và cũng dựa vào trí tuệ tập thể để đưa phần mềm cổ điển như Photoshop và Figma vào tay người sáng tạo quy trình làm việc hiện có. Có thể nói là dựa vào quần chúng và làm lại cho quần chúng.
Từ đột phá công nghệ, cải tiến công nghệ, hạ thấp ngưỡng quy mô, khả năng sáng tạo của AI cũng không ngừng được nâng cao. Vào tháng 10/2022, một người đàn ông ở Hoa Kỳ đã sử dụng công cụ vẽ AI Midjourney để tạo ra tác phẩm có tên "Nhà hát Opera Không gian" và giành được giải nhất. Điều này gây ra rất nhiều tranh cãi. Vào năm 2022, nhiều công cụ AI tổng quát khác nhau được thể hiện bằng bức tranh AI sẽ mọc lên như nấm sau mưa, chẳng hạn như Dream Inception, Yijian AI, 6pen, novelAI...
Và điều này cũng đúng trong lĩnh vực AI văn bản. ChatGPT phổ biến hiện nay dựa trên mô hình GPT3.5, đã được lặp lại 4 lần. Chi phí trung bình của một cuộc trò chuyện là 0,01-0,2 đô la Mỹ, tức là 60 cent đến 1 nhân dân tệ và chi phí này vẫn cần phải được giảm liên tục. Nhưng nhìn chung, dù là vẽ hay trò chuyện, AI đã cho thấy sự xuất hiện của trí tuệ.
Làm thế nào để trở thành 'đứa con cưng' của làn sóng?
Emad, người sáng lập Stability AI, tin rằng đồ họa là ứng dụng sát thủ.
Các mô hình hình ảnh có thể được tạo ra nhanh chóng và hướng dẫn mọi người tiêu thụ nhanh chóng, đồng thời có thể nhanh chóng được tích hợp vào các lĩnh vực khác nhau với chi phí thấp, để chúng có thể được phổ biến nhanh chóng và tạo ra một làn sóng. Trên thực tế, nhiều doanh nhân đã đổ tiền vào các lĩnh vực này. AIGC đã trở thành tâm điểm đầu tư mới sau vòng tròn tiền tệ. Trong vòng hai năm kể từ khi phát hành GPT-3, vốn đầu tư mạo hiểm vào AIGC đã tăng gấp bốn lần, đạt 2,1 tỷ USD vào năm 2022.
Có nhiều công ty hơn và nhiều khoản đầu tư hơn, nhưng không phải công ty nào cũng có thể sống tốt. Ví dụ, vào cuối năm 2022, StockAI, một công ty vẽ tranh AI mới thành lập cách đây 4 tháng, đã ngừng hoạt động. Giám đốc điều hành của công ty cho biết, nguyên nhân chính là do mô hình thương mại hóa chưa trưởng thành và nhóm người dùng trả tiền hiện tại không thể trang trải chi phí vận hành cao. Mặc dù ông ấy cũng tuyên bố sẽ ra mắt một nền tảng hoàn toàn mới vào tháng 1 năm nay, nhưng xét từ những thông tin được tiết lộ, nền tảng mới sẽ không còn chức năng tạo ảnh AI đòi hỏi nhiều sức mạnh tính toán.
Vậy “con cưng” của làn sóng này là loại hình doanh nghiệp nào?
Trước hết, chắc chắn đó là một công ty dẫn đầu ngành đã nắm vững các công nghệ tiên tiến cốt lõi. 3 viện nghiên cứu trí tuệ nhân tạo hàng đầu thế giới đều đang có những động thái độc đáo nhằm cạnh tranh vị trí thống lĩnh của AIGC.
OpenAI là công cụ điều hướng trong lĩnh vực tạo văn bản. Không chỉ thu hút được Ian Goodfellow, "cha đẻ của mạng đối thủ chung", tham gia mà còn nhận được khoản đầu tư 1 tỷ USD từ Microsoft từ rất sớm. Từ GPT đến GPT3.5, OpenAI tiếp tục lặp đi lặp lại và nó tiếp tục gây bất ngờ cho ngành. Lần này ChatGPT đã được Microsoft công nhận nhiều hơn. Bằng cách mở mô hình API do GPT-3 kiểm soát, OpenAI cũng sẽ trao quyền cho nhiều công ty và doanh nhân hơn.
DeepMind là công cụ tìm đường của AI nói chung. Năm 2016, AlphaGo đã đánh bại Lee Sedol, đại diện cao nhất của cờ vây nhân loại tại Hàn Quốc, xếp sau cờ vây là DeepMind của Google. Nhưng mục tiêu của DeepMind không phải là cờ vua, mà là AI có mục đích chung, chẳng hạn như AlphaFold có thể dự đoán cấu trúc protein, AlphaTensor có thể giải các phép tính toán học phức tạp, v.v. Nhưng những AI này luôn phải đối mặt với một nút cổ chai, đó là chúng không thể tạo ra "từ con số không" như con người.
Trong hai năm qua, DeepMind cuối cùng đã tiến một bước gần hơn đến AI đa năng. Tìm cảm hứng từ các mô hình ngôn ngữ lớn đằng sau robot đối thoại Sparrow và robot tạo kịch bản Dramatron, Gato, có thể trò chuyện, làm việc và chơi trò chơi, đã được chế tạo.
Meta đang tăng tốc thương mại hóa AI. Tổ chức lại và điều chỉnh bộ phận AI, phân phối nó cho nhiều doanh nghiệp thực tế khác nhau và FAIR được sáp nhập vào Phòng nghiên cứu phòng thí nghiệm thực tế, bộ phận cốt lõi của Metaverse và trở thành thành viên của nhà thám hiểm cảnh mới.
Có thể so với các đồng nghiệp, nhà khoa học trí tuệ nhân tạo trưởng của Meta, Yann LeCun, không đánh giá cao ChatGPT, ông cho rằng từ góc độ công nghệ cơ bản, ChatGPT không phải là một phát minh sáng tạo và mang tính cách mạng, ít nhất là ngoài Google và Meta, 6 công ty khởi nghiệp có công nghệ tương tự.
Khi được hỏi về tầm nhìn của Meta đối với AI, LeCun đã vẽ một chiếc bánh "nghệ thuật sáng tạo" cho FAIR. Ông đề xuất rằng có 12 triệu cửa hàng trên Facebook đang quảng cáo, hầu hết trong số đó là các cửa hàng nhỏ lẻ không có tài nguyên để tùy chỉnh quảng cáo. Meta sẽ giúp họ quảng bá tốt hơn thông qua AI có thể tự động tạo tài liệu quảng cáo.
Thứ hai, một loại con cưng khác là các công ty đang đặt cược vào các kịch bản ứng dụng phù hợp và đã thu hút rất nhiều hỗ trợ vốn và đầu tư nhân tài ngoài "vẽ tranh".
Trong số tất cả các AI tạo nội dung, những AI tạo ra văn bản và âm nhạc đã tìm thấy mã của cải trước tiên . Các văn bản đầu tiên do AI tạo ra, sau khi duyệt qua các phương pháp ứng dụng phổ biến như viết thông cáo báo chí, làm thơ và viết các đoạn văn bản nhỏ, cuối cùng đã tìm thấy một mô hình kinh doanh có thể được hiện thực hóa ổn định trong các tình huống tiếp thị và trở thành một công cụ hiệu quả để hỗ trợ viết, trợ giúp các học viên Nhà văn viết email, viết quảng cáo và thậm chí lập kế hoạch. LifeScore, tập trung vào âm nhạc, cho phép trí tuệ nhân tạo học cách sáng tác trong thời gian thực. Theo nhu cầu của cảnh và thời lượng, nó sắp xếp các chất liệu âm nhạc do các nghệ sĩ đồng nghiệp tạo và biểu diễn thủ công, đồng thời tìm thấy vị trí của nó trong quá trình sáng tạo của con người.
Chatbots có thể tương tác đang “làm việc” trong hai ngành rất khác nhau, dịch vụ khách hàng và trò chơi. Khác với "dịch vụ khách hàng thông minh" hiện tại chỉ cung cấp câu trả lời đặt trước cho các câu hỏi và đôi khi trả lời các câu hỏi không được hỏi, AI thực sự cần kết hợp hành vi và ngữ cảnh của người dùng để hiểu được ý định thực sự của con người. Trong lĩnh vực game, AI được sử dụng để hỗ trợ con người tạo ra những nội dung game phong phú, giàu trải nghiệm một cách hiệu quả, từ đó kéo dài thời gian chơi game của người dùng.
Rõ ràng, mục yêu thích là rất ít và xa. Sau hơn 1 năm “cổ phiếu kỹ thuật giảm mạnh”, nhà đầu tư đã trở nên thận trọng hơn, AIGC hiện tại dù rất tốt nhưng chờ mô hình lớn ra mắt có thể sẽ thơm hơn.
Mô hình lớn có thể là con hào cho doanh nghiệp cạnh tranh
Model là linh hồn của trí tuệ nhân tạo, thực chất nó là một tập hợp các công thức tính toán và mô hình toán học. “Các tham số” có thể coi là công thức trong mô hình, nghĩa là số lượng tham số càng nhiều thì mô hình càng phức tạp và dự đoán đưa ra càng chính xác.
Các mô hình nhỏ giống như "máy bán phần", chỉ học dữ liệu hạn chế cho các tình huống ứng dụng cụ thể và thiếu khả năng "suy ra các trường hợp khác từ một trường hợp". .
Mô hình lớn là mô hình có số lượng tham số cực lớn, hiện nay các mô hình AIGC chủ đạo trong ngành đều ở mức hàng trăm tỷ hoặc hàng nghìn tỷ tham số. Bằng cách học tất cả các loại dữ liệu từ mọi tầng lớp xã hội, ngoài việc đưa ra kết quả dự đoán chính xác hơn so với các mô hình nhỏ, nó còn cho thấy khả năng tổng quát hóa và di chuyển đáng kinh ngạc, đồng thời nội dung đầu ra có chất lượng cao hơn và thông minh hơn. Các công cụ AIGC rất bắt mắt.
Sự phát triển nhanh chóng của các mô hình lớn đã đóng một vai trò rõ ràng trong việc thúc đẩy sự phát triển của ngành. Ví dụ: ChatGPT được tối ưu hóa dựa trên mô hình GPT-3 và DALL·E 2, dẫn đầu sự phát triển của vẽ AI, cũng không thể tách rời sự đóng góp của GPT-3. Ngoài ra còn có Chinchilla của Deepmind, mô hình lớn Wenxin của Baidu, v.v.
Mô hình lớn nhiều khả năng sẽ là yếu tố để đánh giá ngành có bị đào thải hay không.
Trước hết, lượng dữ liệu huấn luyện lớn, để hiệu suất của GPT-3 gần gũi hơn với con người, OpenAI đã sử dụng 45TB dữ liệu và gần 1 nghìn tỷ từ để huấn luyện nó, tương đương khoảng 13,51 triệu từ điển Oxford.

Tổng quan về tập dữ liệu đào tạo GPT-3
Điều này dẫn đến hai vấn đề: nhu cầu năng lượng tính toán khổng lồ và tiêu thụ vốn. Cả đào tạo và chạy mô hình đều yêu cầu sức mạnh tính toán khổng lồ. lái xe tới và lui Trái đất và Mặt trăng, và một phép tính sẽ tiêu tốn 4,5 triệu đô la.
Trung Quốc cũng không ngoại lệ. Hiện tại, các mô hình quy mô lớn tự phát triển trong nước bao gồm mô hình quy mô lớn Wenxin của Baidu, mô hình quy mô lớn M6 của Ali và mô hình quy mô lớn Hunyuan của Tencent. . Hơn nữa, tốc độ phát triển của các mô hình quy mô lớn trong nước cũng rất đáng kinh ngạc.
Mô hình lớn M6 với cấu trúc MoE thưa thớt chỉ có 100 tỷ tham số vào tháng 3 năm 2021 và đã đạt hàng nghìn tỷ trong ba tháng. Sau năm tháng nữa, các tham số của mô hình đã đạt tới mười nghìn tỷ, trở thành công cụ dự đoán AI lớn nhất thế giới. Mô hình nguyên tố hỗn hợp cũng ở mức nghìn tỷ, chi phí giảm đi rất nhiều, sử dụng 256 thẻ nhanh nhất có thể huấn luyện trong vòng một ngày. Tuy nhiên, mô hình quy mô lớn Wenxin với cấu trúc dày đặc (có thể hiểu nôm na là dày đặc hơn thưa thớt) sẽ có quy mô tham số là 260 tỷ vào năm 2021. Vào năm 2022, Baidu đã phát hành hàng chục mô hình lớn, bao gồm 11 mô hình lớn trong ngành.
Ngưỡng nghiên cứu và phát triển cao như vậy chắc chắn sẽ khiến các mô hình quy mô lớn chủ đạo hiện nay hầu hết do các doanh nghiệp lớn hoặc tổ chức nghiên cứu được các doanh nghiệp lớn hậu thuẫn kiểm soát, và các doanh nghiệp vừa và nhỏ chỉ có thể tránh xa. Do đó, mô hình lớn đã trở thành “hào” của doanh nghiệp.
Nhưng việc nghiên cứu và phát triển các mô hình lớn chỉ là "bước đầu tiên để thành công", và có ba khía cạnh cạnh tranh cũng rất quan trọng.
Một là tài nguyên dữ liệu. Các nghiên cứu đã chỉ ra rằng đến năm 2026 sẽ không còn dữ liệu chất lượng cao để đào tạo AI. Ngoài ra, mô hình huấn luyện dựa trên dữ liệu đã có trong thực tế chỉ giải quyết được một số bài toán đã biết, đối với một số bài toán tiềm ẩn, chưa biết mà chúng ta chưa phát hiện ra thì mô hình hiện tại có thể không giải được. Vì vậy, một số nhà nghiên cứu đã đề xuất khái niệm dữ liệu tổng hợp, tức là dữ liệu được tổng hợp một cách giả tạo thông qua các chương trình máy tính, một mặt nó bổ sung cho dữ liệu đào tạo chất lượng cao, mặt khác nó lấp đầy một số trường hợp cực đoan hoặc cận biên để tăng độ tin cậy của mô hình.
Thứ hai là phát triển xanh. Mặc dù mô hình càng lớn thì hiệu quả càng tốt, nhưng "lớn" vô hạn sẽ không kinh tế và sẽ gây áp lực rất lớn đối với việc tiêu thụ tài nguyên thiên nhiên và tài nguyên dữ liệu. Tiêu hao tài nguyên quá mức cũng không có lợi cho việc phổ cập dân trí.
Thứ ba là kịch bản ứng dụng. Kinh doanh khác với nghiên cứu lý thuyết thuần túy, không thể cầm búa công nghệ mò đinh mù quáng mà phải kết hợp ứng dụng để phát triển công nghệ. Tuy nhiên, nếu các nhà sản xuất trong nước muốn đưa ra các ứng dụng sát thủ như Stable Diffusion và ChatGPT, họ vẫn cần phải suy nghĩ và làm việc chăm chỉ hơn nữa:
Nhảy ra khỏi vòng luẩn quẩn “chạy điểm”, tìm kịch bản ứng dụng, “thu gọn” mô hình, thậm chí mã nguồn mở mô hình để hình thành hệ sinh thái, sử dụng trí tuệ của quần chúng, phục vụ quần chúng.
Kết luận
Với sự chú ý của Microsoft đến ChatGPT, giới công nghiệp và đầu tư đã trở nên nóng hơn, thị trường chứng khoán Hoa Kỳ BuzzFeed đã đạt được kỳ tích tăng gấp ba lần trong hai ngày nhờ áp dụng công nghệ ChatGPT, cổ phiếu H và cổ phiếu A cũng đã đi ngược chiều gió, và nhiều công ty niêm yết cũng đã tuyên bố rằng nó đã tích lũy được công nghệ.
Không ngừng nghỉ tất nhiên là điều tốt, đổi mới công nghệ là để làm cho mọi người phấn khích. Ngành công nghiệp rộng lớn ở nước ta là mảnh đất cho các ứng dụng nở rộ. Nhưng đồng thời, AIGC trong nước cũng tiềm ẩn những lo lắng, chẳng hạn như làm thế nào để sản xuất ra những con chip có năng lực tính toán cao?
Mặt khác, đổi mới khoa học và công nghệ cũng phải ghi nhớ quy luật do đường cong Gartner tiết lộ: thời kỳ chớm nở, thời kỳ bong bóng, thời kỳ vỡ bong bóng, thời kỳ phát triển ổn định và thời kỳ đầu ra ổn định. Chỉ có bất an, không có quyết tâm, không có kiên nhẫn tận đáy, tuyệt đối không thể thành công.
Bong bóng vừa phải trở thành động lực; bong bóng quá mức có thể đẩy tiền xấu ra khỏi tiền tốt. Nhưng ít nhất hiện tại, so với các nước ngoài, chúng ta gần như ở cùng một vạch xuất phát, điều này rất đáng được kỳ vọng nhiệt tình.