Mô hình video AI đầu tiên của OpenAI bùng nổ tại hiện trường, phá hủy hoàn toàn việc làm trong ngành

Hoàng Nam · 16/02/2024

Chỉ trong mười tiếng, OpenAI và Google lần lượt đưa ra các công cụ trí tuệ nhân tạo cấp độ bom hạt nhân.
Dân công nghệ chúng ta còn thức đêm qua đã trải qua một đêm điên cuồng như tàu lượn siêu tốc.
OpenAI bất ngờ cho ra mắt mô hình video Vincent đầu tiên - Sora. Nói một cách đơn giản, video AI sẽ thay đổi! Nó không chỉ có thể tạo ra những cảnh chân thực và giàu trí tưởng tượng dựa trên hướng dẫn bằng văn bản mà còn tạo ra các video siêu dài lên đến 1 phút, vẫn là một cảnh quay.
Các công cụ video AI như Runway Gen 2 và Pika vẫn đang vượt qua tính liên tục trong vòng vài giây, trong khi OpenAI đã đạt được kỷ lục hoành tráng.
Từ cảnh quay dài 60 giây cho đến hết, nhân vật nữ chính và nhân vật nền trong video đã đạt được sự nhất quán đáng kinh ngạc, nhiều cảnh quay khác nhau có thể được chuyển đổi tùy ý và các nhân vật duy trì sự ổn định như thần.
Câu lệnh (prompt): Một người phụ nữ sành điệu bước xuống một con phố ở Tokyo tràn ngập ánh đèn neon rực rỡ ấm áp và biển hiệu thành phố hoạt hình. Cô ấy mặc áo khoác da màu đen, váy dài màu đỏ, bốt đen và mang ví đen, đeo kính râm và tô son đỏ, tự tin và thản nhiên. Đường phố ẩm ướt và phản chiếu, tạo hiệu ứng phản chiếu ánh đèn nhiều màu sắc. Nhiều người đi bộ đi lại.

Mô hình video AI đầu tiên của OpenAI bùng nổ tại hiện trường, phá hủy hoàn toàn việc làm trong ngành

OpenAI làm điều đó như thế nào? Theo trang web chính thức, “Bằng cách cung cấp cho mô hình các dự đoán cho nhiều khung hình cùng một lúc, chúng tôi giải quyết được một vấn đề đầy thách thức”.
Rõ ràng, công nghệ bùng nổ này có ý nghĩa mang tính cách mạng đến mức ngay cả Sam Altman cũng nghiện đến mức không thể tự giải thoát được!
Ông ấy không chỉ tweet về Sora một cách điên cuồng mà còn đích thân tạo một video cho cư dân mạng: Chỉ cần đưa cho tôi lời nhắc và tôi sẽ xuất từng cái một.

Một thầy phù thủy đội chiếc mũ nhọn và mặc áo choàng xanh thêu những ngôi sao trắng đang niệm phép, một tay bắn tia sét và tay kia cầm một cuốn sách cũ.

Trong một căn bếp mang phong cách đồng quê Tuscan với cách bố trí ánh sáng giống như trong phim, một người bà giỏi sử dụng mạng xã hội đang dạy bạn cách làm món nocchi thơm ngon tự làm.

Chúng tôi sẽ đưa bạn tham quan đường phố đến thành phố tương lai, nơi công nghệ cao và thiên nhiên cùng tồn tại hài hòa, thể hiện phong cách cyberpunk độc đáo.
Thành phố sạch sẽ vô cùng, với những chiếc xe điện tiên tiến của tương lai, đài phun nước tuyệt đẹp, những hình chiếu ba chiều khổng lồ và robot tuần tra ở khắp mọi nơi.
Hãy tưởng tượng rằng một hướng dẫn viên du lịch là con người đến từ tương lai đang dẫn đầu một nhóm du khách ngoài hành tinh tò mò để cho họ thấy sự kết tinh của sự sáng tạo của con người - thành phố tương lai vô song và quyến rũ này.

Những công nghệ phá kỷ lục

Với sự hiểu biết sâu sắc về ngôn ngữ, Sora có thể hiểu chính xác nhu cầu thể hiện trong hướng dẫn của người dùng và nắm bắt được biểu hiện của những yếu tố này trong thế giới thực.
Vì vậy, các nhân vật do Sora tạo ra có thể thể hiện nhiều loại cảm xúc!
Nó tạo ra những cảnh phức tạp không chỉ bao gồm nhiều nhân vật mà còn cả các loại hành động cụ thể cũng như mô tả chính xác và chi tiết về các đối tượng và bối cảnh.
Hãy nhìn xem, đồng tử, lông mi và kết cấu da của nhân vật trong hình bên dưới đều chân thực đến mức không có một khuyết điểm nào và không có chút hương vị AI nào cả.
Từ giờ trở đi, sự khác biệt giữa video và thực tế là gì?!

Promt: Cận cảnh một người phụ nữ 24 tuổi đang chớp mắt, đứng ở Marrakech trong giờ ma thuật, phim điện ảnh quay ở 70mm, độ sâu trường ảnh, màu sắc sống động, đậm chất điện ảnh.
Ngoài ra, Sora có thể thiết kế nhiều cảnh quay trong cùng một video mà vẫn duy trì tính nhất quán về nhân vật và phong cách hình ảnh.
Bạn biết đấy, các video AI trước đây đều được tạo từ một ống kính duy nhất.
Và lần này OpenAI có thể đạt được tính nhất quán của đối tượng trong quá trình chuyển đổi ống kính đa góc, đây phải nói là một điều kỳ diệu!
Mức độ nhất quán của nhiều camera này hoàn toàn nằm ngoài tầm với của cả Gen 2 và Pika...

Lời nhắc: Trailer phim kể về cuộc phiêu lưu của người đàn ông vũ trụ 30 tuổi đội mũ bảo hiểm xe máy dệt kim len màu đỏ, bầu trời xanh, sa mạc muối, phong cách điện ảnh, quay trên phim 35mm, màu sắc sống động.
Ví dụ: "Tokyo nhộn nhịp sau tuyết. Máy ảnh di chuyển qua những con phố đông đúc, theo chân một số người đang thưởng thức cảnh tuyết tuyệt đẹp và mua sắm tại các quầy hàng gần đó. Những cánh hoa anh đào xinh đẹp rung rinh trong gió cùng với những bông tuyết".
Những gì Sora trình bày dựa trên gợi ý này là một khung cảnh thơ mộng ở Tokyo vào mùa đông.
Đoạn phim quay bằng máy bay không người lái ghi lại cảnh một cặp đôi đang thong thả dạo phố, bên trái là tiếng xe cộ chạy trên đường ven sông, bên phải là cảnh khách hàng đi lại giữa một dãy cửa hàng nhỏ.

Prompt: Thành phố Tokyo xinh đẹp đầy tuyết đang nhộn nhịp. Máy ảnh di chuyển qua con phố nhộn nhịp của thành phố, theo chân một số người đang tận hưởng thời tiết tuyết rơi tuyệt đẹp và mua sắm tại các quầy hàng gần đó. Những cánh hoa anh đào tuyệt đẹp đang bay trong gió cùng với những bông tuyết.
Có thể nói, hiệu ứng của Sora đã đạt đến mức đáng sợ, hoàn toàn bứt phá khỏi kỷ nguyên cận chiến bằng vũ khí lạnh, các video AI khác đã hoàn toàn bị đánh bại.

Mô hình thế giới có thành hiện thực không?

Bây giờ đến điều đáng sợ nhất, Sora đã có nguyên mẫu của một mô hình thế giới rồi sao?
Bằng cách quan sát một lượng lớn dữ liệu, nó thực sự đã học được nhiều định luật vật lý về thế giới.
Đoạn clip sau đây rất ấn tượng: lời nhắc mô tả “cảnh hoạt hình về một con quái vật nhồi bông quỳ cạnh một ngọn nến đỏ”, mô tả cả chuyển động của con quái vật và tâm trạng của video.
Sora sau đó đã tạo ra một sinh vật giống Pixar dường như kết hợp DNA của Furby, Gremlin và Sully từ "Monsters, Inc."
Điều gây sốc là sự hiểu biết của Sora về các đặc tính vật lý của kết cấu tóc lại chính xác đến mức đáng kinh ngạc!
Tôi nghĩ lại khi "Monsters, Inc." được phát hành, Pixar đã dành rất nhiều công sức để tạo ra những kết cấu tóc siêu phức tạp khi những con quái vật đang di chuyển và đội ngũ kỹ thuật đã làm việc trong vài tháng.
Và điều này, Sora đã đạt được một cách dễ dàng, và chưa từng có ai dạy nó!
Tim Brooks, một nhà khoa học nghiên cứu về dự án cho biết: “Nó đã học về hình học 3D và tính nhất quán”.
“Đó không phải là thứ chúng tôi lập trình trước - đó là thứ chúng tôi học được một cách tự nhiên bằng cách xem xét nhiều dữ liệu”.

Prompt: Cảnh hoạt hình có cận cảnh một con quái vật lông ngắn đang quỳ bên cạnh một ngọn nến đỏ đang tan chảy. Phong cách nghệ thuật là 3D và chân thực, tập trung vào ánh sáng và kết cấu. Tâm trạng của bức tranh là sự ngạc nhiên và tò mò, như Con quái vật nhìn ngọn lửa với đôi mắt mở to và miệng há hốc. Tư thế và biểu cảm của nó truyền tải cảm giác ngây thơ và vui tươi, như thể nó đang khám phá thế giới xung quanh lần đầu tiên. Việc sử dụng màu sắc ấm áp và ánh sáng ấn tượng càng làm tăng thêm vẻ ngoài của nó bầu không khí ấm cúng của hình ảnh
Nhờ mô hình khuếch tán được DALL·E 3 sử dụng và công cụ Transformer của GPT-4, Sora không chỉ có thể tạo ra các video đáp ứng các yêu cầu cụ thể mà còn thể hiện sự hiểu biết tự phát về ngữ pháp quay phim.
Khả năng này được thể hiện ở tài năng kể chuyện độc đáo của nó.
Ví dụ: trong một video có "một thế giới gồm các rạn san hô được xây dựng cẩn thận từ tác phẩm nghệ thuật trên giấy với vô số loài cá và sinh vật biển đầy màu sắc", nhà nghiên cứu dự án Bill Peebles lưu ý rằng Sora đã quảng bá thành công ý tưởng này thông qua góc máy và thời điểm.
Anh giải thích: “Thực tế, có nhiều thay đổi về camera xảy ra trong video—những cảnh quay này không được ghép lại với nhau trong hậu kỳ mà được tạo ra trong một lần bởi người mẫu”. “Chúng tôi không yêu cầu nó làm điều này một cách cụ thể nhưng nó đã tự động làm điều đó”.

Prompt: Một thế giới giấy thủ công được tái hiện tuyệt đẹp về một rạn san hô, đầy rẫy những loài cá và sinh vật biển đầy màu sắc.
Tuy nhiên, mô hình hiện tại chưa hoàn hảo. Nó có thể gặp khó khăn khi mô phỏng các hiệu ứng vật lý của các cảnh phức tạp và đôi khi gặp khó khăn trong việc hiểu chính xác mối quan hệ nhân quả trong các tình huống cụ thể. Ví dụ: sau khi ai đó ăn một phần chiếc bánh quy, chiếc bánh quy đó có thể vẫn còn nguyên vẹn.

Ngoài ra, các mô hình có thể mắc lỗi khi xử lý các chi tiết không gian, chẳng hạn như phân biệt trái và phải và có thể không chính xác khi mô tả các sự kiện thay đổi theo thời gian, chẳng hạn như các chuyển động cụ thể của camera.

May mắn thay, nó vẫn chưa hoàn hảo.
Bằng không, liệu ranh giới giữa ảo và thực có thể phân biệt rõ ràng?

Nhưng không thể phủ nhận rằng sự thật khủng khiếp đã ở trước mắt chúng ta: một mô hình có thể hiểu và mô phỏng thế giới thực có nghĩa là AGI không còn xa nữa.

"Công việc tạo video thực sự duy nhất"

Người đứng đầu ngành Zhang Qixuan nhận xét: "Sora là tác phẩm tạo video thực sự duy nhất mà tôi từng thấy thoát khỏi thế hệ ống kính trống rỗng."
Theo ý kiến của anh ấy, dường như có một khoảng cách thế hệ giữa Sora, Pika và Runway, và lĩnh vực tạo video cuối cùng đã bị OpenAI thống trị. Có lẽ một ngày nào đó trong lĩnh vực video 3D, chúng ta cũng có thể trải qua nỗi sợ hãi này.
Cư dân mạng bàng hoàng không nói nên lời: "Thập kỷ tiếp theo sẽ là một thập kỷ điên rồ".

"Mọi chuyện đã kết thúc, tôi sẽ mất việc."

"Toàn bộ ngành công nghiệp vật chất sẽ chết sau khi công bố kết quả này..."

OpenAI không thể ngừng giết chết các công ty khởi nghiệp, phải không?

"Một vụ nổ hạt nhân sắp xảy ra ở Hollywood."

Giới thiệu Sora

Sora là một mô hình khuếch tán dần dần tạo ra video bằng cách bắt đầu từ một video ban đầu có vẻ là nhiễu tĩnh và trải qua quy trình loại bỏ nhiễu gồm nhiều bước.
Sora không chỉ có thể tạo video hoàn chỉnh trong một lần mà còn có thể mở rộng các video đã được tạo.
Bằng cách cho phép mô hình thấy trước nhiều khung hình, nhóm đã vượt qua thành công thách thức trong việc đảm bảo rằng các chủ thể trong video vẫn nhất quán ngay cả khi chúng tạm thời biến mất.
Tương tự như mô hình GPT, Sora áp dụng kiến trúc Transformer, nhờ đó đạt được khả năng mở rộng hiệu suất tuyệt vời.
OpenAI phân tách video và hình ảnh thành các đơn vị dữ liệu nhỏ hơn - "patches", mỗi "patch" tương đương với một "token" trong GPT.
Việc biểu diễn dữ liệu hợp nhất này cho phép đào tạo Máy biến áp khuếch tán trên phạm vi dữ liệu trực quan rộng hơn, bao gồm các khoảng thời gian, độ phân giải và tỷ lệ khung hình khác nhau.
Dựa trên kết quả nghiên cứu của mô hình DALL·E và GPT, Sora áp dụng công nghệ chú thích lại của DALL·E 3 để tạo tiêu đề mô tả chi tiết cho dữ liệu đào tạo trực quan, cho phép mô hình thực hiện chính xác hơn hướng dẫn văn bản của người dùng để tạo video.
Ngoài việc tạo video dựa trên lệnh văn bản, mô hình này còn có thể chuyển đổi hình ảnh tĩnh hiện có thành video, tạo hoạt ảnh chính xác và tỉ mỉ cho nội dung trong hình ảnh. Mô hình này cũng có thể mở rộng các video hiện có hoặc hoàn thiện các khung hình còn thiếu.
Sora đặt nền tảng cho các mô hình hiểu và mô phỏng thế giới thực, điều mà OpenAI tin rằng là một bước quan trọng để đạt được trí tuệ nhân tạo tổng quát (AGI).

Đánh giá cao tác phẩm

Khung cảnh quyến rũ phản chiếu qua cửa sổ của một chuyến tàu khi nó đi qua vùng ngoại ô Tokyo.

Prompt: Hình ảnh phản chiếu qua cửa sổ một chuyến tàu đi qua vùng ngoại ô Tokyo.
Trên đồng cỏ phủ đầy tuyết, vài con voi ma mút khổng lồ chậm rãi tiến về phía trước, bộ lông dài của chúng nhẹ nhàng rung rinh trong gió. Phía xa là cây cối phủ đầy tuyết và những ngọn núi phủ tuyết hùng vĩ, ánh nắng chiều xuyên qua những đám mây mỏng làm tăng thêm ánh sáng ấm áp cho khung cảnh. Những bức ảnh góc thấp làm cho những con vật có lông khổng lồ này trông đặc biệt ngoạn mục và hiệu ứng độ sâu trường ảnh thật quyến rũ.

Promt: Một số con voi ma mút lông khổng lồ tiếp cận khi bước qua một đồng cỏ đầy tuyết, bộ lông len dài của chúng nhẹ nhàng bay trong gió khi chúng bước đi, những cây phủ đầy tuyết và những ngọn núi phủ tuyết ấn tượng ở phía xa, ánh sáng giữa buổi chiều với những đám mây mỏng manh và mặt trời trên cao khoảng cách tạo ra ánh sáng ấm áp, chế độ xem camera thấp rất ấn tượng, chụp được loài động vật có vú lớn có lông với khả năng chụp ảnh đẹp, độ sâu trường ảnh.
Ảnh chụp từ trên không của máy bay không người lái về những vách đá gồ ghề gần bãi biển ở Cape Surgare, nơi sóng vỗ vào đá, tạo thành những đỉnh núi trắng và ánh sáng vàng của mặt trời lặn chiếu sáng bờ biển đầy đá. Xa xa có một ngọn hải đăng trên một hòn đảo nhỏ, rìa vách đá được bao phủ bởi thảm thực vật xanh tươi. Đoạn đường dốc xuống bãi biển và mép vách đá nhô ra cho thấy vẻ đẹp nguyên sơ của bờ biển và khung cảnh hiểm trở của Đường cao tốc Bờ biển Thái Bình Dương.

Promt: Cảnh quay từ máy bay không người lái về những con sóng vỗ vào vách đá gồ ghề dọc theo bãi biển garay point của Big Sur. Làn nước xanh vỗ tạo nên những con sóng có đỉnh trắng, trong khi ánh sáng vàng của mặt trời lặn chiếu sáng bờ đá. Một hòn đảo nhỏ với ngọn hải đăng nằm ở phía sau khoảng cách, và những bụi cây xanh bao phủ mép vách đá. Đoạn dốc đứng từ con đường xuống bãi biển là một kỳ công ấn tượng, với các cạnh vách đá nhô ra biển. Đây là khung cảnh ghi lại vẻ đẹp nguyên sơ của bờ biển và sự gồ ghề cảnh quan của Đường cao tốc Bờ biển Thái Bình Dương.
Một thanh niên khoảng 20 tuổi ngồi trên mây trên bầu trời, đắm chìm trong một cuốn sách.

Một nhóm chó tha mồi vàng sống động đang chơi đùa trên nền tuyết trắng bạc, những cái đầu nhỏ tò mò thỉnh thoảng thò ra khỏi tuyết, được trang trí bằng những bông tuyết, trông rất đáng yêu.
Promt: Một lứa chó tha mồi vàng đang chơi đùa trong tuyết, đầu của chúng nhô ra khỏi tuyết và được bao phủ trong tuyết.
Giữa những dãy nhà rực rỡ sắc màu ở Burano, Ý, một chú chó đốm đáng yêu đang tò mò nhìn ra ngoài qua cửa sổ. Cùng lúc đó, mọi người đến và đi trên đường, một số đi bộ và một số đi xe đạp.

Tiên đoán: Hỗ trợ công cụ trò chơi?

Người đồng sáng lập Pytorch, Soumith Chintala suy đoán, "Dựa trên tất cả các video yêu cầu của người dùng do Sam Altman đăng, Sora dường như được cung cấp bởi một công cụ trò chơi và tạo ra các tác phẩm cũng như thông số cho công cụ trò chơi đó."
Jim Fan, một nhà khoa học cấp cao tại NVIDIA, bày tỏ một số quan điểm của riêng mình về mô hình Sora mới:
Sora là một công cụ vật lý dựa trên dữ liệu. Nó là sự mô phỏng của nhiều thế giới, cả thực và hư cấu. Trình mô phỏng học cách hiển thị phức tạp, vật lý "trực quan", lý luận lâu dài và hiểu ngữ nghĩa thông qua các phương pháp học khử nhiễu và độ dốc.
Tôi sẽ không ngạc nhiên nếu Sora được đào tạo về nhiều dữ liệu tổng hợp bằng Unreal Engine 5. Chắc chắn phải như vậy!
Tương tự, Yao Fu, nghiên cứu sinh tiến sĩ tại Đại học Edinburgh, cho biết: "Các mô hình sáng tạo học các thuật toán tạo ra dữ liệu thay vì ghi nhớ chính dữ liệu đó. Cũng giống như các mô hình ngôn ngữ mã hóa các thuật toán (trong não của bạn) tạo ra ngôn ngữ, các mô hình video mã hóa generative Một công cụ vật lý để truyền phát video. Mô hình ngôn ngữ có thể được coi là gần giống với bộ não con người, trong khi mô hình video gần đúng với thế giới vật chất."

Định hình lại ngành công nghiệp video

Mặc dù có thể phải mất một thời gian dài trước khi công nghệ chuyển văn bản thành video đe dọa hoạt động sản xuất phim truyền thống.
Bạn không thể tạo một bộ phim mạch lạc chỉ bằng cách ghép 120 video dài một phút do Sora tạo lại với nhau, vì những mô hình này không thể đảm bảo tính liên tục của nội dung.

Tuy nhiên, điều này không ngăn cản Sora và các chương trình tương tự cách mạng hóa các nền tảng xã hội như TikTok.
Peebles cho biết: "Sản xuất một bộ phim chuyên nghiệp đòi hỏi nhiều thiết bị đắt tiền. Mô hình này sẽ giúp những người bình thường có thể sản xuất nội dung video chất lượng cao trên mạng xã hội".