Nếu trình tạo hình ảnh AI rất thông minh, tại sao chúng phải chật vật để viết và đếm?

Thoại Viết Hoàng · 04/07/2023

Các công cụ AI sáng tạo như Midjourney, Stable Diffusion và DALL-E 2 đã khiến chúng ta kinh ngạc về khả năng tạo ra những hình ảnh đáng chú ý chỉ trong vài giây.

Quét AI toàn thân có thể là tương lai của y tế dự phòng

Thực tế đằng sau ảo ảnh AI

Tuy nhiên, bất chấp những thành tựu đó, vẫn còn một sự khác biệt khó hiểu giữa những gì bộ tạo hình ảnh AI có thể tạo ra và những gì con người có thể. Chẳng hạn, những công cụ này thường không mang lại kết quả khả quan cho các tác vụ có vẻ đơn giản như đếm đồ vật và tạo văn bản chính xác.
Nếu trí tuệ nhân tạo đã đạt đến tầm cao chưa từng có như vậy trong việc thể hiện sáng tạo, thì tại sao nó lại phải vật lộn với những nhiệm vụ mà ngay cả một học sinh tiểu học cũng có thể hoàn thành?
Khám phá những lý do cơ bản giúp làm sáng tỏ bản chất số phức tạp của AI và sắc thái của các khả năng của nó.

Hạn chế của AI với văn bản

Con người có thể dễ dàng nhận ra các ký hiệu văn bản (chẳng hạn như chữ cái, số và ký tự) được viết bằng nhiều phông chữ và chữ viết tay khác nhau. Chúng tôi cũng có thể tạo văn bản trong các ngữ cảnh khác nhau và hiểu cách ngữ cảnh có thể thay đổi ý nghĩa.
Các trình tạo hình ảnh AI hiện tại thiếu hiểu biết vốn có này. Họ không có sự hiểu biết thực sự về ý nghĩa của bất kỳ ký hiệu văn bản nào. Các trình tạo này được xây dựng trên các mạng thần kinh nhân tạo được đào tạo dựa trên lượng dữ liệu hình ảnh khổng lồ, từ đó chúng “học” các liên kết và đưa ra dự đoán.
Sự kết hợp của các hình dạng trong hình ảnh đào tạo được liên kết với các thực thể khác nhau. Ví dụ: hai đường hướng vào trong gặp nhau có thể tượng trưng cho đầu bút chì hoặc mái nhà.
Nhưng khi nói đến văn bản và số lượng, các liên kết phải cực kỳ chính xác, vì ngay cả những điểm không hoàn hảo nhỏ cũng có thể nhận thấy được. Bộ não của chúng ta có thể bỏ qua những sai lệch nhỏ trong đầu bút chì hoặc mái nhà – nhưng không nhiều như vậy khi nói đến cách viết một từ hoặc số ngón tay trên một bàn tay.
Đối với các mô hình chuyển văn bản thành hình ảnh, các ký hiệu văn bản chỉ là sự kết hợp của các đường và hình. Vì văn bản có rất nhiều kiểu khác nhau – và vì các chữ cái và số được sử dụng theo cách sắp xếp dường như vô tận – nên mô hình thường sẽ không học được cách tái tạo văn bản một cách hiệu quả.

Nếu trình tạo hình ảnh AI rất thông minh, tại sao chúng phải chật vật để viết và đếm?

Hình ảnh do AI tạo ra được tạo ra để đáp lại lời nhắc 'logo KFC'.
Lý do chính cho điều này là không đủ dữ liệu đào tạo. Trình tạo hình ảnh AI yêu cầu nhiều dữ liệu đào tạo hơn để thể hiện chính xác văn bản và số lượng so với các tác vụ khác.

Bi kịch của bàn tay AI

Các vấn đề cũng phát sinh khi xử lý các đối tượng nhỏ hơn đòi hỏi các chi tiết phức tạp, chẳng hạn như bàn tay.

Trong các hình ảnh đào tạo, bàn tay thường nhỏ, đang cầm đồ vật hoặc bị che khuất một phần bởi các yếu tố khác. Việc liên kết thuật ngữ “bàn tay” với hình ảnh đại diện chính xác của bàn tay con người có năm ngón trở nên khó khăn đối với AI.
Do đó, bàn tay do AI tạo ra thường có hình dạng biến dạng , có thêm hoặc ít ngón tay hơn hoặc bàn tay bị che một phần bởi các đồ vật như tay áo hoặc ví.
Chúng tôi thấy một vấn đề tương tự khi nói đến số lượng. Các mô hình AI thiếu hiểu biết rõ ràng về số lượng, chẳng hạn như khái niệm trừu tượng về “bốn”.
Như vậy, trình tạo hình ảnh có thể phản hồi lời nhắc về “bốn quả táo” bằng cách rút ra bài học từ vô số hình ảnh có nhiều số lượng táo – và trả về kết quả đầu ra có số lượng không chính xác.
Nói cách khác, sự đa dạng lớn của các liên kết trong dữ liệu đào tạo ảnh hưởng đến độ chính xác của số lượng trong kết quả đầu ra.

AI có bao giờ có thể viết và đếm không?

Ba hình ảnh do AI tạo ra theo prompt '5 lon nước ngọt trên bàn'. Ảnh trí tuệ nhân tạo Shutterstock
Điều quan trọng cần nhớ là chuyển đổi văn bản thành hình ảnh và văn bản thành video là một khái niệm tương đối mới trong AI. Các nền tảng thế hệ hiện tại là phiên bản “độ phân giải thấp” của những gì chúng ta có thể mong đợi trong tương lai.
Với những tiến bộ đạt được trong quy trình đào tạo và công nghệ AI, các trình tạo hình ảnh AI trong tương lai sẽ có khả năng tạo ra hình ảnh trực quan chính xác hơn nhiều.
Cũng cần lưu ý rằng hầu hết các nền tảng AI có thể truy cập công khai đều không cung cấp mức khả năng cao nhất. Việc tạo văn bản và số lượng chính xác đòi hỏi các mạng được tùy chỉnh và tối ưu hóa cao, do đó, đăng ký trả phí cho các nền tảng nâng cao hơn sẽ có khả năng mang lại kết quả tốt hơn.