VnReview
Hà Nội

Viết "caption" cho ảnh bằng Google "Show and Tell"

Máy móc chưa bao giờ được đánh giá cao trong việc mô tả lại những bức ảnh được con người chụp. Tuy nhiên, mọi chuyện sẽ thay đổi thông qua phần mềm thuật toán AI "Show and Tell" vừa mới được Google công bố có khả năng viết mô tả cho các bức ảnh với độ chính xác cực kì cao.

Theo Forbers, bạn chỉ cần chọn một bức ảnh và thuật toán "Show and Tell" sẽ tự động mô tả nội dung trong ảnh bằng một câu tiếng Anh đầy đủ và dễ hiểu. Người dùng có thể dùng kết quả vừa có được theo nhiều cách khác nhau như dùng để tìm kiếm các hình ảnh tương tự trong album hay tự động chuyển thành dạng phụ đề âm thanh để người dùng khiếm thị có thể hiểu được.

Được phát triển từ năm 2014 tại Phòng thí nghiệm của Google, thuật toán AI mới của Google có thể được huấn luyện để hiểu được nội dung bức ảnh bằng cách cho xem một số lượng lớn các ảnh chụp mẫu cũng như các mô tả trước đó từ thư viện chú thích của người dùng. Google tự tin thông báo rằng độ chính xác của các mô tả được hiển thị bởi "Show and Tell" đã lên tới 93,9 %. Những lỗi mô tả hình ảnh không chính xác hay thậm chí là gây cười trên các công nghệ mô tả ảnh trước đây đều đã được Google khắc phục trên "Show and Tell".

Bên cạnh đó, "Show and Tell" cũng được tăng hiệu suất sử dụng lên tới 400% so với phiên bản thuật toán trước đó. Google đã miêu tả thuật toán AI mới của mình là "nhanh hơn để huấn luyện, đặt mô tả chi tiết và chính xác hơn".

Thuật toán "Show and Tell" có thể được huấn luyện để đưa ra những mô tả chi tiết hơn.

"Show and Tell" là một phần của thư viện mã nguồn mở TensorFlow của Google. Điều đó nghĩa là bạn có thể tải miễn phí phần mềm thuật toán này. Dù vậy, Google cho biết bạn sẽ phải tự "dạy" cho "Show and Tell" cách mô tả các hình ảnh một cách chính xác nhất thông qua một quá trình được miêu tả là sẽ mất tới vài tuần, kể cả khi dùng một máy tính chạy GPU Tesla K20m của NVIDIA.

Việc đặt mô tả chính xác cho các bức ảnh thật sự rất hữu ích với người dùng, đặc biệt là với những ai có một bộ sưu tập ảnh lớn. Một số công cụ hiện nay như Adobe Lightroom cũng có thể giúp bạn phân loại các bức ảnh thông qua việc nhận diện khuôn mặt. Tuy nhiên, với "Show and Tell" của Google, bạn có thể làm được nhiều hơn thế với việc thuật toán AI này hiểu được cả nội dung của bức ảnh. Chắc chắn, công nghệ này sẽ sớm được ứng dụng rộng rãi trong tương lai và không chỉ dừng lại ở việc tìm kiếm hay phân loại hình ảnh.

Nguyễn Long

Chủ đề khác