Google mới đây đã công bố công cụ AI hoàn toàn mới có khả năng biến văn bản thành hình ảnh thông qua mô tả của người dùng cung cấp có tên gọi là "Imagen".
Theo mô tả của Google, Imagen được đánh giá là có “mức độ hiện thực chưa từng có và mức độ hiểu biết sâu sắc về ngôn ngữ”. Công cụ này hiểu văn bản thông qua các mô hình ngôn ngữ khác nhau, sau đó dựa vào các thuật toán vô cùng phức tạp để thực hiện tạo hình ảnh có độ trung thực cao.
Hình ảnh do công cụ AI này tạo ra từ văn bản là vô cùng chi tiết, tinh tế và gần với những gì mô tả.
Google đã cung cấp các từ và cụm từ được sử dụng để Imagen tạo ra hình ảnh và mẫu tác phẩm, với nhiều phong cách khác nhau, từ bản vẽ đến tranh sơn dầu và CGI. Ví dụ như "một cây xương rồng nhỏ đội mũ rơm và đeo kính râm trên sa mạc Sahara” hay "một quả thanh long đeo đai karate trong tuyết".
Bằng cách hiểu văn bản được cung cấp, Imagen sẽ sử dụng những hình ảnh thật sau đó tinh chỉnh nó theo cách tốt nhất có thể. Vì vậy, những hình ảnh do công cụ AI này tạo ra trông rất chân thực như thể chúng được tạo ra bởi con người. Imagen sẽ tạo ra một hình ảnh 64 x 64 pixel, thực hiện hai cải tiến và sau đó chuyển đổi hình ảnh thành một ảnh 1024 x 1024 pixel lớn hơn.
Theo tuyên bố của Google, Imagen có thể vượt qua DALL-E 2, một công cụ tạo văn bản thành hình ảnh khác có khả năng tạo ra các tác phẩm nghệ thuật dựa trên mô tả do người dùng nhập vào.
Dù đạt kết quả ấn tượng nhưng Google chưa có ý định ra mắt công cụ này để sử dụng rộng rãi trên toàn cầu. Lý do là bởi Google lo lắng về nguy cơ tiềm ẩn của việc sử dụng sai mục đích, thách thức về đạo đức, thành kiến xã hội, giới hạn của các công cụ.
Nhóm nghiên cứu của Google cho biết, với tất cả những thử thách này, Imagen vẫn chưa hoàn hảo khi tạo ra những hình ảnh liên quan đến con người.