Các công cụ tạo hình ảnh AI đã làm chúng ta thích thú trong nhiều năm nay, nhờ OpenAI, Imagen, Adobe Firefly, DALL-E-3, v.v... Khi công nghệ phát triển, chúng ta ngày càng nhiều tùy chọn để tinh chỉnh kết quả của mình. Giờ đây, Google Labs đã phát hành Whisk, một công cụ cho phép bạn upload hình ảnh lên làm hướng dẫn thay vì prompt văn bản.
Whisk của Google Labs tạo hình ảnh từ hình ảnh khác
Nếu sống ở Hoa Kỳ, giờ đây bạn sẽ có quyền truy cập vào Whisk từ Google Labs, một "thí nghiệm về Generative AI", theo blog của Google. Với Whisk, thay vì chỉ dựa vào prompt văn bản mô tả, bạn có thể thêm hình ảnh làm tài liệu tham khảo. Nền tảng sẽ yêu cầu 3 đặc điểm chính: Chủ đề, cảnh và phong cách. Sau đó, công cụ sẽ trộn các thành phần đó lại với nhau và tạo ra hình ảnh hoàn hảo cho bạn.
Lưu ý: Whisk sử dụng Imagen 3, mô hình tạo hình ảnh mới nhất của Google.
Google vẫn chưa loại bỏ hoàn toàn prompt văn bản với Whisk. Bạn vẫn có tùy chọn viết prompt tạo hình ảnh cho từng mục trong 3 danh mục hoặc thêm ghi chú chung. Bạn cũng có thể tinh chỉnh hình ảnh sau khi xem thử nghiệm đầu tiên của Whisk. Ví dụ, giả sử bạn tạo một tấm thiệp mừng theo phong cách cổ điển về một chú mèo nằm trên tuyết. Sau khi xem kết quả, bạn có thể nảy ra ý tưởng thêm những bông tuyết để hoàn thiện.
Mỗi lần bạn thêm hoặc tạo một hình ảnh trong bất kỳ mục nào trong 3 danh mục của Whisk, nền tảng sẽ thực hiện công việc tạo mô tả chi tiết bằng văn bản về hình ảnh đó. Do đó, nếu muốn thêm hoặc chỉnh sửa hình ảnh hiện có, bạn chỉ cần tùy chỉnh văn bản.
Cuối cùng, nếu không có cảm hứng, bạn có thể ngẫu nhiên hóa các thành phần trực quan của mình bằng cách chọn một biểu tượng xúc xắc. Đối với các quá trình tạo phức tạp hơn, bạn cũng có thể thêm nhiều hơn một chủ đề, cảnh hoặc tham chiếu phong cách.
Khi hài lòng với kiệt tác của mình, bạn có thể lưu nó trên nền tảng hoặc tải xuống để truy cập cục bộ.
Có đáng để sử dụng Whisk không?
Với tất cả các tùy chọn tạo hình ảnh AI tiên tiến hiện có để nâng cao ảnh hoặc tạo ra tác phẩm nghệ thuật "gốc", công cụ mới của Google có vẻ chỉ là một mánh lới quảng cáo. Nhưng cách Whisk tận dụng các tham chiếu trực quan trong quá trình tạo hình ảnh của mình là độc đáo và bạn có thể thấy nó có giá trị như thế nào trong các tình huống sáng tạo và chuyên nghiệp.
Giả sử bạn đang làm việc trên một pitch deck và cần những hình ảnh trông giống với một tham chiếu mà bạn đã có. Thay vì cố gắng đảo ngược kỹ thuật tham chiếu đó bằng lời nói, bạn chỉ cần upload file lên, cùng với một mô tả văn bản ngắn gọn về cách bạn muốn hình ảnh mới của mình khác biệt ra sao.
Để phân biệt Whisk với các phần mềm hình ảnh AI khác hiện có, Google đã xác định rằng nền tảng này được thiết kế để khám phá chứ không phải để tinh chỉnh. Trong khi các sản phẩm khác có thể phù hợp hơn với những chỉnh sửa tinh chỉnh, Whisk lại phù hợp nhất để động não:
"Chúng tôi xây dựng nó để khám phá trực quan nhanh chóng, chứ không phải để chỉnh sửa hoàn hảo đến từng pixel. Whisk thiên về việc khám phá các ý tưởng theo những cách mới và sáng tạo, cho phép bạn xử lý hàng chục tùy chọn và tải xuống những tùy chọn mình yêu thích".
Thành thật mà nói, đôi khi thật khó để diễn tả mọi thứ bằng từ ngữ. Whisk mang lại một số tiềm năng mới khi bạn đơn giản chỉ "muốn một hình ảnh trông giống như thế này".