12 năm trước, tác giả Will Douglas Heaven, trong thời gian rảnh dỗi, đã viết một truyện ngắn hài hước về một người đàn ông đam mê đồ ăn mèo hạng sang. Và giờ đây, có một nền tảng Generative AI mang tên Lore Machine - đã giúp biến mẩu chuyện thú vị này thành truyện tranh.
Tác giả đưa câu chuyện của mình vào khung văn bản và nhận được thông báo: “Chúng tôi đang xác định các cảnh vật, địa điểm, nhân vật, cũng như cảm xúc. Quá trình này có thể mất tới 2 phút”. Lore Machine đã phân tích văn bản, trích xuất các mô tả về những nhân vật và địa điểm được đề cập, sau đó chuyển những thông tin đó cho một mô hình tạo hình ảnh.
Một bảng phân cảnh minh họa hiện lên trên màn hình. Khi tác giả nhấp chuột qua những hình ảnh minh họa sống động trong truyện tranh về những nhân vật gần như bị lãng quên của mình, mọi thứ thật đáng ngạc nhiên.
Sau hơn một năm phát triển, và giờ Lore Machine đã lần đầu tiên ra mắt công chúng. Với chi phí 10 USD/tháng, bạn có thể upload lên 100.000 từ (tối đa 30.000 từ mỗi lần up) và tạo 80 hình ảnh cho truyện ngắn, kịch bản, bản ghi podcast,... Ngoài ra, cũng có những mức giá dành cho người dùng thành thạo, bao gồm gói doanh nghiệp có giá 160 USD/tháng với 2,24 triệu từ và 1.792 hình ảnh. Các hình minh họa có nhiều phong cách cài sẵn, từ manga, màu nước cho đến chương trình truyền hình thập niên 80.
Zac Ryder - nhà sáng lập công ty sáng tạo Modern Arts - đã sử dụng phiên bản truy cập sớm của công cụ này kể từ khi Thobey Campion - nhà sáng lập Lore Machine - lần đầu tiên cho Ryder thấy những gì nó có thể làm. Ryder đã gửi kịch bản một bộ phim ngắn lên hệ thống và Lore Machine để biến nó thành một cuốn tiểu thuyết truyện tranh dài 16 trang chỉ sau một đêm.
“Tôi nhớ Thobey đã chia sẻ màn hình của mình. Tất cả chúng tôi đều hoàn toàn choáng váng”, Ryder nói. “Nó không chỉ là về khía cạnh tạo ra hình ảnh mà bao gồm cả khả năng kể chuyện: Từ mạch câu chuyện đến cảm xúc của các nhân vật, mọi thứ đều hoàn hảo ngay từ đầu”.
Modern Arts hiện đang sử dụng Lore Machine để phát triển vũ trụ hư cấu cho loạt truyện tranh -một tác phẩm dựa trên kịch bản được viết bởi tác giả Love, Death & Robots của Netflix.
Lore Machine được tạo ra từ những thành phần quen thuộc:
- Một mô hình ngôn ngữ lớn (LLM) sẽ quét văn bản của bạn, xác định các mô tả về con người, địa điểm, cũng như cảm xúc chung.
- Một phiên bản Stable Diffusion sẽ tạo ra hình ảnh.
Tuy vậy, điều làm nên sự khác biệt của Lore Machine là nó rất dễ sử dụng. Thao tác tải nội dung truyện lên và tải kết quả xuống chỉ mất vài cú click chuột.
Điều đó khiến Lore Machine trở thành một trong những ví dụ điển hình về làn sóng công cụ mới: thân thiện với người dùng mà lại ẩn giấu sức mạnh đáng kinh ngạc đằng sau giao diện web cực kì đơn giản.
Ben Palmer - Giám đốc điều hành của New Computer Corporation - một công ty sáng tạo nội dung, cho biết: “Có rất nhiều việc phải làm để cập nhật các công cụ AI mới, đồng thời giao diện và quy trình làm việc của từng công cụ đều khác nhau. Việc sử dụng một công cụ lớn với một giao diện người dùng nhất quán là điều rất hấp dẫn. Tôi có cảm giác như đây là nơi ngành công nghiệp này sẽ tìm được chỗ đứng”.
Campion đã thành lập công ty đứng sau Lore Machine hai năm trước để phát triển phiên bản blockchain của Wikipedia. Nhưng khi thấy cách mọi người áp dụng các mô hình generative, Campion đã chuyển hướng. Campion đã sử dụng mô hình chuyển văn bản thành hình ảnh miễn phí Midjourney để tạo phiên bản truyện tranh The Rime of the Ancient Mariner của Samuel Taylor Coleridge. Anh ta nói rằng tác phẩm đã tạo được sự lan truyền rộng rãi, nhưng quy trình thực hiện nó chẳng có gì thú vị cả.
“Vợ tôi ghét dự án đó”, Campion nói. “Hàng đêm, tôi đều thức đến 4 giờ sáng để cố gắng khiến những bức ảnh trở nên hoàn hảo hơn”. Vấn đề là các mô hình chuyển văn bản thành hình ảnh như Midjourney tạo ra từng hình ảnh một. Điều đó khiến việc duy trì tính nhất quán giữa các hình ảnh khác nhau của cùng một nhân vật trở nên khó khăn. Ngay cả việc chốt một phong cách cụ thể trên nhiều hình ảnh cũng có thể khó khăn.
Trải nghiệm này khiến anh ta thấy rằng công nghệ này cần phải dễ sử dụng nhiều hơn nữa. Campion không nói chính xác cách Lore Machine xử lý để giữ cho hình ảnh và phong cách của nó nhất quán trong một loạt hình minh họa. Nó khá hay, nhưng không hoàn hảo: Ở một cảnh trong câu chuyện của tác giả, có một nhân vật tóc ngắn tự nhiên thêm tóc mái, lại cũng có cảnh một nhân vật xuất hiện tới hai lần - ở một nơi khác.
Các hình minh họa cũng dần dần mang lại cảm giác chung chung. Tác giả thất vọng vì nhiều chi tiết mô tả nhân vật rất cụ thể, nhưng không được thể hiện trong hình vẽ minh họa. Tuy vậy, so với việc thực hiện thủ công từng khung truyện một, Lore Machine đã là một bước tiến lớn.
Ryder nói: “Tính nhất quán rất đáng nể." Nó khiến cho công ty Modern Arts của Ryder đủ tự tin khi sử dụng Lore Machine trong một dự án với khách hàng của mình. "Nếu chúng tôi liên tục phải quay lại và khắc phục các vấn đề về tính nhất quán thì không có cách nào để giao hàng đúng hạn”.
Giống như tất cả các mô hình generative khác, công nghệ đằng sau Lore Machine có thể tạo ra nội dung độc hại theo yêu cầu. Campion cho biết họ đã cố gắng ngăn chặn việc tạo ra những hình ảnh mô tả bạo lực hay thù hận - nhưng đồng thời cũng không muốn hạn chế việc thể hiện sự sáng tạo của các nghệ sĩ.
Phần lớn sự quan tâm ban đầu tới Lore Machine đến từ các công ty marketing. Nhưng Campion hy vọng việc phát hành rộng rãi sẽ khuyến khích nhiều người dùng dùng thử hơn. Campion cho biết, 6 tháng trước, mình nhận được cuộc gọi từ hiệu trưởng một trường học dành cho trẻ khuyết tật ở Manhattan. Hiệu trưởng muốn chạy sách giáo khoa của mình thông qua công cụ này để bọn trẻ có thể xem hình ảnh. “Tôi thậm chí còn chưa nghĩ đến điều đó. Tôi đã quá mắc kẹt trong tư duy Hollywood”, Campion nói.