Tại sao AI không thể viết văn bản trên hình ảnh?

Chàng trai nhạt nhẽo

Nếu bạn đã sử dụng các công cụ Generative AI để tạo hình ảnh, có thể bạn sẽ gặp phải vấn đề khi viết văn bản trong hình ảnh. Biết lý do tại sao điều này xảy ra sẽ giúp tránh được vấn đề này, cũng như tìm cách giải quyết.

Mục lục bài viết

Tại sao AI không thể viết văn bản trong hình ảnh?
Có giải pháp thay thế nào cho văn bản không thể đọc được trong hình ảnh AI không?

Tại sao AI không thể viết văn bản trong hình ảnh?

Lý do lớn nhất khiến AI không thể viết văn bản là do dữ liệu đầu vào trong quá khứ. Mặc dù AI khá giỏi trong việc tạo hình ảnh nói chung, nhưng một số khía cạnh như văn bản chưa được sử dụng ở cùng cấp độ để đào tạo mô hình ngôn ngữ lớn (LLM). Do đó, AI không có nhiều kỹ năng trong việc tạo văn bản trong hình ảnh.

Mặc dù đã khá tiên tiến, các công cụ AI về mặt kỹ thuật vẫn đang trong giai đoạn đầu. Hơn nữa, một số công cụ AI đang hết dữ liệu đào tạo. Vẫn có khả năng các công cụ tạo ra có thể tạo văn bản tốt hơn, nhưng hiện tại, bạn sẽ phải thử một giải pháp thay thế.

Có giải pháp thay thế nào cho văn bản không thể đọc được trong hình ảnh AI không?

Mặc dù việc tạo văn bản trong hình ảnh AI khá khó khăn, nhưng không phải là không thể. Sau đây là những phương pháp hiệu quả nhất ở thời điểm hiện tại...

1. Cung cấp cho công cụ những prompt cụ thể hơn

Khi mới bắt đầu sử dụng AI, kỹ năng viết prompt của mọi người thường không đạt chuẩn.Sai lầm lớn nhất là đưa ra những prompt mơ hồ như "hãy tạo hình ảnh về một cảnh đường phố".

Không có gì ngạc nhiên khi bạn nhận được kết quả không đạt chuẩn. Cách tốt nhất để sử dụng Generative AI là coi prompt của bạn như một bản tóm tắt sáng tạo. Càng cụ thể thì càng tốt. Đây là một prompt ví dụ:

Create an image of the exterior of an Italian café. I want it to have the writing "Café" as a sign, and it should be on a sunny day.

Tạm dịch: Tạo hình ảnh bên ngoài của một quán cà phê Ý. Tôi muốn hình ảnh có dòng chữ "Café" trên biển báo và vào một ngày nắng.

Như bạn có thể thấy từ hình ảnh bên dưới, ChatGPT đã làm khá tốt. Điều này sẽ không xảy ra nếu bạn chỉ nói "Tạo hình ảnh bên ngoài của một quán cà phê Ý".

Hình ảnh một quán cà phê được tạo trong DALL-E

Theo kinh nghiệm cá nhân, những hình ảnh đơn giản có vẻ hiệu quả hơn. Ví dụ, hình ảnh ở trên có ít thành phần hơn hình ảnh được thử nghiệm bên dưới - nghĩa là AI có ít thứ để thử và tìm hiểu hơn.

Một cảnh đường phố được điều chỉnh trong ứng dụng DALL-E 3

2. Sử dụng các biến thể của từ "Văn bản"

Việc thay đổi một chút ngôn ngữ trong prompt có thể tạo ra sự khác biệt lớn. Sau khi thử thuật ngữ "văn bản" nhiều lần, bạn sẽ bắt đầu cảm thấy như mình đang đi lòng vòng, vì vậy hãy thử các từ đồng nghĩa khác nhau.

Ví dụ, thay vì "văn bản", bạn có thể thử:

Tiêu đề
Chữ cái
Từ đã viết
Ký hiệu

Nếu không có cách nào trong số này hiệu quả, hãy tiếp tục thử các phương án thay thế. Những gì thành công và không thành công có thể khác nhau tùy thuộc vào thứ bạn đang cố gắng tạo. Ví dụ, bạn có thể sẽ không sử dụng "ký hiệu" nếu đang cố gắng thiết kế một tấm thiệp sinh nhật. Thử nghiệm với các ý tưởng tạo prompt AI khác nhau là yếu tố then chốt ở đây và những công cụ khác nhau cũng có thể hoạt động theo những cách khác nhau.

3. Thêm văn bản bằng các công cụ thay thế

Bạn không nên thêm văn bản thông qua các công cụ thay thế nếu những từ được cho là một phần của hình ảnh, nhưng đây là một ý tưởng hay nếu bạn đang cố gắng tạo nhiều đồ họa hơn. Nó sẽ hiệu quả nếu bạn muốn thiết kế một tấm thiệp, đồ họa, bìa sách hoặc thứ gì đó tương tự.

Nếu bạn định làm điều này, nên đảm bảo rằng có đủ không gian trong hình ảnh. Bạn có thể sử dụng bất kỳ công cụ nào mình muốn để thêm văn bản vào hình ảnh. Canva hoặc Adobe Photoshop Express là những tùy chọn được khuyến nghị, nhưng các ứng dụng khác cho phép bạn thêm văn bản vào hình ảnh trên điện thoại thông minh của mình cũng sẽ hoạt động với nội dung bạn tạo bằng AI.

Bạn cũng nên đảm bảo rằng văn bản phù hợp với hình ảnh do AI tạo ra. Sử dụng phông chữ phù hợp với tâm trạng bạn đang cố gắng truyền tải và định hình lại mọi thứ theo cách bạn cảm thấy cần thiết.

4. Giữ cho văn bản ngắn gọn

Tạo văn bản trong hình ảnh AI thất bại thường là do bạn cố gắng thêm quá nhiều văn bản. Thành thật mà nói, điều này xảy ra bất cứ khi nào bạn cố gắng tạo bất cứ thứ gì có hơn 10 ký tự. Tương tự như đề xuất giữ cho hình ảnh đơn giản, bạn nên làm mọi cách có thể để giữ cho văn bản của mình ngắn gọn.

Để kiểm tra điều này, tác giả bài viết đã thử một prompt khác:

Please generate an image of a bank with the text "bank" on the outside. I want it to be in a downtown city area and a modern structure, like what you would see in a US city.

Tạm dịch: Hãy tạo hình ảnh của một ngân hàng với chữ "bank" ở bên ngoài. Tôi muốn nó ở khu vực trung tâm thành phố và có cấu trúc hiện đại, giống như những gì bạn sẽ thấy ở một thành phố của Hoa Kỳ.

Như bạn có thể thấy bên dưới, công cụ AI đã làm khá tốt trong việc lắng nghe người dùng. Tuy nhiên, có một số lỗi ở một phần của hình ảnh. Vì vậy, hãy nói với AI rằng bạn chỉ muốn một hoặc hai biển báo để hạn chế khả năng điều này xảy ra. Những vấn đề này dường như cũng xảy ra khi văn bản nhỏ hơn, vì vậy bạn hãy ghi nhớ điều đó.

Hình ảnh tòa nhà hiện đại được tạo trong DALL-E

5. Sử dụng công cụ để sửa lỗi chữ

Tương tự như cách bạn có thể xóa các lỗi trên ảnh chụp bằng máy ảnh, bạn có thể thử sử dụng công cụ giúp sửa lỗi chữ trong ảnh. Có rất nhiều ứng dụng sửa lỗi chữ vô nghĩa trong ảnh do AI tạo ra, chẳng hạn như Storia Lab.

Khi sử dụng các công cụ này, thông thường bạn có thể chọn văn bản và thay đổi nội dung cho phù hợp. Một số ứng dụng miễn phí, nhưng trong những trường hợp khác, bạn sẽ cần đăng ký trả phí. Nếu tạo nhiều hình ảnh bằng AI, bạn có thể mua gói hàng tháng hoặc hàng năm để truy cập bất cứ khi nào mình cần.

6. Sử dụng công cụ AI tạo ra văn bản chính xác

Bạn có thể đã nghe nói đến Midjourney, DALL-E, Firefly và các trình tạo hình ảnh AI tương tự. Nhưng bạn có biết rằng có những công cụ tạo tác phẩm nghệ thuật AI cụ thể tạo ra văn bản chính xác trong hình ảnh không?

Vì một trong những tính năng chuyên biệt của Ideogram là tạo văn bản dễ đọc, nên bạn hoàn toàn có thể dùng thử ứng dụng này cho một số sáng tạo của mình. Ideogram có tính năng Magic Prompt mở rộng tính năng gốc của bạn, nghĩa là bạn có thể nhận được kết quả chính xác hơn nữa. Ngoài gói miễn phí, các gói đăng ký trả phí bắt đầu từ 8 USD/tháng.

Mặc dù AI tạo ra có những thiếu sót trong việc tạo hình ảnh có văn bản dễ đọc, bạn sẽ tìm thấy một vài giải pháp thay thế nếu sẵn sàng suy nghĩ vượt ra ngoài khuôn khổ. Đôi khi, lựa chọn tốt nhất là cung cấp cho công cụ của bạn những prompt chi tiết nhưng ít từ hơn để xử lý. Bạn cũng có thể muốn khắc phục các sự cố trong hình ảnh của mình bằng phần mềm khác hoặc sử dụng các công cụ được thiết kế riêng để tạo văn bản chính xác.

Thứ Năm, 12/12/2024 11:52

5 ★ 1 👨 123