Cách trích xuất văn bản tiếng Việt trong ảnh

Công nghệ nhận dạng ký tự quang học ORC dùng để nhận diện hình ảnh của chữ viết tay hoặc đánh máy thành các văn bản tài liệu, giúp người dùng có được nội dung nhanh hơn thay vì phải gõ lại bằng tay thủ công hay chuyển từ hình ảnh sang Word. Vì vậy đã có rất nhiều ứng dụng OCR, hay một số trang web OCR trực tuyến để người dùng lựa chọn tham khảo. Hầu hết các công cụ đều có hỗ trợ tiếng Việt nên quá trình bạn xử lý và lấy nội dung từ ảnh thuận tiện hơn rất nhiều. Trong bài viết này bạn đọc sẽ có 2 lựa chọn công cụ trích xuất nội dung từ ảnh trực tuyến, hỗ trợ nhiều định dạng hình ảnh khi tải lên.

1. Chuyển chữ trong ảnh thành văn bản trên img2txt

https://img2txt.com/en

Trang web img2txt ngoài việc trích xuất nội dung từ hình ảnh mà còn có thêm một số tính năng kiểm tra chính tả, chỉnh sửa tài liệu trên Google Docs và lưu nội dung bằng nhiều định dạng phổ biến khác.

Bước 1:

Chúng ta truy cập vào trang chủ của img2txt theo link dưới đây rồi nhấn vào biểu tượng tệp để tải hình ảnh. Sau đó chọn ngôn ngữ hiển thị trong file hình ảnh. Kích thước tập tin tải lên tối đa là 8MB.

Tiếp đến nhấn Upload để tiến hành tải hình ảnh lên.

Tải hình ảnh

Bước 2:

Chúng ta chờ quá trình nhận diện và trích xuất chữ trong ảnh trên img2txt. Khi hoàn thành người dùng sẽ thấy toàn bộ nội dung văn bản có trong hình ảnh.

Nội dung text

Bước 3:

Nhìn sang cạnh phải màn hình người dùng sẽ thấy có nhiều tùy chọn khác nhau dành cho nội dung được trích xuất từ hình ảnh.

  • Copy result: Sao chép tài liệu vào bộ nhớ đệm.
  • Translate a text: Dịch nội dung với Google Translate.
  • Check spelling: Kiểm tra chính tả văn bản.
  • Edit in Google Docs: Chỉnh sửa văn bản trích xuất trên Google Docs.
  • Download: Chọn định dạng muốn tải tài liệu về.
  • Source: Như định dạng gốc.
  • Plain text: Trong định dạng txt.
  • Adobe Acrobat: Trong định dạng tài liệu PDF.
  • Microsoft Word: Trong định dạng docx.
  • OpenOffice: Trong định dạng odf.

Tùy chọn tài liệu

2. Hướng dẫn dùng NewOCR chuyển ảnh sang chữ

Bước 1:

Người dùng truy cập vào link dưới đây để vào trang chủ của NewOCR.

  • https://www.newocr.com/

Bước 2:

Tại giao diện trang chủ nhấn vào nút Chọn tệp để tải file hình ảnh hoặc file PDF muốn chuyển thành dạng văn bản. Bên dưới nhấn chọn vào ngôn ngữ gốc trong tài liệu đã tải lên trang chủ. Có thể chọn nhiều ngôn ngữ cùng lúc tùy vào nội dung tài liệu tải lên.

Tải tệp lên

Bước 3:

Nhấn tiếp vào nút Upload màu xanh bên dưới rồi nhấn vào Upload + OCR để tiến hành nhận diện ký tự có trong tài liệu.

Nhận dạng ký tự

Bước 4:

Quá trình tải tệp lên và nhận dạng ký tự sẽ phụ thuộc vào dung lượng và số lượng trang nếu tải file PDF lên. Kết quả sẽ hiển thị nội dung tài liệu ở bên dưới.

Kết quả nội dung

Với hình ảnh thì NewOCR cũng hoạt động ổn định, nhận diện được cả ký tự tiếng Việt.

Tải hình ảnh

Kết quả cũng hiển thị nội dung có trong hình ảnh.

Nội dung trong ảnh

Bước 5:

Khi đã có tài liệu hoàn chỉnh, nhấn vào nút Download và lựa chọn các định dạng tài liệu muốn tải xuống.

Chọn định dạng tải

Bước 6:

Trên NewOCR còn có tùy chọn dịch ngôn ngữ qua các nguồn dịch như Google Dịch, Bing Translator, với mặc định chuyển ngôn ngữ sang tiếng Anh.

Dịch ngôn ngữ

Nếu muốn chuyển sang ngôn ngữ khác chỉ cần chọn ngôn ngữ đích tại To rồi nhấn nút Translate để dịch là xong.

Dịch ngôn ngữ

Với trang web NewOCR, chúng ta sẽ có được nội dung văn bản nhanh nhất, trích xuất từ file PDF hay file hình ảnh. Việc NewOCR nhận dạng được cả tiếng Việt giúp ích cho người dùng rất nhiều. Người dùng cần kiểm tra lại nội dung sau khi hiển thị trước khi chọn tải xuống.

Xem thêm:

Chúc các bạn thực hiện thành công!

Thứ Tư, 15/01/2020 13:39
4,99 👨 20.228
0 Bình luận
Sắp xếp theo
    ❖ Phần mềm chuyển đổi