Công nghệ nhận dạng ký tự quang học ORC dùng để nhận diện hình ảnh của chữ viết tay hoặc đánh máy thành các văn bản tài liệu, giúp người dùng có được nội dung nhanh hơn thay vì phải gõ lại bằng tay thủ công hay chuyển từ hình ảnh sang Word. Vì vậy đã có rất nhiều ứng dụng OCR, hay một số trang web OCR trực tuyến để người dùng lựa chọn tham khảo. Hầu hết các công cụ đều có hỗ trợ tiếng Việt nên quá trình bạn xử lý và lấy nội dung từ ảnh thuận tiện hơn rất nhiều. Trong bài viết này bạn đọc sẽ có 2 lựa chọn công cụ trích xuất nội dung từ ảnh trực tuyến, hỗ trợ nhiều định dạng hình ảnh khi tải lên.
1. Chuyển chữ trong ảnh thành văn bản trên img2txt
https://img2txt.com/en
Trang web img2txt ngoài việc trích xuất nội dung từ hình ảnh mà còn có thêm một số tính năng kiểm tra chính tả, chỉnh sửa tài liệu trên Google Docs và lưu nội dung bằng nhiều định dạng phổ biến khác.
Bước 1:
Chúng ta truy cập vào trang chủ của img2txt theo link dưới đây rồi nhấn vào biểu tượng tệp để tải hình ảnh. Sau đó chọn ngôn ngữ hiển thị trong file hình ảnh. Kích thước tập tin tải lên tối đa là 8MB.
Tiếp đến nhấn Upload để tiến hành tải hình ảnh lên.
Bước 2:
Chúng ta chờ quá trình nhận diện và trích xuất chữ trong ảnh trên img2txt. Khi hoàn thành người dùng sẽ thấy toàn bộ nội dung văn bản có trong hình ảnh.
Bước 3:
Nhìn sang cạnh phải màn hình người dùng sẽ thấy có nhiều tùy chọn khác nhau dành cho nội dung được trích xuất từ hình ảnh.
- Copy result: Sao chép tài liệu vào bộ nhớ đệm.
- Translate a text: Dịch nội dung với Google Translate.
- Check spelling: Kiểm tra chính tả văn bản.
- Edit in Google Docs: Chỉnh sửa văn bản trích xuất trên Google Docs.
- Download: Chọn định dạng muốn tải tài liệu về.
- Source: Như định dạng gốc.
- Plain text: Trong định dạng txt.
- Adobe Acrobat: Trong định dạng tài liệu PDF.
- Microsoft Word: Trong định dạng docx.
- OpenOffice: Trong định dạng odf.
2. Hướng dẫn dùng NewOCR chuyển ảnh sang chữ
Bước 1:
Người dùng truy cập vào link dưới đây để vào trang chủ của NewOCR.
- https://www.newocr.com/
Bước 2:
Tại giao diện trang chủ nhấn vào nút Chọn tệp để tải file hình ảnh hoặc file PDF muốn chuyển thành dạng văn bản. Bên dưới nhấn chọn vào ngôn ngữ gốc trong tài liệu đã tải lên trang chủ. Có thể chọn nhiều ngôn ngữ cùng lúc tùy vào nội dung tài liệu tải lên.
Bước 3:
Nhấn tiếp vào nút Upload màu xanh bên dưới rồi nhấn vào Upload + OCR để tiến hành nhận diện ký tự có trong tài liệu.
Bước 4:
Quá trình tải tệp lên và nhận dạng ký tự sẽ phụ thuộc vào dung lượng và số lượng trang nếu tải file PDF lên. Kết quả sẽ hiển thị nội dung tài liệu ở bên dưới.
Với hình ảnh thì NewOCR cũng hoạt động ổn định, nhận diện được cả ký tự tiếng Việt.
Kết quả cũng hiển thị nội dung có trong hình ảnh.
Bước 5:
Khi đã có tài liệu hoàn chỉnh, nhấn vào nút Download và lựa chọn các định dạng tài liệu muốn tải xuống.
Bước 6:
Trên NewOCR còn có tùy chọn dịch ngôn ngữ qua các nguồn dịch như Google Dịch, Bing Translator, với mặc định chuyển ngôn ngữ sang tiếng Anh.
Nếu muốn chuyển sang ngôn ngữ khác chỉ cần chọn ngôn ngữ đích tại To rồi nhấn nút Translate để dịch là xong.
Với trang web NewOCR, chúng ta sẽ có được nội dung văn bản nhanh nhất, trích xuất từ file PDF hay file hình ảnh. Việc NewOCR nhận dạng được cả tiếng Việt giúp ích cho người dùng rất nhiều. Người dùng cần kiểm tra lại nội dung sau khi hiển thị trước khi chọn tải xuống.
Xem thêm:
- Những công cụ chuyển đổi file trực tuyến tốt nhất cho mọi nhu cầu định dạng của bạn
- Hướng dẫn toàn tập Word 2016 (Phần 16): Chèn ảnh và tùy chỉnh vị trí xuất hiện của ảnh
- Cách cách chuyển định dạng PDF sang ảnh JPG, PNG
Chúc các bạn thực hiện thành công!