Gần đây, nhiều người đã tạo một loạt bản đồ tư duy bằng AI. Vấn đề là nhiều thông tin họ muốn lại phải được trích xuất từ các bài giảng video dài 1 giờ, và cần phải được chép lại trước để quy trình tạo bản đồ tư duy hoạt động. Vì vậy, họ đã tìm kiếm các dịch vụ trực tuyến như Otter.ai để chép lại video của mình. Nhưng sau khi xem giá đăng ký của chúng, họ không thực sự hào hứng với việc trả 18 USD/tháng, nhất là khi chỉ cần chép lại những nội dung cơ bản.
Có các giải pháp để chép lại nội dung cục bộ là một giải pháp khả thi, vì vậy nhiều người đã quyết định thử một vài lựa chọn. Sau một hồi thử nghiệm, một số người quyết định chọn Whisper. Chỉ mất vài phút thiết lập là bạn đã có thể chuyển giọng nói thành văn bản không giới hạn nội dung trên máy tính của mình. Sau khi thấy việc thiết lập dễ dàng và hoạt động trơn tru như thế nào, bạn sẽ chắc chắn rằng mình không cần một dịch vụ chuyển giọng nói thành văn bản trả phí.
Cách thiết lập Whisper với Docker trong 10 phút
Không cần kiến thức kỹ thuật

Việc thiết lập Whisper trên máy tính hóa ra dễ dàng hơn bạn nghĩ rất nhiều. Để thiết lập, trước tiên, hãy tải xuống và cài đặt Docker Desktop cho máy tính của mình. Công cụ này đóng gói phần mềm với mọi thứ cần thiết để chạy, vì vậy bạn không phải lo lắng về việc cài đặt các dependency hoặc cấu hình hệ thống.

Sau khi cài đặt, hãy mở Docker Desktop, nhấp vào nút Terminal ở góc dưới bên phải cửa sổ và nhập lệnh sau:
docker pull onerahmet/openai-whisper-asr-webservice:latestLệnh này sẽ kéo Whisper ASR Webservice về Docker.

Sau khi tải xuống hoàn tất, hãy chạy Whisper ASR Webservice bằng cách nhập lệnh này vào terminal:
docker run -d -p 9000:9000 -e ASR_MODEL=base onerahmet/openai-whisper-asr-webservice:latestSau khi container được khởi chạy, hãy nhấp vào liên kết 9000:9000 trong Docker Desktop, trình duyệt mặc định của bạn sẽ khởi chạy và mở giao diện Whisper ASR Webservice.

Sau khi mở, bạn có thể bắt đầu sử dụng Whisper ASR Webservice bằng trình duyệt của mình.
Sử dụng Whisper ASR Webservice
Chạy phiên âm qua giao diện web

Để phiên âm file video hoặc âm thanh, hãy mở rộng menu /asr và nhấp vào Try it out. Cuộn xuống audio-file, nhấp vào Choose file để upload lên âm thanh của bạn, sau đó nhấn Execute.

Như bạn có thể thấy trong phiên âm, văn bản được mã hóa màu để biểu thị mức độ tin cậy của Whisper. Xanh lá cây và trắng biểu thị mức độ tin cậy cao, vàng và cam biểu thị mức độ tin cậy trung bình, và đỏ biểu thị mức độ tin cậy thấp, khi mô hình gặp khó khăn trong việc xử lý âm thanh. Văn bản màu vàng và cam thường vẫn chính xác, nhưng hãy luôn kiểm tra lại bất kỳ dòng nào được highlight màu đỏ.
Whisper cũng có thể hỗ trợ các file âm thanh dài. Ở đây, tác giả đã phiên âm một bài giảng âm thanh dài 1 giờ và hoàn thành trong khoảng 1 phút rưỡi. Hoàn hảo cho quy trình tạo bản đồ tư duy AI cục bộ.

Whisper cũng hỗ trợ hơn 50 ngôn ngữ và tự động phát hiện ngôn ngữ của âm thanh bạn nghe. Tác giả đã thử phiên âm một video tiếng Philippines và kết quả khá tốt, mặc dù cần chỉnh sửa khá nhiều để đảm bảo chính xác.

Tác giả cũng đã thử nghiệm cùng một file với Otter.ai để xem kết quả có tốt hơn không. Thật ngạc nhiên, kết quả thực sự tệ hơn. Có vẻ như AI đã bị lỗi hoặc bị ảo giác, không đưa ra phản hồi mạch lạc.

Tuy nhiên, điều này không có nghĩa là tất cả các ngôn ngữ không phải tiếng Anh đều cho kết quả kém. Một số ngôn ngữ chỉ đơn giản là có nhiều dữ liệu đào tạo trực tuyến hơn. Vì vậy, rất có thể các ngôn ngữ chính khác như tiếng Pháp, tiếng Tây Ban Nha, tiếng Quan Thoại và tiếng Ả Rập sẽ cho độ chính xác cao hơn.
Mặc dù chưa hoàn hảo, nhưng nhiều người vẫn khá hài lòng với kết quả phiên âm của AI cục bộ. Tác giả cũng đã thử dịch trên cả Otter (sử dụng chatbot) và Whisper (với công cụ tích hợp sẵn), nhưng kết quả không sử dụng được. Bài viết không khuyên bạn nên dùng chức năng dịch. Tốt hơn hết là dùng Google Dịch hoặc để ChatGPT dịch nếu cần.
Đánh đổi khi chạy bản ghi AI cục bộ
Không dành cho tất cả mọi người

Sau khi sử dụng thiết lập này, bạn sẽ nhận ra ngay những gì nó có thể và không thể làm so với các dịch vụ trực tuyến trả phí. Những hạn chế này đáng để bạn tìm hiểu trước khi quyết định sử dụng.
Vấn đề lớn nhất mà hầu hết mọi người sẽ gặp phải là thiếu hỗ trợ di động. Việc chạy Whisper cục bộ trên điện thoại thông minh hiện vẫn chưa thực tế, vì vậy không có cách nào để sử dụng điện thoại để ghi chép bằng AI cục bộ. Một hạn chế khác mà mọi người chắc chắn sẽ nhận thấy là thiếu tính năng ghi nhật ký người nói. Mặc dù về mặt kỹ thuật là có thể, nhưng nó đòi hỏi nhiều thiết lập và cấu hình hơn, có thể hoạt động hoặc không do tính chất phân mảnh của các dự án nguồn mở như thế này. Tuy nhiên, tùy chọn này vẫn tồn tại nếu bạn thực sự cần. Các dịch vụ trả phí cũng tích hợp liền mạch với những nền tảng khác như Google Meet, Slack và Zoom, tự động ghi chép các cuộc họp khi chúng diễn ra. Thiết lập cục bộ này cũng không thể làm được điều đó, vì nó yêu cầu phải upload lên các file âm thanh theo cách thủ công.
Nhìn chung, việc chạy dịch thuật AI cục bộ không dành cho tất cả mọi người. Sẽ rất tuyệt nếu bạn thoải mái với việc thiết lập và không ngại một chút thao tác thủ công, nhưng nếu bạn thích các công cụ plug-and-play, truy cập di động và tích hợp với các nền tảng trực tuyến khác, thì không có lựa chọn nào thay thế được việc sử dụng những dịch vụ đám mây trả phí như Otter.ai hoặc Fireflies.ai. Tất nhiên, có những dịch vụ dịch thuật trực tuyến miễn phí tốt, nhưng ngay cả các dịch vụ này cũng có nhiều hạn chế, đó là lý do tại sao nhiều người vẫn gắn bó với thiết lập AI cục bộ của mình.
Học IT
Ứng dụng
Nhạc, phim, truyện online 









Công nghệ
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Hướng dẫn
Ô tô, Xe máy