Cách tải toàn bộ trang web để đọc ngoại tuyến

Mặc dù ngày nay wifi có ở khắp mọi nơi nhưng đôi khi bạn sẽ đến những nơi không có wifi. Ví dụ như bạn tham gia chuyến bay quốc tế kéo dài 12 giờ, tải toàn bộ trang web có thể là một lựa chọn thay thế tuyệt vời cho sách điện tử, sách âm thanh, podcast và phim ảnh. Nhưng làm thế nào để bạn tải một trang web? Nó dễ dàng hơn bạn nghĩ! Dưới đây là bốn công cụ cho phép bạn thực hiện công việc đó.

1. WebCopy (Windows)

WebCopy của Cyotek lấy một URL trang web và quét các liên kết, các trang và phương tiện truyền thông. Khi tìm trang, nó sẽ tìm các liên kết, các trang và phương tiện truyền thông cho đến khi toàn bộ trang web được phát hiện. Sau đó, bạn có thể sử dụng các tùy chọn cấu hình để quyết định tải phần nào.

Ứng dụng WebCopy

Điều thú vị về WebCopy là bạn có thể thiết lập nhiều "dự án" mà mỗi dự án đó lại có các cài đặt và cấu hình riêng. Điều này cho phép bạn có thể dễ dàng tải lại nhiều trang web khác nhau bất cứ khi nào bạn muốn, mỗi lần theo cùng một cách chính xác như vậy. Một dự án có thể sao chép nhiều trang web, do đó sử dụng chúng với một kế hoạch (ví dụ như một dự án "Công nghệ" để sao chép các trang web công nghệ).

Để tải một trang web với WebCopy:

1. Cài đặt và khởi chạy ứng dụng.

2. Điều hướng tới File > New để tạo một dự án mới.

3. Nhập URL vào trường Website.

4. Thay đổi trường Save folder đến nơi bạn muốn lưu các trang web.

5. Xem xét các quy tắc WebCopy chọn Project > Rules ... 

6. Điều hướng tới File > Save As ... để lưu dự án.

7. Nhấp vào Copy Website trong thanh công cụ để bắt đầu quá trình tải trang.

Sau khi sao chép xong, bạn có thể sử dụng tab Results để xem trạng thái của từng trang và/hoặc tập tin đa phương tiện. Tab Errors hiển thị bất kỳ sự cố nào có thể xảy ra và tab Skipped hiển thị các tệp không được tải xuống. Nhưng quan trọng nhất là Sitemap, cho thấy cấu trúc thư mục đầy đủ của trang web được phát hiện bởi WebCopy.

Để xem trang web ngoại tuyến, hãy mở File Explorer và điều hướng đến thư mục lưu mà bạn đã chỉ định. Mở index.html (hoặc đôi khi index.htm) trong trình duyệt của bạn để bắt đầu duyệt web.

2. HTTrack (Windows, Linux, Android)

HTTrack “nổi tiếng” hơn WebCopy và được cho là tốt hơn vì nó là mã nguồn mở và có sẵn trên các nền tảng khác ngoài Windows, nhưng giao diện có một chút phức tạp. Tuy nhiên, nó hoạt động tốt vì vậy đừng để điều đó khiến bạn bỏ qua ứng dụng này. 

Ứng dụng HTTrack

Giống như WebCopy, ứng dụng này sử dụng một cách tiếp cận dựa trên dự án, cho phép bạn sao chép nhiều trang web và giữ chúng được gọn gàng. Bạn có thể tạm dừng, tiếp tục tải xuống và cập nhật các trang web được sao chép bằng cách tải lại các tệp cũ và mới.

Để tải xuống một trang web với HTTrack:

1. Cài đặt và khởi chạy ứng dụng.

2. Nhấp vào Next để bắt đầu tạo một dự án mới.

3. Cung cấp tên, thể loại, đường dẫn cơ sở cho dự án, sau đó nhấp vào Next.

4. Chọn Download web site(s), sau đó nhập từng URL của trang web trong hộp Web Addresses, mỗi một URL trên một dòng. Bạn cũng có thể lưu các URL trong tệp TXT và nhập tệp đó, điều này rất thuận tiện khi bạn muốn tải lại cùng một trang web. Nhấp vào Next.

5. Điều chỉnh các thông số nếu bạn muốn, sau đó nhấp vào Finish.

Khi mọi thứ đã được tải xuống, bạn có thể duyệt trang web như bình thường bằng cách đi đến nơi tệp đã tải xuống và mở index.html hoặc index.htm trong trình duyệt.

3. SiteSucker (Mac, iOS)

Nếu bạn đang sử dụng máy Mac, tùy chọn tốt nhất cho bạn là SiteSucker. Công cụ đơn giản này trích xuất toàn bộ trang web và duy trì cùng cấu trúc tổng thể và bao gồm tất cả các tệp phương tiện liên quan (ví dụ như hình ảnh, tệp PDF, trang tính). Nó có một giao diện sạch sẽ và dễ sử dụng, bạn chỉ cần dán URL trang web và nhấn Enter.

Ứng dụng SiteSucker

Một tính năng tiện lợi của ứng dụng này là khả năng lưu những gì tải xuống vào một tệp, sau đó sử dụng tệp đó để tải xuống cùng một tệp và cấu trúc tương tự sau đó (hoặc trên máy khác). Tính năng này cho phép SiteSucker tạm dừng tải trang và tiếp tục sau đó. 

SiteSucker có giá là 5 đô la và không có phiên bản miễn phí hoặc bản dùng thử, có thể đây là nhược điểm lớn nhất của nó. Phiên bản mới nhất yêu cầu macOS 10.11 El Capitan hoặc mới hơn. Phiên bản cũ hơn của SiteSucker có sẵn cho các hệ thống Mac cũ, nhưng một số tính năng có thể bị thiếu.

4. Wget (Windows, Mac, Linux)

Wget là một tiện ích dòng lệnh có thể lấy được tất cả các loại tệp qua các giao thức HTTP và FTP. Vì trang web được lưu trữ thông qua HTTP và hầu hết các tệp phương tiện web đều có thể truy cập qua HTTP hoặc FTP, điều này làm cho Wget trở thành công cụ tuyệt vời để trích xuất các trang web.

Trong khi Wget thường được sử dụng để tải từng tệp một, nó có thể được sử dụng để tải tất cả các trang và tệp được tìm thấy qua trang ban đầu:

wget -r -p //www.quantrimang.com

Tuy nhiên, một số trang web có thể phát hiện và ngăn chặn những gì bạn đang cố gắng làm vì ripping một trang web có thể khiến họ mất rất nhiều băng thông. Để thực hiện, bạn có thể “ngụy trang” thành là một trình duyệt web với một chuỗi user agent:

wget -r -p -U Mozilla //www.quantrimang.com

Nếu muốn bạn cũng nên giới hạn tốc độ tải xuống (vì vậy bạn sẽ không chiếm băng thông của máy chủ) và tạm dừng giữa mỗi lần tải xuống (để bạn không gây quá tải máy chủ web với quá nhiều yêu cầu):

wget -r -p -U Mozilla --wait=10 --limit-rate=35K //www.quantrimang.com

Wget đi kèm với hầu hết các hệ thống dựa trên Unix. Trên máy Mac, bạn có thể cài đặt Wget sử dụng một lệnh Homebrew: brew install wget. Trên Windows, bạn sẽ cần phải sử dụng phiên bản được chuyển này để thay thế.

Trang web càng lớn, lượng tải về càng nhiều, vì vậy không nên lưu các trang web quá lớn vì bạn cần hàng ngàn MB để lưu trữ tất cả các tệp phương tiện mà trang web đó sử dụng. Các trang web tốt nhất để tải xuống là những trang có nhiều văn bản và không nhiều hình ảnh và các trang web không thường xuyên thêm trang mới hoặc thay đổi.

Vậy là bạn đã biết được bốn công cụ để có thể tải toàn bộ trang web đọc ngoại tuyến, hy vọng bài viết hữu ích và bạn có thể chia sẻ nó với bạn bè. 

Thứ Tư, 27/09/2017 17:11
51 👨 5.782