Cách lấy dữ liệu trang web với Google Sheets

Web scraping hay trích xuất dữ liệu không phải là một nhiệm vụ dễ dàng. Nhưng điều mà nhiều người chưa biết là không cần phải là một hacker mới có thể thu thập dữ liệu từ các trang web. Trên thực tế, bạn không cần bất kỳ kỹ năng lập trình nào.

Vô số các công cụ như tiện ích mở rộng trình duyệt tồn tại để giúp giảm bớt kiến ​​thức kỹ thuật cần thiết. Nhưng ngay cả khi chúng hơi "quá sức" đối với bạn, thì cũng đừng lo lắng. Google Sheets sẽ đến để giúp đỡ bạn

Google Sheets có một công thức nhỏ tiện lợi cho phép bạn trích xuất danh sách hoặc bảng dữ liệu của trang web vào trang tính do bạn chọn. Công thức đó được gọi là importhtml và hoạt động như sau:

Tìm trang web bạn muốn lấy dữ liệu

Ví dụ, hãy xem xét danh sách các công ty công nghệ đứng đầu về doanh thu trên trang Wikipedia:

https://en.wikipedia.org/wiki/List_of_largest_technology_companies_by_revenue

Xác định bảng hoặc danh sách bạn muốn trích xuất dữ liệu

Trong trường hợp này, hãy chọn bảng thứ hai trên trang, trong phần “2019 list”.

Bây giờ, nhập nội dung sau vào ô tùy ý (giả sử A1)

=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_technology_companies_by_revenue", "table", 2)

Như bạn có thể thấy, bạn sẽ phải khai báo ba điều trong công thức: URL bạn muốn lấy dữ liệu từ đó, loại dữ liệu (bảng hoặc danh sách) và vị trí (trong trường hợp này là bảng thứ hai, vì vậy, số trong công thức là 2).

Nhấn Enter và bảng xuất sẽ hiện trong trang tính:

Bảng xuất sẽ hiện trong trang tính
Bảng xuất sẽ hiện trong trang tính

Để đi đến cấp độ tiếp theo và thực sự chuyển đổi hoặc xóa dữ liệu đó, trước tiên hãy đảm bảo rằng nó được đặt ở trạng thái tĩnh thay vì dữ liệu được liên kết. Để làm như vậy, chọn bảng, nhấp chuột phải vào ô A1, chọn Paste special > Paste values only.

Mọi thao tác đã hoàn tất. Hãy thoải mái làm những điều bạn thích với dữ liệu trong Google Sheets!

Chúc bạn thực hiện thành công!

Thứ Năm, 09/04/2020 15:13
4,25 👨 2.031
0 Bình luận
Sắp xếp theo