Web scraping hay trích xuất dữ liệu không phải là một nhiệm vụ dễ dàng. Nhưng điều mà nhiều người chưa biết là không cần phải là một hacker mới có thể thu thập dữ liệu từ các trang web. Trên thực tế, bạn không cần bất kỳ kỹ năng lập trình nào.
Vô số các công cụ như tiện ích mở rộng trình duyệt tồn tại để giúp giảm bớt kiến thức kỹ thuật cần thiết. Nhưng ngay cả khi chúng hơi "quá sức" đối với bạn, thì cũng đừng lo lắng. Google Sheets sẽ đến để giúp đỡ bạn
Google Sheets có một công thức nhỏ tiện lợi cho phép bạn trích xuất danh sách hoặc bảng dữ liệu của trang web vào trang tính do bạn chọn. Công thức đó được gọi là importhtml và hoạt động như sau:
Tìm trang web bạn muốn lấy dữ liệu
Ví dụ, hãy xem xét danh sách các công ty công nghệ đứng đầu về doanh thu trên trang Wikipedia:
https://en.wikipedia.org/wiki/List_of_largest_technology_companies_by_revenue
Xác định bảng hoặc danh sách bạn muốn trích xuất dữ liệu
Trong trường hợp này, hãy chọn bảng thứ hai trên trang, trong phần “2019 list”.
Bây giờ, nhập nội dung sau vào ô tùy ý (giả sử A1)
=IMPORTHTML("https://en.wikipedia.org/wiki/List_of_largest_technology_companies_by_revenue", "table", 2)
Như bạn có thể thấy, bạn sẽ phải khai báo ba điều trong công thức: URL bạn muốn lấy dữ liệu từ đó, loại dữ liệu (bảng hoặc danh sách) và vị trí (trong trường hợp này là bảng thứ hai, vì vậy, số trong công thức là 2).
Nhấn Enter
và bảng xuất sẽ hiện trong trang tính:
Để đi đến cấp độ tiếp theo và thực sự chuyển đổi hoặc xóa dữ liệu đó, trước tiên hãy đảm bảo rằng nó được đặt ở trạng thái tĩnh thay vì dữ liệu được liên kết. Để làm như vậy, chọn bảng, nhấp chuột phải vào ô A1, chọn Paste special > Paste values only.
Mọi thao tác đã hoàn tất. Hãy thoải mái làm những điều bạn thích với dữ liệu trong Google Sheets!
Chúc bạn thực hiện thành công!