Xử lý dữ liệu là lĩnh vực mà tự động hóa bằng Python phát huy tác động lớn nhất. Việc thao tác bảng tính mà bạn thực hiện thủ công trong 20 phút mỗi tuần có thể được tự động hóa để chạy trong vài giây — và sẽ chính xác hơn vì các script không bị mệt mỏi hoặc mắc lỗi chính tả.
pandas: Công cụ tự động hóa dữ liệu của bạn
pandas là thư viện Python để thao tác dữ liệu. Hãy cài đặt nó:
📍 Nơi dán: Mở ChatGPT (chat.openai.com), Claude (claude.ai) hoặc Gemini (gemini.google.com) và bắt đầu một cuộc trò chuyện mới.
📋 Cách sao chép prompt này: Nhấp vào bất kỳ đâu bên trong khối màu xám, nhấn Cmd+A rồi Cmd+C (Mac) hoặc Ctrl+A rồi Ctrl+C (Windows). Hoặc sử dụng biểu tượng sao chép xuất hiện.
pip install pandas openpyxl
✏️ Cách điền thông tin chi tiết: Thay thế mỗi [] và trình giữ chỗ trong ngoặc bằng thông tin cụ thể từ tình huống thực tế của bạn. Thông tin đầu vào mơ hồ sẽ tạo ra kết quả mơ hồ — hãy cụ thể.
👀 Những gì bạn sẽ thấy: Trong vòng vài giây, AI sẽ trả về một phản hồi có cấu trúc dựa vào prompt ở trên. Hãy đọc kỹ và coi đó là bản nháp, không phải câu trả lời cuối cùng.
📌 Nên làm gì với kết quả: Lưu phản hồi vào file Notes. Chọn gợi ý có tác động cao nhất và thực hiện nó trong tuần này — đừng cố gắng làm mọi thứ cùng một lúc.
⚠️ Nếu kết quả không ổn: Nếu các gợi ý có vẻ chung chung, hãy dán nội dung sau: "Hãy cụ thể hơn với ngữ cảnh thực tế của tôi. Bỏ qua lời khuyên chung chung." Nếu nó bỏ qua các chi tiết quan trọng bạn đã cung cấp, hãy hỏi: "Bạn đã bỏ sót [X] trong ngữ cảnh của tôi — hãy thực hiện lại với điều đó làm ràng buộc chính."
Các thao tác cốt lõi của pandas cho tự động hóa:
Tác vụ
Code pandas
Chức năng của nó
Đọc file CSV
pd.read_csv("data.csv")
Load file CSV vào trong DataFrame
Đọc file Excel
pd.read_excel("data.xlsx", sheet_name="Sheet1")
Load bảng cụ thể
Lọc hàng
df[df["status"] == "active"]
Chỉ giữ lại các hàng trùng khớp
Đổi tên cột
df.rename(columns={"old": "new"})
Dọn dẹp tên cột
Xóa các bản sao
df.drop_duplicates(subset=["email"])
Loại bỏ các bản ghi trùng lặp theo cột
Điền vào chỗ trống
df["email"].fillna("unknown")
Xử lý các giá trị bị thiếu
Nhóm & tổng hợp
df.groupby("category")["amount"].sum()
Thống kê tóm tắt
Lưu vào Excel
df.to_excel("output.xlsx", index=False)
Định dạng xuất
Script 1: Xử lý báo cáo hàng tháng
Prompt AI:
Viết một script Python sử dụng pandas để xử lý file CSV doanh số hàng tháng: (1) Đọc file CSV, bỏ qua các hàng siêu dữ liệu (3 dòng đầu tiên), (2) Làm sạch tên cột: viết thường, thay thế khoảng trắng bằng dấu gạch dưới, (3) Chuyển đổi cột "số tiền": loại bỏ "$" và "," và chuyển đổi thành số thực, (4) Phân tích cột "ngày" thành ngày giờ, (5) Lọc ra các hàng có "trạng thái" là "đã hủy" hoặc "thử nghiệm", (6) Thêm cột "tháng" được trích xuất từ ngày, (7) Tạo bản tóm tắt: tổng doanh thu, số lượng đơn đặt hàng, giá trị đơn hàng trung bình, 5 khách hàng hàng đầu theo tổng chi tiêu, (8) Lưu dữ liệu đã làm sạch và bản tóm tắt vào các trang tính riêng biệt trong một file Excel. Chấp nhận đường dẫn đầu vào/đầu ra làm đối số.
Script 2: Hợp nhất dữ liệu từ nhiều file
Prompt AI:
Viết một script pandas để hợp nhất dữ liệu từ nhiều file Excel trong một thư mục. (1) Đọc tất cả các file .xlsx trong một thư mục được chỉ định, (2) Mỗi file có cùng các cột nhưng dữ liệu từ những tháng/vùng khác nhau, (3) Nối tất cả các file thành một DataFrame duy nhất, (4) Thêm cột "source_file" để theo dõi file nào chứa mỗi hàng, (5) Loại bỏ những hàng trùng lặp (cùng order_id trên các file), (6) Sắp xếp theo ngày, (7) Lưu dữ liệu đã kết hợp dưới dạng cả CSV và Excel. In bản tóm tắt: số file đã xử lý, tổng số hàng, số hàng trùng lặp đã loại bỏ.
Các trường hợp hợp nhất dữ liệu phổ biến:
Kịch bản
Hàm pandas
Ví dụ
Xếp chồng các file có cùng định dạng
pd.concat([df1, df2, df3])
Tổng hợp các báo cáo hàng tháng thành một
Kết nối trên cột chung
pd.merge(df1, df2, on="customer_id")
Khách hàng + Đơn hàng
Giá trị tra cứu
df1.merge(df2[["id", "name"]], on="id")
Thêm tên từ bảng tham chiếu
Script 3: Báo cáo chất lượng dữ liệu
Prompt AI:
Viết script pandas tạo báo cáo chất lượng dữ liệu cho bất kỳ file CSV nào: (1) Đối với mỗi cột: đếm giá trị null, đếm giá trị duy nhất, loại dữ liệu, giá trị mẫu, (2) Gắn cờ các vấn đề tiềm ẩn: những cột có giá trị bị thiếu >10%, các cột trông giống như ngày nhưng được lưu trữ dưới dạng chuỗi, cột số được lưu dưới dạng chuỗi (chứa "$" hoặc ","), những hàng trùng lặp, (3) Tạo báo cáo HTML với bảng hiển thị số liệu thống kê cột và danh sách các vấn đề được tìm thấy. Script này sẽ hoạt động trên BẤT CỨ CSV nào - không giả sử các tên cột cụ thể.
✅ Kiểm tra nhanh: Script của bạn xử lý file CSV trong đó một số hàng có dấu phẩy bên trong các trường được trích dẫn: "Smith, John" trong cột tên. Liệu pd.read_csv() có xử lý việc này chính xác không?
Trả lời: Có - pandas xử lý chính xác các trường được trích dẫn theo mặc định. Định dạng CSV tiêu chuẩn sử dụng dấu ngoặc kép để thoát dấu phẩy trong các trường. Tuy nhiên, nếu CSV của bạn sử dụng dấu phân cách hoặc dấu ngoặc kép không chuẩn, bạn có thể cần chỉ định các tham số delimiter và quotechar.
Mẹo AI: Nếu CSV của bạn trông kỳ lạ, hãy dán 5 dòng đầu tiên vào AI và hỏi "Tôi cần những tham số read_csv nào cho định dạng này?"
Làm việc với định dạng Excel
pandas có thể đọc và viết Excel, nhưng đối với đầu ra được định dạng (tiêu đề in đậm, định dạng có điều kiện), hãy sử dụng openpyxl:
Prompt AI cho đầu ra Excel được định dạng:
Cải thiện script pandas của tôi để lưu kết quả Excel được định dạng bằng openpyxl: (1) Tiêu đề in đậm, màu xanh lam với các ô cố định, (2) Định dạng tiền tệ ($#,##0,00) trên cột số tiền, (3) Định dạng ngày (YYYY-MM-DD) trên cột ngày, (4) Tự động điều chỉnh độ rộng cột để phù hợp với nội dung, (5) Thêm định dạng có điều kiện: nền đỏ cho số tiền âm, màu xanh lá cây cho số tiền trên 1.000 USD, (6) Thêm hàng tóm tắt ở dưới cùng với tổng số.
Những điểm chính cần ghi nhớ
pandas biến 20 phút công việc Excel thủ công thành script dài 2 giây: đọc, dọn dẹp, chuyển đổi và xuất dữ liệu đều là những thao tác đơn giản trong pandas và AI sẽ tạo ra quy trình hoàn chỉnh khi bạn mô tả dữ liệu cụ thể và đầu ra mong muốn của mình
Làm sạch dữ liệu là mục tiêu tự động hóa có giá trị cao nhất vì các mẫu dữ liệu lộn xộn giống nhau xuất hiện trong mọi báo cáo: giá trị bị thiếu, định dạng ngày không nhất quán, số được mã hóa chuỗi và hàng trùng lặp — hãy xây dựng quy trình làm sạch một lần và quy trình này luôn chạy hoàn hảo
Hãy cụ thể với AI về định dạng dữ liệu của bạn: dán các hàng mẫu, mô tả tên cột, chỉ định "sạch" nghĩa là gì với bạn và bao gồm những trường hợp đặc biệt (dấu phẩy được trích dẫn, định dạng ngày hỗn hợp, ký tự đặc biệt) — điều này tạo ra các script hoạt động trong lần thử đầu tiên của bạn
Câu 1:
Bạn cần hợp nhất dữ liệu từ 3 file Excel — một file chứa thông tin khách hàng, một file chứa đơn đặt hàng, một file chứa dữ liệu vận chuyển. Mỗi file sử dụng một tên cột khác nhau cho mã khách hàng: 'CustomerID', 'cust_id' và 'customer_number'. Làm thế nào để hợp nhất chúng?
GIẢI THÍCH:
Các thao tác hợp nhất của Pandas xử lý những tên cột không nhất quán, các loại kết nối khác nhau (trong, trái, phải, ngoài) và có thể gắn cờ những bản ghi không khớp — tất cả chỉ trong vài dòng code. Thực hiện việc này thủ công trong Excel dễ xảy ra lỗi và phải làm lại mỗi lần. Sử dụng cơ sở dữ liệu là quá mức cần thiết cho việc hợp nhất file hàng tháng. AI tạo ra script hợp nhất hoàn chỉnh khi bạn chỉ định các file, ánh xạ cột và loại kết nối.
Câu 2:
Script của bạn đọc một file CSV với 50.000 hàng. Một số hàng có giá trị bị thiếu trong cột 'email', một số hàng có ngày tháng ở các định dạng khác nhau ('2026-01-15', '01/15/2026', 'Jan 15, 2026'), và một số giá có dấu đô la. Bạn nên xử lý điều này như thế nào với AI?
GIẢI THÍCH:
Làm sạch dữ liệu là nơi tự động hóa tiết kiệm thời gian nhất — dữ liệu lộn xộn xuất hiện trong mọi báo cáo và các bước làm sạch tương tự cần được chạy hàng tháng. pandas vượt trội trong việc kết nối các thao tác làm sạch: đọc → điền dữ liệu thiếu → phân tích ngày tháng → chuyển đổi loại → xác thực → xuất. Một prompt duy nhất mô tả tất cả các vấn đề sẽ tạo ra một quy trình làm sạch toàn diện, xử lý dữ liệu của bạn một cách nhất quán mọi lúc.
Câu 3:
Bạn nhận được báo cáo doanh số hàng tháng dưới dạng file CSV. Mỗi tháng, bạn tự mở file đó trong Excel, xóa 3 hàng tiêu đề đầu tiên, đổi tên cột, lọc bỏ các đơn hàng thử nghiệm và lưu lại dưới dạng file Excel đã định dạng. Việc này mất 20 phút. Bạn muốn tự động hóa nó. Prompt AI hiệu quả nhất là gì?
GIẢI THÍCH:
Các prompt cụ thể tạo ra những script hoạt động. Prompt chi tiết cho AI biết: Những hàng nào cần bỏ qua, cách đổi tên cột, những gì cần lọc, cách chuyển đổi dữ liệu và định dạng đầu ra bạn muốn. Mức độ chi tiết này có nghĩa là script do AI tạo ra hoạt động cho báo cáo CỤ THỂ của BẠN, chứ không phải phiên bản chung cần sửa đổi nhiều.
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây: