Dữ liệu Machine Learning
Đến 80% một dự án Machine Learning liên quan đến thu thập dữ liệu:
- Cần dữ liệu gì?
- Dữ liệu nào có sẵn?
- Làm thế nào để chọn dữ liệu?
- Làm thế nào để thu thập dữ liệu?
- Làm thế nào để làm sạch dữ liệu?
- Làm thế nào để chuẩn bị dữ liệu?
- Làm thế nào để sử dụng dữ liệu?
Dữ liệu là gì?
Dữ liệu có thể là nhiều thứ. Với Machine Learning, dữ liệu là tập hợp các sự kiện:
| Loại | Ví dụ |
|---|---|
| Số | Giá cả. Ngày tháng. |
| Kích thước | Kích thước. Chiều cao. Trọng lượng. |
| Từ vựng | Tên và địa danh. |
| Quan sát | Đếm xe ô tô. |
| Mô tả | Trời lạnh. |
Trí tuệ cần dữ liệu
Trí tuệ con người cần dữ liệu: Một nhà môi giới bất động sản cần dữ liệu về các ngôi nhà đã bán để ước tính giá cả.
Trí tuệ nhân tạo cũng cần dữ liệu: Một chương trình Machine Learning cần dữ liệu để ước tính giá cả.
- Dữ liệu có thể giúp chúng ta nhìn thấy và hiểu.
- Dữ liệu có thể giúp chúng ta tìm kiếm những cơ hội mới.
- Dữ liệu có thể giúp chúng ta giải quyết những hiểu lầm.
Chăm sóc sức khỏe
Ngành chăm sóc sức khỏe và khoa học đời sống thu thập dữ liệu sức khỏe cộng đồng và dữ liệu bệnh nhân để tìm hiểu cách cải thiện việc chăm sóc bệnh nhân và cứu sống người.
Kinh doanh
Các công ty thành công nhất trong nhiều lĩnh vực đều dựa trên dữ liệu. Họ sử dụng phân tích dữ liệu phức tạp để tìm hiểu cách công ty có thể hoạt động tốt hơn.
Tài chính
Các ngân hàng và công ty bảo hiểm thu thập và đánh giá dữ liệu về khách hàng, khoản vay và tiền gửi để hỗ trợ việc ra quyết định chiến lược.
Lưu trữ dữ liệu
Dữ liệu phổ biến nhất được thu thập là Số và Kích thước. Thông thường, dữ liệu được lưu trữ trong các mảng thể hiện mối quan hệ giữa các giá trị.
Bảng này chứa giá nhà so với diện tích:
| Giá | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
| Kích thước | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Dữ liệu định lượng so với dữ liệu định tính
Dữ liệu định lượng là dữ liệu số:
- 55 ô tô
- 15 mét
- 35 trẻ em
Dữ liệu định tính là dữ liệu mô tả:
- Trời lạnh
- Nó dài
- Thật vui
Kiểm kê hoặc lấy mẫu

Kiểm kê là khi chúng ta thu thập dữ liệu cho mọi thành viên của một nhóm.
Lấy mẫu là khi chúng ta thu thập dữ liệu cho một số thành viên của một nhóm.
Nếu muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng ta có thể hỏi mọi người ở Mỹ (kiểm kê), hoặc chúng ta có thể hỏi 10.000 người (lấy mẫu).
Kiểm kê chính xác, nhưng khó thực hiện. Lấy mẫu không chính xác, nhưng dễ thực hiện hơn.
Thuật ngữ lấy mẫu
Population (Tổng người được khảo sát) là một nhóm các cá nhân (đối tượng) mà chúng ta muốn thu thập thông tin từ đó.
Kiểm kê là thông tin về mọi cá nhân trong một tổng người được khảo sát.
Lấy mẫu là thông tin về một phần của tổng người được khảo sát (để đại diện cho toàn bộ).
Mẫu ngẫu nhiên
Để một mẫu đại diện cho tổng người được khảo sát, nó phải được thu thập một cách ngẫu nhiên.
Mẫu ngẫu nhiên là mẫu mà mỗi thành viên trong tổng người được khảo sát đều có cơ hội xuất hiện trong mẫu như nhau.
Sai lệch lấy mẫu
Sai lệch lấy mẫu (lỗi) xảy ra khi các mẫu được thu thập theo cách mà một số cá nhân ít (hoặc nhiều) khả năng được đưa vào mẫu hơn.
Big data
Big data là dữ liệu mà con người không thể xử lý nếu không có sự hỗ trợ của máy móc tiên tiến.
Big data không có định nghĩa cụ thể về kích thước, nhưng các tập dữ liệu ngày càng lớn hơn khi chúng ta liên tục thu thập nhiều dữ liệu hơn và lưu trữ dữ liệu với chi phí ngày càng thấp hơn.
Khai thác dữ liệu
Với Big data đi kèm là cấu trúc dữ liệu phức tạp.
Một phần lớn của quá trình xử lý Big data là tinh chỉnh dữ liệu.
Bạn nên đọc
-
3 yếu tố giúp AI agent triển khai thành công ngoài thực tế
-
Đào tạo một Perceptron trong Machine Learning
-
Học Machine Learning
-
Hướng dẫn dùng Copilot Vision phân tích nội dung màn hình
-
Nhận dạng mẫu trong Machine Learning
-
Vì sao không nên nhờ AI tư vấn chuyện tình cảm?
-
Thuật ngữ Machine Learning
-
Cách xây dựng một plugin từ đầu trong Claude Cowork
-
Context Rot là gì? Làm sao để khắc phục?
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Hàm SUBTOTAL: Công thức và cách sử dụng hàm SUBTOTAL trong Excel
2 ngày -

Cách tạo chữ ký trong Outlook để email của bạn trông chuyên nghiệp hơn
2 ngày -

Cách chuyển địa chỉ IPv4 sang IPv6
2 ngày -

Các kiểu dữ liệu trong SQL Server
2 ngày 1 -

Công thức lượng giác đầy đủ nhất cho lớp 9, lớp 10, lớp 11
2 ngày 1 -

Hàm COUNT trong SQL Server
2 ngày -

Hướng dẫn 5 cách xóa tài khoản User trên Windows 10
2 ngày 1 -

Cách đổi vùng Quốc gia tài khoản App Store trên iPhone
2 ngày -

Hướng dẫn đăng ký cấp lại thẻ Căn cước trên VNeID
2 ngày -

Reaction là gì? Tại sao giới trẻ ngày nay lại thi nhau làm Reaction
2 ngày
Làm chủ AI
Học IT
Hàm Excel