Dữ liệu Machine Learning
Đến 80% một dự án Machine Learning liên quan đến thu thập dữ liệu:
- Cần dữ liệu gì?
- Dữ liệu nào có sẵn?
- Làm thế nào để chọn dữ liệu?
- Làm thế nào để thu thập dữ liệu?
- Làm thế nào để làm sạch dữ liệu?
- Làm thế nào để chuẩn bị dữ liệu?
- Làm thế nào để sử dụng dữ liệu?
Dữ liệu là gì?
Dữ liệu có thể là nhiều thứ. Với Machine Learning, dữ liệu là tập hợp các sự kiện:
| Loại | Ví dụ |
|---|---|
| Số | Giá cả. Ngày tháng. |
| Kích thước | Kích thước. Chiều cao. Trọng lượng. |
| Từ vựng | Tên và địa danh. |
| Quan sát | Đếm xe ô tô. |
| Mô tả | Trời lạnh. |
Trí tuệ cần dữ liệu
Trí tuệ con người cần dữ liệu: Một nhà môi giới bất động sản cần dữ liệu về các ngôi nhà đã bán để ước tính giá cả.
Trí tuệ nhân tạo cũng cần dữ liệu: Một chương trình Machine Learning cần dữ liệu để ước tính giá cả.
- Dữ liệu có thể giúp chúng ta nhìn thấy và hiểu.
- Dữ liệu có thể giúp chúng ta tìm kiếm những cơ hội mới.
- Dữ liệu có thể giúp chúng ta giải quyết những hiểu lầm.
Chăm sóc sức khỏe
Ngành chăm sóc sức khỏe và khoa học đời sống thu thập dữ liệu sức khỏe cộng đồng và dữ liệu bệnh nhân để tìm hiểu cách cải thiện việc chăm sóc bệnh nhân và cứu sống người.
Kinh doanh
Các công ty thành công nhất trong nhiều lĩnh vực đều dựa trên dữ liệu. Họ sử dụng phân tích dữ liệu phức tạp để tìm hiểu cách công ty có thể hoạt động tốt hơn.
Tài chính
Các ngân hàng và công ty bảo hiểm thu thập và đánh giá dữ liệu về khách hàng, khoản vay và tiền gửi để hỗ trợ việc ra quyết định chiến lược.
Lưu trữ dữ liệu
Dữ liệu phổ biến nhất được thu thập là Số và Kích thước. Thông thường, dữ liệu được lưu trữ trong các mảng thể hiện mối quan hệ giữa các giá trị.
Bảng này chứa giá nhà so với diện tích:
| Giá | 7 | 8 | 8 | 9 | 9 | 9 | 10 | 11 | 14 | 14 | 15 |
| Kích thước | 50 | 60 | 70 | 80 | 90 | 100 | 110 | 120 | 130 | 140 | 150 |
Dữ liệu định lượng so với dữ liệu định tính
Dữ liệu định lượng là dữ liệu số:
- 55 ô tô
- 15 mét
- 35 trẻ em
Dữ liệu định tính là dữ liệu mô tả:
- Trời lạnh
- Nó dài
- Thật vui
Kiểm kê hoặc lấy mẫu

Kiểm kê là khi chúng ta thu thập dữ liệu cho mọi thành viên của một nhóm.
Lấy mẫu là khi chúng ta thu thập dữ liệu cho một số thành viên của một nhóm.
Nếu muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng ta có thể hỏi mọi người ở Mỹ (kiểm kê), hoặc chúng ta có thể hỏi 10.000 người (lấy mẫu).
Kiểm kê chính xác, nhưng khó thực hiện. Lấy mẫu không chính xác, nhưng dễ thực hiện hơn.
Thuật ngữ lấy mẫu
Population (Tổng người được khảo sát) là một nhóm các cá nhân (đối tượng) mà chúng ta muốn thu thập thông tin từ đó.
Kiểm kê là thông tin về mọi cá nhân trong một tổng người được khảo sát.
Lấy mẫu là thông tin về một phần của tổng người được khảo sát (để đại diện cho toàn bộ).
Mẫu ngẫu nhiên
Để một mẫu đại diện cho tổng người được khảo sát, nó phải được thu thập một cách ngẫu nhiên.
Mẫu ngẫu nhiên là mẫu mà mỗi thành viên trong tổng người được khảo sát đều có cơ hội xuất hiện trong mẫu như nhau.
Sai lệch lấy mẫu
Sai lệch lấy mẫu (lỗi) xảy ra khi các mẫu được thu thập theo cách mà một số cá nhân ít (hoặc nhiều) khả năng được đưa vào mẫu hơn.
Big data
Big data là dữ liệu mà con người không thể xử lý nếu không có sự hỗ trợ của máy móc tiên tiến.
Big data không có định nghĩa cụ thể về kích thước, nhưng các tập dữ liệu ngày càng lớn hơn khi chúng ta liên tục thu thập nhiều dữ liệu hơn và lưu trữ dữ liệu với chi phí ngày càng thấp hơn.
Khai thác dữ liệu
Với Big data đi kèm là cấu trúc dữ liệu phức tạp.
Một phần lớn của quá trình xử lý Big data là tinh chỉnh dữ liệu.
Bạn nên đọc
-
Hướng dẫn thiết lập quy tắc trên Cursor
-
So sánh giá ChatGPT, Gemini, Claude, Grok…: nên chọn gói AI nào?
-
Học Machine Learning
-
Đào tạo một Perceptron trong Machine Learning
-
Hướng dẫn tạo video chiếc mũ ảo thuật biến ra mọi thứ
-
Cách viết Quy Tắc chung trên Cursor
-
Hướng dẫn tạo video AI ngắn bằng Google Vids
-
Thuật ngữ Machine Learning
-
Cách đồng bộ kênh YouTube với NotebookLM
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

7 phần mềm equalizer tốt nhất cho Windows 10 để cải thiện âm thanh PC
2 ngày -

Cách thay đổi hướng slide theo chiều dọc trong PowerPoint
2 ngày -

Hàm CONVERT trong SQL Server
2 ngày -

Roleplay là gì? Roleplayer là gì?
2 ngày -

Hàm printf() trong C
2 ngày 2 -

Cách đóng băng, ẩn hàng và cột trong Google Sheets
2 ngày -

Cách sửa lỗi “No Boot Device Found Press Any Key to Reboot the Machine“ trên Windows
2 ngày -

Các cách fake IP máy tính hiệu quả, tốt nhất
2 ngày 1 -

Những bài thơ về tiền hay và sâu sắc khiến bạn phải suy ngẫm
2 ngày -

Luyện gõ 10 ngón bằng Mario Teaches Typing online, game luyện đánh máy cực hấp dẫn
2 ngày 18
Hướng dẫn AI
Học IT
Hàm Excel