Dữ liệu Machine Learning

Đến 80% một dự án Machine Learning liên quan đến thu thập dữ liệu:

  • Cần dữ liệu gì?
  • Dữ liệu nào có sẵn?
  • Làm thế nào để chọn dữ liệu?
  • Làm thế nào để thu thập dữ liệu?
  • Làm thế nào để làm sạch dữ liệu?
  • Làm thế nào để chuẩn bị dữ liệu?
  • Làm thế nào để sử dụng dữ liệu?

Dữ liệu là gì?

Dữ liệu có thể là nhiều thứ. Với Machine Learning, dữ liệu là tập hợp các sự kiện:

LoạiVí dụ
SốGiá cả. Ngày tháng.
Kích thướcKích thước. Chiều cao. Trọng lượng.
Từ vựngTên và địa danh.
Quan sátĐếm xe ô tô.
Mô tảTrời lạnh.

Trí tuệ cần dữ liệu

Trí tuệ con người cần dữ liệu: Một nhà môi giới bất động sản cần dữ liệu về các ngôi nhà đã bán để ước tính giá cả.

Trí tuệ nhân tạo cũng cần dữ liệu: Một chương trình Machine Learning cần dữ liệu để ước tính giá cả.

  • Dữ liệu có thể giúp chúng ta nhìn thấy và hiểu.
  • Dữ liệu có thể giúp chúng ta tìm kiếm những cơ hội mới.
  • Dữ liệu có thể giúp chúng ta giải quyết những hiểu lầm.

Chăm sóc sức khỏe

Ngành chăm sóc sức khỏe và khoa học đời sống thu thập dữ liệu sức khỏe cộng đồng và dữ liệu bệnh nhân để tìm hiểu cách cải thiện việc chăm sóc bệnh nhân và cứu sống người.

Kinh doanh

Các công ty thành công nhất trong nhiều lĩnh vực đều dựa trên dữ liệu. Họ sử dụng phân tích dữ liệu phức tạp để tìm hiểu cách công ty có thể hoạt động tốt hơn.

Tài chính

Các ngân hàng và công ty bảo hiểm thu thập và đánh giá dữ liệu về khách hàng, khoản vay và tiền gửi để hỗ trợ việc ra quyết định chiến lược.

Lưu trữ dữ liệu

Dữ liệu phổ biến nhất được thu thập là Số và Kích thước. Thông thường, dữ liệu được lưu trữ trong các mảng thể hiện mối quan hệ giữa các giá trị.

Bảng này chứa giá nhà so với diện tích:

Giá7889991011141415
Kích thước5060708090100110120130140150

Dữ liệu định lượng so với dữ liệu định tính

Dữ liệu định lượng là dữ liệu số:

  • 55 ô tô
  • 15 mét
  • 35 trẻ em

Dữ liệu định tính là dữ liệu mô tả:

  • Trời lạnh
  • Nó dài
  • Thật vui

Kiểm kê hoặc lấy mẫu

Kiểm kê là khi chúng ta thu thập dữ liệu cho mọi thành viên của một nhóm.

Lấy mẫu là khi chúng ta thu thập dữ liệu cho một số thành viên của một nhóm.

Nếu muốn biết có bao nhiêu người Mỹ hút thuốc lá, chúng ta có thể hỏi mọi người ở Mỹ (kiểm kê), hoặc chúng ta có thể hỏi 10.000 người (lấy mẫu).

Kiểm kê chính xác, nhưng khó thực hiện. Lấy mẫu không chính xác, nhưng dễ thực hiện hơn.

Thuật ngữ lấy mẫu

Population (Tổng người được khảo sát) là một nhóm các cá nhân (đối tượng) mà chúng ta muốn thu thập thông tin từ đó.

Kiểm kê là thông tin về mọi cá nhân trong một tổng người được khảo sát.

Lấy mẫu là thông tin về một phần của tổng người được khảo sát (để đại diện cho toàn bộ).

Mẫu ngẫu nhiên

Để một mẫu đại diện cho tổng người được khảo sát, nó phải được thu thập một cách ngẫu nhiên.

Mẫu ngẫu nhiên là mẫu mà mỗi thành viên trong tổng người được khảo sát đều có cơ hội xuất hiện trong mẫu như nhau.

Sai lệch lấy mẫu

Sai lệch lấy mẫu (lỗi) xảy ra khi các mẫu được thu thập theo cách mà một số cá nhân ít (hoặc nhiều) khả năng được đưa vào mẫu hơn.

Big data

Big data là dữ liệu mà con người không thể xử lý nếu không có sự hỗ trợ của máy móc tiên tiến.

Big data không có định nghĩa cụ thể về kích thước, nhưng các tập dữ liệu ngày càng lớn hơn khi chúng ta liên tục thu thập nhiều dữ liệu hơn và lưu trữ dữ liệu với chi phí ngày càng thấp hơn.

Khai thác dữ liệu

Với Big data đi kèm là cấu trúc dữ liệu phức tạp.

Một phần lớn của quá trình xử lý Big data là tinh chỉnh dữ liệu.

Thứ Bảy, 07/03/2026 11:47
31 👨 3
Xác thực tài khoản!

Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:

Số điện thoại chưa đúng định dạng!
Số điện thoại này đã được xác thực!
Bạn có thể dùng Sđt này đăng nhập tại đây!
Lỗi gửi SMS, liên hệ Admin
0 Bình luận
Sắp xếp theo