Cụm dữ liệu trong Machine Learning
- Cụm là tập hợp các dữ liệu tương tự nhau.
- Phân cụm là một loại học không giám sát.
- Hệ số tương quan mô tả độ mạnh của mối quan hệ.
Các cụm dữ liệu
Các cụm là tập hợp dữ liệu dựa trên sự tương đồng.
Các điểm dữ liệu được nhóm lại với nhau trong biểu đồ thường có thể được phân loại thành những cụm.
Trong biểu đồ bên dưới, chúng ta có thể phân biệt 3 cụm khác nhau:

Xác định các cụm dữ liệu
Các cụm có thể chứa rất nhiều thông tin có giá trị, nhưng những cụm có nhiều hình dạng khác nhau, vậy làm thế nào chúng ta có thể nhận ra chúng?
Hai phương pháp chính là:
- Sử dụng trực quan hóa
- Sử dụng thuật toán phân cụm
Phân cụm
Phân cụm là một loại học không giám sát.
Phân cụm nhằm mục đích:
- Thu thập dữ liệu tương tự vào các nhóm
- Thu thập dữ liệu không tương tự vào các nhóm khác
Các phương pháp phân cụm
- Phương pháp mật độ
- Phương pháp phân cấp
- Phương pháp phân vùng
- Phương pháp dựa trên lưới
Phương pháp mật độ xem xét các điểm trong vùng có mật độ cao có nhiều điểm tương đồng và khác biệt hơn so với những điểm trong vùng có mật độ thấp hơn. Phương pháp mật độ có độ chính xác tốt. Nó cũng có khả năng hợp nhất các cụm. Hai thuật toán phổ biến là DBSCAN và OPTICS.
Phương pháp phân cấp tạo thành các cụm theo cấu trúc dạng cây. Các cụm mới được hình thành bằng cách sử dụng những cụm đã được hình thành trước đó. Hai thuật toán phổ biến là CURE và BIRCH.
Phương pháp dựa trên lưới định dạng dữ liệu thành một số hữu hạn các ô tạo thành cấu trúc dạng lưới. Hai thuật toán phổ biến là CLIQUE và STING
Phương pháp phân vùng chia các đối tượng thành k cụm và mỗi phân vùng tạo thành một cụm. Một thuật toán phổ biến là CLARANS.
Hệ số tương quan
Hệ số tương quan (r) mô tả độ mạnh và hướng của mối quan hệ tuyến tính giữa các biến x/y trên biểu đồ phân tán.
Giá trị của r luôn nằm giữa -1 và +1:
| -1.00 | Dốc xuống hoàn toàn | Mối quan hệ tuyến tính nghịch đảo. |
| -0.70 | Dốc xuống mạnh | Mối quan hệ tuyến tính nghịch đảo. |
| -0.50 | Dốc xuống vừa phải | Mối quan hệ tuyến tính nghịch đảo. |
| -0.30 | Dốc xuống nhẹ | Mối quan hệ tuyến tính nghịch đảo. |
| 0 | Không có mối quan hệ tuyến tính. | |
| +0.30 | Dốc lên nhẹ | Mối quan hệ tuyến tính thuận. |
| +0.50 | Dốc lên vừa phải | Mối quan hệ tuyến tính thuận. |
| +0.70 | Dốc lên mạnh | Mối quan hệ tuyến tính thuận. |
| +1.00 | Dốc lên hoàn toàn | Mối quan hệ tuyến tính thuận. |
Dốc lên hoàn toàn +1.00:

Dốc xuống hoàn toàn -1.00:

Dốc lên mạnh +0.61:

Không có mối quan hệ tuyến tính:

Bạn nên đọc
-
Đào tạo một Perceptron trong Machine Learning
-
Hướng dẫn cách tạo video tỉ lệ 16:9 chuyên nghiệp trên Grok Imagine
-
Học Machine Learning
-
Bạn đã có thể tạo slide thuyết bằng Canva AI
-
Nhận dạng mẫu trong Machine Learning
-
Giao tiếp với khách hàng ở quy mô lớn với sự trợ giúp của AI
-
Cách sử dụng Claude AI để lập trình hiệu quả và chính xác
-
Thuật ngữ Machine Learning
-
Hướng dẫn thiết kế thiệp nhanh chóng trên Canva AI
Theo Nghị định 147/2024/ND-CP, bạn cần xác thực tài khoản trước khi sử dụng tính năng này. Chúng tôi sẽ gửi mã xác thực qua SMS hoặc Zalo tới số điện thoại mà bạn nhập dưới đây:
Cũ vẫn chất
-

Hướng dẫn 5 cách kết bạn trên Zalo
2 ngày -

Lời cảm ơn khách hàng, stt cảm ơn khách hàng ngắn gọn, hay và ý nghĩa
2 ngày -

Tổng hợp phím tắt chơi PUBG và PUBG Mobile trên máy tính
2 ngày -

Di chuyển Desktop, Download và Documents sang ổ khác trên Windows 10
2 ngày 3 -

Stt gọi anh là, cap tán tỉnh gọi anh là, gọi em là cực chất
2 ngày 1 -

Cách lấy lại Facebook bị hack pass và mất email đăng ký
2 ngày 55 -

Các kiểu dữ liệu trong SQL
2 ngày -

Chuyển ảnh đen trắng thành ảnh màu trong nháy mắt
2 ngày -

Cách đặt mật khẩu cho máy tính Windows 10, cách đổi mật khẩu Win 10
2 ngày -

Cách tải driver Realtek High Definition Audio cho Windows 11
2 ngày
Học IT
Microsoft Word 2013
Microsoft Word 2007
Microsoft Excel 2019
Microsoft Excel 2016
Microsoft PowerPoint 2019
Google Sheets
Lập trình Scratch
Bootstrap
Prompt
Ô tô, Xe máy