Các thuật toán Machine Learning (Buổi 5 lớp FIT-LAB Spring 2026)

Dưới đây là bản tóm tắt chi tiết nội dung buổi học về tiền xử lý dữ liệu, tương quan và các thuật toán học máy cơ bản.

Tiền xử lý dữ liệu: Normalization, Standardization, Encoding (Ordinal, One-hot), Word Embedding (Tĩnh vs. Động).
Tương quan (Correlation): Hệ số tương quan (Pearson), quan hệ tuyến tính vs. phi tuyến, đa cộng tuyến (Multicollinearity).
Dữ liệu mất cân bằng (Imbalanced Data): Under-sampling, Over-sampling, Data Leakage.
Trực quan hóa dữ liệu: Matplotlib, Histogram, Density plot, Box plot, Correlation Matrix, Scatter Matrix.
Thuật toán học máy (Supervised Learning): Linear Regression, Logistic Regression, Decision Tree, Random Forest.
Ensemble Learning: Bagging (Random Forest), Boosting.

Numerical Features: Cần đưa về cùng thang đo để mô hình đối xử bình đẳng với các đặc trưng.
- Normalization: Đưa về khoảng [0, 1].
- Standardization: Đưa về phân phối có kỳ vọng bằng 0, độ lệch chuẩn bằng 1 (giá trị tập trung trong khoảng [-3, 3]).
Categorical Features:
- Ordinal Encoding: Mã hóa cho dữ liệu có thứ tự.
- One-hot Encoding: Cho dữ liệu định danh (nominal).
Word Embedding:
- Embedding tĩnh: Mỗi từ cố định một vector (nhược điểm: không hiểu ngữ cảnh, ví dụ từ "mouse").
- Embedding động: Vector từ thay đổi tùy theo ngữ cảnh xung quanh (giải quyết được đa nghĩa).

Hệ số tương quan: Đo lường mức độ quan hệ tuyến tính (bậc 1).
- Giá trị từ -1 đến 1. Gần 1 hoặc -1 là tương quan mạnh; bằng 0 là không có quan hệ tuyến tính.
Ý nghĩa:
- Tương quan cao giữa Feature và Target: Tốt, nên dùng mô hình đơn giản (tuyến tính).
- Tương quan cao giữa các Feature với nhau: Đa cộng tuyến (Multicollinearity) – điều không mong muốn vì gây dư thừa (redundancy) và khó đánh giá tầm quan trọng của từng feature.
Lưu ý: Tương quan không hàm ý nhân quả. Tương quan bằng 0 không có nghĩa là độc lập hoàn toàn (có thể có quan hệ phi tuyến).

Phương pháp:
- Under-sampling: Giảm bớt mẫu của lớp đa số.
- Over-sampling: Tăng mẫu của lớp thiểu số (thường được ưu tiên hơn).
Nguyên tắc vàng: Chỉ thực hiện cân bằng trên tập Train. Tuyệt đối không cân bằng trên tập Validation/Test để tránh Data Leakage (rò rỉ dữ liệu).
Mục tiêu: Làm cho dữ liệu "đỡ" mất cân bằng chứ không nhất thiết phải bằng 50/50, vì cần giữ đúng phân phối thực tế.

Thư viện: Matplotlib là nền tảng, các thư viện khác (Seaborn, Plotly) thường được xây dựng dựa trên nó.
Cấu trúc Matplotlib:
- Figure: Khung lớn (cái bàn).
- Axes: Khung con (cái đĩa).
- Axis: Trục (chứa label và tick).
Biểu đồ: Histogram (rời rạc hóa), Density plot (liên tục hóa), Box plot (phân vị), Correlation Matrix (đa biến).

Mục tiêu: Tìm đường thẳng (hoặc mặt phẳng) đi qua các điểm dữ liệu với sai số trung bình nhỏ nhất.
Công thức: $y = w_1x_1 + w_2x_2 + ... + w_0 + \epsilon$.
Đặc điểm: Dễ giải thích, phù hợp dữ liệu tuyến tính, nhưng rất nhạy cảm với Outliers (điểm ngoại lai).

Bản chất: Dù tên có chữ "Regression" nhưng là thuật toán Classification.
Cơ chế: Dùng hàm Sigmoid để ánh xạ đầu ra từ $(-\infty, +\infty)$ về khoảng $(0, 1)$.
Đa lớp: Dùng hàm Softmax để phân loại nhiều hơn 2 lớp.

Cơ chế: Chia tách dữ liệu dựa trên các câu hỏi (quy tắc đa số).
Tiêu chí chia: Dùng chỉ số Gini Impurity (độ thuần khiết). Càng lệch (thuần khiết) càng tốt.
Ưu điểm: Dễ giải thích. Nhược điểm: Dễ bị Overfitting nếu cây quá sâu.

Bagging (Random Forest): Huấn luyện nhiều cây song song trên các tập con dữ liệu (Bootstrap) và lấy kết quả trung bình/đa số. Giúp giảm Overfitting.
Boosting: Huấn luyện tuần tự, mô hình sau tập trung sửa lỗi cho mô hình trước.

Mô hình đơn giản (Linear) dễ giải thích nhưng độ chính xác thấp với dữ liệu phức tạp.
Mô hình phức tạp (Ensemble, Phi tuyến) độ chính xác cao nhưng khó giải thích.
Việc chọn thuật toán phụ thuộc vào bản chất dữ liệu (tuyến tính hay phi tuyến) và mục tiêu của bài toán (cần độ chính xác hay cần khả năng giải thích).