[FIT-LAB Spring 2026] Thực hành huấn luyện mô hình Machine Learning (Buổi 6)

Dưới đây là bản tóm tắt chi tiết nội dung buổi học thực hành về Machine Learning:

Key Concepts

Machine Learning Pipeline: Quy trình từ nạp dữ liệu, tiền xử lý, huấn luyện đến đánh giá mô hình.
Supervised Learning: Bài toán có nhãn (Classification - phân loại, Regression - hồi quy).
Pandas: Thư viện xử lý dữ liệu dạng bảng (DataFrames).
Data Profiling: Công cụ tự động tạo báo cáo thống kê và trực quan hóa dữ liệu.
Scikit-learn (sklearn): Thư viện chuẩn để xây dựng, huấn luyện và đánh giá mô hình.
Data Preprocessing: Các kỹ thuật tiền xử lý như tách dữ liệu (Train/Test split), chuẩn hóa (Min-Max Scaling), và mã hóa (Encoding).
Random State: Tham số cố định sự ngẫu nhiên để đảm bảo tính tái lập của kết quả.

1. Tổng quan về bộ dữ liệu (Dataset)

Cấu trúc: Dữ liệu dạng bảng (Excel/CSV) gồm 1000 dòng (sinh viên) và 8 cột (Gender, Race, Parental Level of Education, Lunch, Test Preparation Course, Math Score, Reading Score, Writing Score).
Mục tiêu: Xây dựng mô hình dự đoán điểm số (Regression) hoặc phân loại (Classification) tùy thuộc vào cột mục tiêu (Target) được chọn.
Công cụ: Giảng viên khuyến khích sử dụng các IDE chuyên nghiệp như PyCharm hoặc VS Code thay vì các trình biên dịch online để hỗ trợ debug và quản lý dự án phức tạp.

2. Khám phá và Trực quan hóa dữ liệu

Pandas: Sử dụng để đọc file (read_csv, read_excel) và thao tác dữ liệu.
YData Profiling: Thư viện mạnh mẽ giúp tạo báo cáo tổng quan (Overview), thống kê chi tiết (Mean, Median, Std, Min, Max, Missing values) và biểu đồ (Histogram, Scatter plot) chỉ với một dòng lệnh.
- Lưu ý: Thư viện này thường tương thích tốt nhất với Python 3.11 trở xuống.
Ma trận tương quan (Correlation Matrix): Chỉ áp dụng cho dữ liệu số. Giảng viên nhấn mạnh việc sử dụng ma trận này để xác định mối quan hệ tuyến tính giữa các biến đầu vào và biến mục tiêu, từ đó gợi ý chọn mô hình (ví dụ: Linear Regression nếu có tương quan cao).

3. Tiền xử lý dữ liệu (Data Preprocessing)

Tách dữ liệu (Splitting):
- Dọc: Tách biến độc lập (X) và biến phụ thuộc (Y).
- Ngang: Tách tập huấn luyện (Train) và tập kiểm tra (Test) bằng hàm train_test_split của sklearn.
- Random State: Cần thiết để cố định cách chia dữ liệu, giúp so sánh công bằng giữa các lần huấn luyện mô hình khác nhau.
Phân loại biến:
- Numerical: Dữ liệu số (điểm số).
- Categorical: Dữ liệu phân loại (Nominal - không thứ tự như Race; Ordinal - có thứ tự như trình độ học vấn).
- Boolean: Dữ liệu nhị phân (Gender, Lunch).
Chuẩn hóa (Scaling): Sử dụng MinMaxScaler để đưa dữ liệu về khoảng [0, 1].
- Quy tắc vàng: Chỉ fit và transform trên tập Train; chỉ transform trên tập Test (tránh rò rỉ dữ liệu - data leakage).

4. Các phương thức quan trọng trong Scikit-learn

fit(): "Đo đạc" dữ liệu (tính toán Min, Max).
transform(): "Biến đổi" dữ liệu dựa trên các thông số đã đo được.
fit_transform(): Kết hợp cả hai bước, dùng cho tập Train.

5. Trích dẫn và quan điểm đáng chú ý

"Không phải lúc nào mô hình phức tạp cũng tốt hơn; việc chọn mô hình phụ thuộc vào bản chất dữ liệu."
"Trong Machine Learning truyền thống, phần khó nhất là lý thuyết, còn phần code với các thư viện như Scikit-learn thường rất ngắn gọn và chuẩn hóa."
"Việc cố định random_state là bắt buộc để đảm bảo tính nhất quán khi so sánh hiệu năng giữa các mô hình."

6. Kết luận

Buổi học nhấn mạnh tầm quan trọng của việc hiểu rõ dữ liệu trước khi đưa vào mô hình. Quy trình chuẩn bao gồm: Khám phá (Profiling) -> Tách dữ liệu (Split) -> Tiền xử lý (Scale/Encode) -> Huấn luyện (Train). Việc sử dụng các công cụ chuyên nghiệp và thư viện chuẩn (Pandas, Sklearn) giúp quy trình làm việc của Data Scientist trở nên khoa học và hiệu quả hơn.