Buổi 4 lớp FIT-LAB Spring 2026: Machine Learning pipeline

Dưới đây là bản tóm tắt chi tiết nội dung bài giảng về quy trình (pipeline) trong AI và Machine Learning:

Key Concepts

AI/Machine Learning Pipeline: Quy trình chuẩn từ thu thập dữ liệu đến triển khai mô hình.
Data Annotation: Gán nhãn dữ liệu.
Data Preprocessing: Tiền xử lý dữ liệu (xử lý giá trị thiếu, chuẩn hóa, mã hóa).
Normalization & Standardization: Các kỹ thuật đưa dữ liệu về cùng thang đo.
One-hot Encoding: Mã hóa dữ liệu định danh (nominal).
Word Embedding: Kỹ thuật biểu diễn từ ngữ dưới dạng vector (tĩnh vs. động).
Model Evaluation: Đánh giá mô hình (Accuracy, Loss, tốc độ, chi phí).
Model Deployment: Triển khai mô hình vào môi trường thực tế.

1. Quy trình AI/Machine Learning Pipeline

Một dự án AI thực tế không chỉ là huấn luyện mô hình mà là một chuỗi các bước liên kết:

Data Collection & Annotation: Thu thập và gán nhãn dữ liệu. Đây là bước nền tảng; dữ liệu chất lượng kém sẽ khiến mô hình thất bại dù thuật toán có phức tạp đến đâu.
Data Statistics: Thống kê để hiểu đặc tính dữ liệu (phân phối, giá trị trung bình, độ lệch chuẩn).
Data Preprocessing: Chuyển đổi dữ liệu thô (văn bản, hình ảnh) sang dạng số mà máy tính hiểu được (0 và 1).
Data Visualization: Trực quan hóa dữ liệu để giải trình với các bên liên quan (stakeholders) không có chuyên môn kỹ thuật.
Algorithm Selection: Chọn thuật toán phù hợp dựa trên đặc tính dữ liệu đã thống kê.
Model Training & Validation: Huấn luyện và kiểm tra tiến độ học (giống như bài kiểm tra định kỳ).
Final Evaluation: Đánh giá cuối cùng trên tập dữ liệu kiểm thử (test set) trước khi triển khai.
Model Deployment: Đưa mô hình vào môi trường thực tế (server hoặc thiết bị biên - edge devices).

2. Các kỹ thuật tiền xử lý dữ liệu (Data Preprocessing)

Xử lý giá trị thiếu (Missing Values):
- Loại bỏ (Drop): Xóa hàng chứa giá trị thiếu (rủi ro mất dữ liệu).
- Điền giá trị (Imputation): Dùng giá trị trung bình (Mean) hoặc trung vị (Median). Median thường được ưu tiên vì ít bị ảnh hưởng bởi các giá trị ngoại lai (outliers). Với dữ liệu định danh, dùng Mode (giá trị xuất hiện nhiều nhất).
Chuẩn hóa dữ liệu số (Numerical Features):
- Normalization: Đưa dữ liệu về khoảng [0, 1]. Nhược điểm: Rất nhạy cảm với outliers.
- Standardization: Đưa dữ liệu về phân phối có kỳ vọng bằng 0 và độ lệch chuẩn bằng 1. Hầu hết dữ liệu sẽ nằm trong khoảng [-3, 3]. Phương pháp này bền vững hơn với outliers.
Mã hóa dữ liệu định danh (Categorical Features):
- Ordinal (có thứ tự): Gán số thứ tự (ví dụ: XS=0, S=1, M=2...).
- Nominal (không thứ tự): Dùng One-hot Encoding. Nhược điểm: Tốn bộ nhớ nếu số lượng giá trị quá lớn.
- Word Embedding: Biểu diễn từ ngữ bằng vector. Các từ có nghĩa gần nhau sẽ có vector gần nhau (góc giữa các vector nhỏ).
  - Static Embedding: Một từ luôn có một vector cố định (không hiểu ngữ cảnh).
  - Dynamic Embedding (Transformer): Vector thay đổi tùy theo ngữ cảnh xung quanh (hiện đại và chính xác hơn).

3. Sự khác biệt giữa môi trường Hàn lâm và Công nghiệp

Hàn lâm: Tập trung vào độ chính xác (Accuracy, MSE) để đánh giá năng lực học tập. Không cần triển khai thực tế.
Công nghiệp: Ngoài độ chính xác, còn quan tâm đến tốc độ (FPS), chi phí tài nguyên (GPU/Memory) và khả năng chạy thời gian thực (real-time). Một mô hình chính xác 99% nhưng chạy quá chậm sẽ không có giá trị thương mại.

4. Các khái niệm toán học quan trọng

Trung vị (Median): Giá trị chia đôi bộ dữ liệu (Q2).
Tứ phân vị (Quartiles): Ba điểm chia dữ liệu thành 4 phần bằng nhau.
Hệ trực chuẩn (Orthonormal): Các vector đôi một vuông góc (trực giao) và có độ dài bằng 1.
Tích vô hướng: Dùng để đo độ gần gũi giữa các vector (cosin góc giữa hai vector).

5. Kết luận và Lời khuyên

Debug: Nếu mô hình gặp lỗi, cần quay lại kiểm tra từng bước trong pipeline (dữ liệu, tiền xử lý, hay thuật toán).
Tư duy: Trong môi trường startup, kỹ sư thường phải làm tất cả các bước. Trong công ty lớn, công việc được chuyên môn hóa.
Lời khuyên: Cần nắm vững xác suất thống kê và đại số tuyến tính vì đây là "xương sống" của mọi kỹ thuật xử lý dữ liệu hiện đại.

"Một bức ảnh đáng giá hơn triệu lời nói" – Nhấn mạnh tầm quan trọng của việc trực quan hóa dữ liệu trong giao tiếp công việc.

Buổi 4 lớp FIT-LAB Spring 2026: Machine Learning pipeline

Key Concepts

1. Quy trình AI/Machine Learning Pipeline

2. Các kỹ thuật tiền xử lý dữ liệu (Data Preprocessing)

3. Sự khác biệt giữa môi trường Hàn lâm và Công nghiệp

4. Các khái niệm toán học quan trọng

5. Kết luận và Lời khuyên

Chat with this Video

Related Videos

Ready to summarize another video?