Những LỖI phổ biến của người học Machine Learning

Lỗi Thường Gặp Khi Học AI và Machine Learning

Key Concepts:

Data Cleaning (Làm sạch dữ liệu): Xử lý dữ liệu thiếu, trùng lặp, bất thường, lỗi định dạng để đảm bảo chất lượng.
Overfitting (Quá khớp): Mô hình học quá chi tiết dữ liệu huấn luyện, kém hiệu quả trên dữ liệu mới.
Underfitting (Chưa khớp): Mô hình quá đơn giản, không thể nắm bắt được các đặc trưng quan trọng của dữ liệu.
Data Leakage (Dò rỉ dữ liệu): Thông tin từ dữ liệu kiểm thử hoặc tương lai vô tình tham gia vào quá trình huấn luyện.
Imbalanced Dataset (Dữ liệu mất cân bằng): Một số lớp dữ liệu có số lượng mẫu ít hơn đáng kể so với các lớp khác.
Data Preprocessing (Tiền xử lý dữ liệu): Các bước chuẩn bị dữ liệu trước khi đưa vào mô hình, bao gồm làm sạch và chuẩn hóa.
Feature Scaling/Normalization (Chuẩn hóa dữ liệu): Đưa các đặc trưng về cùng một thang đo để tránh ảnh hưởng đến thuật toán.
Cross-Validation (Kiểm định chéo): Kỹ thuật đánh giá mô hình bằng cách chia dữ liệu thành nhiều phần và huấn luyện/kiểm tra trên các phần khác nhau.

1. Lỗi Liên Quan Đến Dữ Liệu

Một trong những lỗi phổ biến nhất mà người học AI và Machine Learning thường mắc phải là bỏ qua hoặc thực hiện không đầy đủ các bước làm sạch dữ liệu (data cleaning). Quá trình này bao gồm:

Xử lý giá trị thiếu (missing values): Loại bỏ hoặc điền các giá trị còn thiếu.
Xử lý dữ liệu trùng lặp (duplicate values): Loại bỏ các bản ghi trùng lặp.
Xử lý dữ liệu bất thường (outliers): Xác định và xử lý các giá trị ngoại lệ.
Sửa lỗi định dạng, lỗi nhập liệu, lỗi chính tả: Đảm bảo tính nhất quán và chính xác của dữ liệu.
Chuẩn hóa đơn vị, format ngày tháng tiền tệ: Đưa dữ liệu về một định dạng thống nhất.

Việc bỏ qua các bước này có thể dẫn đến mô hình không chạy được, hoặc huấn luyện không tối ưu. Ví dụ, nếu một bộ dữ liệu có các ô bị khuyết, mô hình có thể báo lỗi hoặc, nguy hiểm hơn, các thư viện có thể tự động điền các giá trị mặc định (ví dụ, 0) mà không phản ánh đúng phân bố dữ liệu. Ví dụ cụ thể, nếu một cột cân nặng có giá trị khuyết được điền bằng 0, mô hình sẽ học được một mối quan hệ không thực tế.

Một lỗi khác liên quan đến dữ liệu là quên loại bỏ các giá trị trùng lặp. Việc này có thể gây ra bias (thiên vị) cho mô hình, khiến nó tập trung quá mức vào các mẫu trùng lặp.

Ngoài ra, các lỗi liên quan đến định dạng không đồng nhất (ví dụ, định dạng ngày tháng khác nhau, vị trí dấu đô la khác nhau) cũng cần được xử lý.

2. Lỗi Liên Quan Đến Tiền Xử Lý Dữ Liệu

Tiền xử lý dữ liệu (data preprocessing) là một bước quan trọng, và một lỗi thường gặp là quên chuẩn hóa dữ liệu (data normalization). Khi các đặc trưng dạng số có thang đo khác nhau (ví dụ, diện tích căn nhà tính bằng mét vuông và số tầng của căn nhà), các thuật toán như KNN, SVM, Logistic Regression và mạng nơ-ron có thể hoạt động kém hiệu quả. Việc chuẩn hóa dữ liệu đảm bảo rằng tất cả các đặc trưng đều có đóng góp tương đương vào quá trình huấn luyện.

Một lỗi khác liên quan đến outliers (điểm dữ liệu bất thường). Không phải lúc nào cũng nên loại bỏ outliers. Trong một số trường hợp, outliers có thể là thông tin quan trọng, đặc biệt trong các bài toán như phát hiện gian lận hoặc phân tích rủi ro tài chính. Việc loại bỏ outliers cần được cân nhắc kỹ lưỡng dựa trên ngữ cảnh của bài toán.

3. Lỗi Liên Quan Đến Dữ Liệu Mất Cân Bằng

Dữ liệu mất cân bằng (imbalanced dataset) là một vấn đề phổ biến, đặc biệt trong các bài toán phân loại. Ví dụ, trong một bộ dữ liệu về bệnh nhân ung thư, số lượng bệnh nhân ung thư thường ít hơn nhiều so với số lượng người khỏe mạnh. Nếu không xử lý dữ liệu mất cân bằng, mô hình có thể bị bias về phía lớp đa số.

Có hai lỗi thường gặp liên quan đến dữ liệu mất cân bằng:

Quên cân bằng dữ liệu: Không áp dụng các kỹ thuật cân bằng dữ liệu trước khi huấn luyện mô hình.
Sử dụng sai metric: Sử dụng accuracy để đánh giá mô hình, thay vì các metric phù hợp hơn như precision, recall, hoặc F1-score.

Mục tiêu của việc cân bằng dữ liệu không phải là làm cho số lượng mẫu của các lớp bằng nhau, mà là làm cho tỉ lệ giữa các lớp ít bị mất cân bằng hơn.

4. Lỗi Liên Quan Đến Mô Hình

Overfitting (Quá khớp): Mô hình học quá chi tiết dữ liệu huấn luyện, dẫn đến hiệu suất kém trên dữ liệu mới.
Underfitting (Chưa khớp): Mô hình quá đơn giản, không thể nắm bắt được các đặc trưng quan trọng của dữ liệu.

Không phải cứ mô hình có độ chính xác cao trên dữ liệu huấn luyện là bị overfitting. Cần đánh giá mô hình trên dữ liệu kiểm thử để xác định xem nó có bị overfitting hay không.

Sử dụng kiến trúc mô hình quá phức tạp cho dữ liệu đơn giản cũng có thể dẫn đến overfitting.

Việc lựa chọn learning rate phù hợp trong deep learning cũng rất quan trọng. Learning rate quá nhỏ sẽ khiến quá trình huấn luyện chậm, còn learning rate quá lớn có thể khiến mô hình không hội tụ.

5. Lỗi Liên Quan Đến Quy Trình Đánh Giá Mô Hình

Data Leakage (Dò rỉ dữ liệu): Thông tin từ dữ liệu kiểm thử hoặc tương lai vô tình tham gia vào quá trình huấn luyện.
Không sử dụng Cross-Validation (Kiểm định chéo): Chỉ đánh giá mô hình trên một bộ validation cố định có thể dẫn đến kết quả không đáng tin cậy. Sử dụng cross-validation giúp đánh giá mô hình trên nhiều bộ validation khác nhau, cho kết quả tổng quát hơn.

Kết luận:

Video này đã tổng hợp một loạt các lỗi phổ biến mà người học AI và Machine Learning thường mắc phải, từ các lỗi liên quan đến dữ liệu, tiền xử lý dữ liệu, dữ liệu mất cân bằng, đến các lỗi liên quan đến mô hình và quy trình đánh giá mô hình. Việc nhận biết và tránh những lỗi này là rất quan trọng để xây dựng các mô hình AI hiệu quả và đáng tin cậy. Chất lượng dữ liệu đầu vào quyết định chất lượng dự đoán đầu ra. Việc học hỏi từ những sai lầm trong quá khứ là một phần quan trọng của quá trình học tập và phát triển trong lĩnh vực AI.