[FIT-LAB Spring 2026] Tìm hiểu về CV & NLP (Buổi 8)

Dưới đây là bản tóm tắt chi tiết nội dung buổi học về xử lý dữ liệu ảnh (Computer Vision) và giới thiệu về Word Embedding trong NLP.

Key Concepts

Computer Vision (CV): Lĩnh vực xử lý dữ liệu hình ảnh.
MNIST Dataset: Bộ dữ liệu "Hello World" của CV, gồm 70.000 ảnh chữ viết tay (0-9).
Pixel & Channels: Đơn vị cơ bản của ảnh; ảnh đen trắng (2D), ảnh màu (3D - RGB).
Flattening (Làm phẳng): Chuyển đổi ma trận 2D thành vector 1D để đưa vào mô hình Machine Learning.
Word Embedding (Word2Vec): Kỹ thuật biểu diễn từ ngữ dưới dạng vector dày đặc, giữ được mối quan hệ ngữ nghĩa.
Neural Network (Tiền thân): Cấu trúc gồm Input, Hidden, và Output layer.

1. Xử lý dữ liệu ảnh (Computer Vision)

Cấu trúc dữ liệu ảnh:
- Ảnh đen trắng: Lưu dưới dạng mảng 2 chiều (ma trận), giá trị pixel từ 0 (đen) đến 255 (trắng).
- Ảnh màu: Lưu dưới dạng mảng 3 chiều (chiều cao, chiều rộng, kênh màu). Các kênh màu cơ bản là Red, Green, Blue (RGB).
- Lưu ý kỹ thuật: Trong lập trình (như OpenCV), ảnh thường được đọc theo thứ tự (chiều cao, chiều rộng), ngược với cách mô tả thông thường (chiều rộng x chiều cao).
Bộ dữ liệu MNIST:
- Gồm 60.000 ảnh train và 10.000 ảnh test.
- Kích thước cố định: 28x28 pixel.
Quy trình tiền xử lý:
- Flattening: Các thuật toán Machine Learning truyền thống (Logistic Regression, SVM) yêu cầu input là vector 1D. Do đó, cần dùng hàm reshape để chuyển ảnh 28x28 thành vector 784 phần tử.
- Chuẩn hóa: Mặc dù pixel đã nằm trong khoảng 0-255, việc chuẩn hóa (Normalization) vẫn quan trọng trong các bài toán khác để tránh thiên vị (bias) cho các feature có dải giá trị lớn.

2. Hạn chế của Machine Learning truyền thống trong CV

Mất thông tin không gian (Spatial Information): Khi làm phẳng ảnh thành vector, mô hình mất đi mối quan hệ giữa các pixel lân cận.
Mất thông tin thời gian (Temporal Information): Trong video, việc làm phẳng khiến mô hình không hiểu được sự liên kết giữa các khung hình.
Kết luận: Dù có thể dùng SVM hay Logistic Regression cho MNIST (độ chính xác ~93%), nhưng trong thực tế, Deep Learning (mạng neuron) được ưu tiên vì khả năng giữ nguyên cấu trúc không gian, đạt độ chính xác cao hơn (99%+).

3. Word Embedding (NLP)

Vấn đề của TF-IDF: Tạo ra các vector rất "thưa" (nhiều số 0), không thể hiện được mối quan hệ ngữ nghĩa giữa các từ.
Word2Vec:
- Nguyên lý: Các từ xuất hiện trong ngữ cảnh (context) giống nhau thường có ý nghĩa gần nhau.
- Kiến trúc:
  - CBOW (Continuous Bag of Words): Dự đoán từ ở giữa dựa vào các từ xung quanh.
  - Skip-gram: Dự đoán các từ xung quanh dựa vào từ ở giữa.
- Đặc điểm: Sau khi huấn luyện, ta giữ lại ma trận trọng số đầu tiên để làm vector đại diện cho từ. Các vector này có tính chất toán học thú vị: Vector(King) - Vector(Queen) ≈ Vector(Man) - Vector(Woman).
Các mô hình phổ biến: Word2Vec, GloVe, FastText (của Facebook, hỗ trợ tốt cho tiếng Việt).
Nhược điểm: Đây là "Static Embedding" (mã hóa tĩnh), một từ luôn có một vector duy nhất bất kể ngữ cảnh (ví dụ: "chuột" máy tính và "chuột" con vật đều có cùng vector).

4. Tiền thân của Mạng Neuron (Neural Network)

Hàm tuyến tính: $y = \sum (w_i \cdot x_i) + b$.
Cấu trúc mạng:
- Input Layer: Số lượng node bằng số lượng từ trong từ điển (ví dụ 100.000).
- Hidden Layer: Kích thước nhỏ (100-300), nơi chứa các vector embedding.
- Output Layer: Dự đoán từ tiếp theo hoặc từ ngữ cảnh.
Ghi chú: Đây mới chỉ là phần tuyến tính; buổi sau sẽ bổ sung hàm phi tuyến (non-linear) để hoàn thiện mạng neuron.

Tổng kết

Buổi học nhấn mạnh sự chuyển dịch từ các thuật toán Machine Learning truyền thống (vốn yêu cầu dữ liệu dạng bảng/vector 1D) sang Deep Learning. Trong CV, việc làm phẳng ảnh gây mất thông tin không gian, còn trong NLP, Word Embedding giúp máy tính hiểu được "khoảng cách ngữ nghĩa" giữa các từ thay vì chỉ so sánh sự xuất hiện đơn thuần.