ComputerVision_HCMUT

BÀI TẬP LỚN SỐ 1

Phân loại Ảnh, Văn bản & Đa phương thức

👥 THÔNG TIN NHÓM

Nhóm: GROUP_11
Thành viên:
- Nguyễn Huy Hoàng - 2570197
- Nguyễn Anh Khoa - 2211612
Giảng viên: Lê Thành Sách

🎥 DEMO & PRESENTATION

🔗 Video Demo:
👉 Xem tại đây
🔗 Video Báo Cáo (YouTube):
👉 Xem tại đây

💻 SOURCE CODE

🔗 GitHub Repository:
👉 Xem tại đây

📑 NỘI DUNG BÁO CÁO

Nội dung bao gồm:

📊 Exploratory Data Analysis (EDA)
⚙️ Dataset, Dataloader & Preprocessing
🤖 Model Training & Fine-tuning
📈 Evaluation & Comparison
🧠 Discussion & Analysis
🧠 Error Analysis
🧠 Tuning Strategy Comparison

1. IMAGE DATASET (CNN vs ViT)

So sánh hai nhóm mô hình:
- CNN (ResNet, MobileNet)
- Vision Transformer (ViT)
Sử dụng pretrained + fine-tune
Pipeline training và evaluation
Đánh giá và so sánh:
- Accuracy, Loss
- Biểu đồ training
- Hiệu năng so với mô hình MobileNet
Biểu đồ

2. TEXT DATASET (RNN vs Transformer)

So sánh hai nhóm mô hình:
- RNN (LSTM / BiLSTM)
- Transformer (BERT, DistilBERT,…)
Xử lý dữ liệu:
- Tokenization, Padding, Embedding (Glove)
Đánh giá:
- Accuracy, F1-score
Finetune:
- Freeze Backbone, Unfreeze All
Hiệu năng các mô hình:
- Model size, Infer-time, …
Phân tích lỗi
Pipeline training và evaluation

3. MULTIMODAL (Zero-shot vs Few-shot)

So sánh hai cách tiếp cận:
- Zero-shot (CLIP,…)
- Few-shot (fine-tune với ít dữ liệu)
Đánh giá:
- Accuracy
- Khả năng tổng quát hóa
Pipeline training và evaluation

📌 TỔNG KẾT

So sánh tổng thể:
- CNN vs ViT
- RNN vs Transformer
- Zero-shot vs Few-shot
Insight chính:
- Hiệu quả từng loại mô hình theo từng bài toán
- Trade-off giữa performance và chi phí tính toán
Hạn chế:
- Dataset nhỏ / chưa đa dạng
- Chưa tối ưu hyperparameter toàn diện