Skip to content

Latest commit

 

History

History
74 lines (56 loc) · 3.81 KB

File metadata and controls

74 lines (56 loc) · 3.81 KB

👁️ Visual Question Answering (VQA) with Attention Mechanism

PyTorch Python Kaggle

📖 Introduction (Giới thiệu)

Visual Question Answering (VQA) là một bài toán thách thức trong lĩnh vực AI, yêu cầu máy tính phải hiểu đồng thời nội dung hình ảnh (Computer Vision) và ngôn ngữ tự nhiên (NLP) để trả lời câu hỏi.

Dự án này tập trung xây dựng mô hình Deep Learning sử dụng cơ chế Attention Mechanism, giúp mô hình tập trung vào các vùng ảnh quan trọng liên quan đến câu hỏi, từ đó nâng cao độ chính xác so với các phương pháp truyền thống.

📂 Project Documents (Tài liệu Báo cáo)

Chi tiết về lý thuyết, thiết kế thuật toán và phân tích kết quả được trình bày đầy đủ tại đây:

🧠 Model Architecture (Kiến trúc Mô hình)

Hệ thống được xây dựng dựa trên kiến trúc Hybrid Neural Network kết hợp giữa CNN và RNN:

Sơ đồ kiến trúc: Architecture

Chi tiết kỹ thuật:

  • Image Encoder: Sử dụng ResNet-50 (Pre-trained trên ImageNet) để trích xuất đặc trưng không gian (Spatial Features) của ảnh.
  • Question Encoder: Sử dụng LSTM (Long Short-Term Memory) để xử lý chuỗi từ và nắm bắt ngữ cảnh câu hỏi.
  • Attention Layer: Cơ chế trọng tâm giúp mô hình "nhìn" vào vùng ảnh có liên quan nhất tới từ khóa trong câu hỏi.
  • Classifier: Mạng Fully Connected kết hợp đặc trưng ảnh và câu hỏi để phân loại ra 1 trong 1000 câu trả lời phổ biến nhất.

📊 Experiments & Results (Thực nghiệm)

Mô hình đã được đánh giá trên tập dữ liệu VQAv2 (Validation Set). Kết quả cho thấy việc áp dụng Attention và ResNet-50 mang lại hiệu suất vượt trội so với Baseline.

Model Configuration Accuracy
Baseline (ResNet-18 + LSTM) 41.32%
Proposed (ResNet-50 + Attention) 46.04%

Biểu đồ so sánh độ chính xác: Accuracy Chart

📸 Demo Results

Dưới đây là một số kết quả dự đoán thực tế của mô hình trên tập Test.

Kết quả 1 Kết quả 2
Demo 1 Demo 2

📂 Dataset

Dự án sử dụng bộ dữ liệu VQA v2.0 (MS COCO Images).

  • Input: Ảnh và câu hỏi mở.
  • Output: Câu trả lời ngắn.
  • Lưu ý: Dataset không bao gồm trong Repo này do kích thước lớn.

🚀 Installation & Usage

Dự án được thiết kế để chạy trên môi trường Kaggle hoặc Google Colab (GPU T4/P100).

  1. Clone repository:
    git clone [https://github.com/username/VQA_Project.git](https://github.com/username/VQA_Project.git)
  2. Cài đặt thư viện:
    pip install -r requirements.txt
  3. Chạy Notebook: Mở file notebooks/VQA_ResNet_LSTM_Attention.ipynb và chạy từng cell.

👨‍💻 Author

  • Student: Nguyễn Phúc Minh Đăng (ID: 521H0497)
  • Course: Deep Learning (Mid-term Project)
  • Instructor: PGS. TS. Lê Anh Cường

Ho Chi Minh City, 2025