👁️ Visual Question Answering (VQA) with Attention Mechanism

📖 Introduction (Giới thiệu)

Visual Question Answering (VQA) là một bài toán thách thức trong lĩnh vực AI, yêu cầu máy tính phải hiểu đồng thời nội dung hình ảnh (Computer Vision) và ngôn ngữ tự nhiên (NLP) để trả lời câu hỏi.

Dự án này tập trung xây dựng mô hình Deep Learning sử dụng cơ chế Attention Mechanism, giúp mô hình tập trung vào các vùng ảnh quan trọng liên quan đến câu hỏi, từ đó nâng cao độ chính xác so với các phương pháp truyền thống.

📂 Project Documents (Tài liệu Báo cáo)

Chi tiết về lý thuyết, thiết kế thuật toán và phân tích kết quả được trình bày đầy đủ tại đây:

📄 Báo cáo Giữa kỳ (Report): Xem file báo cáo (DOCX)
📊 Slide Thuyết trình (Presentation): Xem slide thuyết trình (PPTX)

🧠 Model Architecture (Kiến trúc Mô hình)

Hệ thống được xây dựng dựa trên kiến trúc Hybrid Neural Network kết hợp giữa CNN và RNN:

Sơ đồ kiến trúc:

Chi tiết kỹ thuật:

Image Encoder: Sử dụng ResNet-50 (Pre-trained trên ImageNet) để trích xuất đặc trưng không gian (Spatial Features) của ảnh.
Question Encoder: Sử dụng LSTM (Long Short-Term Memory) để xử lý chuỗi từ và nắm bắt ngữ cảnh câu hỏi.
Attention Layer: Cơ chế trọng tâm giúp mô hình "nhìn" vào vùng ảnh có liên quan nhất tới từ khóa trong câu hỏi.
Classifier: Mạng Fully Connected kết hợp đặc trưng ảnh và câu hỏi để phân loại ra 1 trong 1000 câu trả lời phổ biến nhất.

📊 Experiments & Results (Thực nghiệm)

Mô hình đã được đánh giá trên tập dữ liệu VQAv2 (Validation Set). Kết quả cho thấy việc áp dụng Attention và ResNet-50 mang lại hiệu suất vượt trội so với Baseline.

Model Configuration	Accuracy
Baseline (ResNet-18 + LSTM)	41.32%
Proposed (ResNet-50 + Attention)	46.04%

Biểu đồ so sánh độ chính xác:

📸 Demo Results

Dưới đây là một số kết quả dự đoán thực tế của mô hình trên tập Test.

Kết quả 1	Kết quả 2

📂 Dataset

Dự án sử dụng bộ dữ liệu VQA v2.0 (MS COCO Images).

Input: Ảnh và câu hỏi mở.
Output: Câu trả lời ngắn.
Lưu ý: Dataset không bao gồm trong Repo này do kích thước lớn.

🚀 Installation & Usage

Dự án được thiết kế để chạy trên môi trường Kaggle hoặc Google Colab (GPU T4/P100).

Clone repository:

git clone [https://github.com/username/VQA_Project.git](https://github.com/username/VQA_Project.git)

Cài đặt thư viện:
```
pip install -r requirements.txt
```
Chạy Notebook: Mở file notebooks/VQA_ResNet_LSTM_Attention.ipynb và chạy từng cell.

👨‍💻 Author

Student: Nguyễn Phúc Minh Đăng (ID: 521H0497)
Course: Deep Learning (Mid-term Project)
Instructor: PGS. TS. Lê Anh Cường

Ho Chi Minh City, 2025

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

👁️ Visual Question Answering (VQA) with Attention Mechanism

📖 Introduction (Giới thiệu)

📂 Project Documents (Tài liệu Báo cáo)

🧠 Model Architecture (Kiến trúc Mô hình)

Chi tiết kỹ thuật:

📊 Experiments & Results (Thực nghiệm)

📸 Demo Results

📂 Dataset

🚀 Installation & Usage

👨‍💻 Author

FilesExpand file tree

README.md

Latest commit

History

README.md

File metadata and controls

👁️ Visual Question Answering (VQA) with Attention Mechanism

📖 Introduction (Giới thiệu)

📂 Project Documents (Tài liệu Báo cáo)

🧠 Model Architecture (Kiến trúc Mô hình)

Chi tiết kỹ thuật:

📊 Experiments & Results (Thực nghiệm)

📸 Demo Results

📂 Dataset

🚀 Installation & Usage

👨‍💻 Author