Môn học mới
Advanced Computer Vision with Deep Learning

  • Khóa học cung cấp kiến thức có hệ thống và cập nhật về các pipeline thị giác máy tính hiện đại dựa trên Deep Learning, tập trung vào các mô hình CNN thế hệ mới, Vision Transformer và các ứng dụng nâng cao trong Computer Vision.
  • Trang bị cho học viên khả năng thiết kế và triển khai end-to-end pipeline bằng PyTorch cho các bài toán cốt lõi trong Computer Vision nâng cao, bao gồm: Object Detection, Semantic Segmentation, OCR, Object Tracking, Keypoint Estimation, Face Recognition và Face Verification
  • Phát triển tư duy lựa chọn và tối ưu mô hình, giúp học viên biết cách áp dụng transfer learning, fine-tuning từ pre-trained models, đồng thời đánh giá và cân bằng hiệu quả giữa độ chính xác, tốc độ xử lý và tài nguyên tính toán trong từng bài toán cụ thể.
  • Giúp học viên triển khai mô hình ở mức ứng dụng, từ export mô hình, tối ưu suy luận đến xây dựng demo hoàn chỉnh, tạo nền tảng để triển khai các hệ thống Computer Vision trong môi trường thực tế.
 
  • HV đã tham gia khóa “Computer Vision with Deep Learning” hoặc có kiến thức tương đương.
  • HV đã có nền tảng Python và PyTorch cơ bản; hiểu được quy trình huấn luyện mô hình học sâu, DataLoader, training loop, evaluation và inference.
  • HV đã làm quen với các bài toán Computer Vision cơ bản như image classification, object detection hoặc segmentation.
  • HV muốn áp dụng AI/Computer Vision vào công việc.
  • HV có định hướng sẽ làm việc trong lĩnh vực Deep Learning/Computer Vision.
 

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:

  • Fine-tuning các mô hình Computer Vision hiện đại, bao gồm cả CNN và Transformer, trên nền tảng PyTorch để giải quyết các bài toán thực tế.

  • Xây dựng và triển khai pipeline hoàn chỉnh cho các bài toán cốt lõi như Advanced Object Detection, Semantic Segmentation và OCR, đồng thời biết cách đánh giá và tối ưu mô hình dựa trên các tiêu chí quan trọng như độ chính xác, tốc độ xử lý và tài nguyên tính toán.

  • Xây dựng pipeline ứng dụng Computer Vision nâng cao, bao gồm Object Tracking, Keypoint Estimation, Face Recognition và Face Verification, với khả năng kết hợp nhiều mô hình trong một pipeline thống nhất.

  • Thực hiện các bước triển khai mô hình cơ bản phục vụ demo/ ứng dụng, bao gồm export model, tối ưu inference và xây dựng giao diện demo.

 
  • Tổng số giờ: 36 giờ
  • Học phí: 5.000.000đ (có chế độ miễn giảm của mỗi khóa, xem chi tiết trong Thời Khóa Biểu)

***Lưu ý: Áp dụng chính sách ưu đãi cao nhất, không áp dụng cộng dồn

Học viên thi đạt kết quả cuối môn học sẽ được cấp chứng nhận "Advanced Computer Vision with Deep Learning - Thị giác máy tính Nâng cao với Học sâu" do Trung Tâm Tin Học - Trường ĐH Khoa Học Tự Nhiên cấp.

  • Modern CNN & Vision Transformer for Fine-Tuning
    • Ôn tập có chọn lọc về modern CNN backbones: ResNet, MobileNet, ConvNeXt
    • Vision Transformer và các biến thể: ViT, Swin Transformer, MaxViT
    • Transfer learning và fine-tuning với pre-trained models
    • Xây dựng model dạng Multi-task learning
    • Thực hành về kỹ thuật fine-tune cho bài toán phân lớp: So sánh chiến lược fine-tuning và lựa chọn kiến trúc phù hợp (CNN vs Transformer) theo đặc thù dữ liệu và bài toán
  • Advanced Object Detection
    • Tổng quan bài toán Object Detection hiện đại
    • Các thước đo đánh giá: IoU, Precision, Recall, mAP
    • Họ mô hình YOLO và quy trình huấn luyện / inference
    • Detection Transformers: RT-DETR
    • Thực hành fine-tuning cho bài toán thực tế: small object detection, aerial detection
    • Phân tích lỗi mô hình (miss detection, false positive, duplicate detection) và các chiến lược cải thiện dựa trên dữ liệu và huấn luyện
  • Advanced Semantic Segmentation
    • Tổng quan bài toán Semantic Segmentation
    • Các thước đo đánh giá: Pixel Accuracy, IoU, mIoU, Dice
    • Segmentation với CNN: DeepLab, LR-ASPP
    • Transformer-based Segmentation: SegFormer
    • Segment Anything Model (SAM / SAM2)
    • Thực hành kết hợp detector + SAM cho automatic segmentation
    • Phân tích ảnh hưởng của chất lượng label (mask) và các kỹ thuật hậu xử lý (post-processing) để cải thiện kết quả segmentation
  • OCR 1: Text Detection & Recognition Basics
    • Tổng quan bài toán OCR và pipeline detect + recognize
    • Text detection và text recognition trong bài toán OCR
    • Nhận dạng văn bản với Tesseract
    • Tiền xử lý ảnh cho OCR
    • Thực hành OCR baseline trên ảnh tài liệu / ảnh văn bản
    • Phân tích các lỗi thường gặp trong OCR (blur, noise, layout phức tạp)
  • OCR 2: Transformer OCR và Ứng dụng
    • Giới thiệu TrOCR
    • OCR trên cropped text và OCR kết hợp text detection
    • Fine-tuning TrOCR trên bài toán chuyên biệt
    • Ứng dụng ALPR hoặc đọc hóa đơn / chứng từ
    • Hậu xử lý kết quả OCR
    • Hướng dẫn Project: Fine-tune TrOCR
    • Áp dụng các kỹ thuật hậu xử lý (regex, dictionary, rule-based) để chuẩn hóa và trích xuất thông tin có cấu trúc từ kết quả OCR
  • Object Tracking 1
    • Tổng quan bài toán tracking và tracking-by-detection
    • Các chỉ số đánh giá cơ bản cho tracking
    • Theo vết đối tượng với YOLO tracking / Ultralytics tracking
    • Counting, line crossing, zone-based analytics
    • Thực hành tracking trên video thực tế
    • Phân tích các lỗi trong tracking và ảnh hưởng của detection đến chất lượng tracking
  • Object Tracking 2
    • Multi-camera tracking
    • Re-identification (ReID)
    • Giới thiệu transformer-based tracker / point tracking (CoTracker)
    • Thực hành về CoTracker
    • Pipeline multi-camera tracking và các thách thức thực tế (ReID, đồng bộ dữ liệu, ánh xạ camera)
  • Keypoint Estimation 1
    • Tổng quan pose estimation và landmark detection
    • Keypoint estimation cho người
    • Skeleton representation và các ứng dụng
    • Thực hành pipeline keypoint estimation trên người
    • Phân tích lỗi keypoint (missing, sai vị trí) và ứng dụng đặc trưng hình học (góc, khoảng cách) trong bài toán thực tế
  • Keypoint Estimation 2
    • Keypoint estimation cho khuôn mặt
    • Fine-tuning facial keypoints
    • Ứng dụng hình học từ keypoints: alignment, triangulation, morphing
    • Biểu diễn đặc trưng hình học và phân tích hành vi / cử chỉ
    • Thực hành ứng dụng về facial keypoints
  • Face Recognition
    • Face detection, face alignment và feature embedding
    • Face recognition pipeline
    • So khớp embedding, retrieval và identification
    • Xây dựng pipeline nhận dạng khuôn mặt
    • Thực hành ứng dụng điểm danh / tìm kiếm khuôn mặt ở mức prototype
    • Phân tích embedding space và các yếu tố ảnh hưởng đến độ chính xác (ánh sáng, góc mặt, chất lượng dữ liệu)
  • Face Verification
    • Face verification vs face recognition
    • One-to-one verification pipeline
    • Threshold tuning
    • Các thước đo đánh giá: ROC, FAR, FRR, EER
    • Xây dựng pipeline xác thực khuôn mặt ở mức ứng dụng
    • Thực hành face verification
    • Phân tích trade-off giữa FAR và FRR và cách lựa chọn threshold phù hợp theo từng bài toán thực tế
  • Deployment & Final Demo
    • Tổng quan triển khai mô hình Computer Vision
    • Export mô hình: TorchScript / ONNX
    • Tối ưu suy luận với ONNX Runtime / TensorRT / OpenVINO (mức giới thiệu)
    • Thực hành xây dựng demo với Gradio hoặc FastAPI hoặc Streamlite
  • Test:  Kiểm tra bài tập thực hành về Keypoint Estimation
  • Project: Xây dựng ứng dụng OCR
 
 
LỊCH KHAI GIẢNG Xem thêm
Môn học mới

Học phí: 5.000.000đ - Nhận ƯU ĐÃI HỌC PHÍ khi ghi danh online + hoàn tất ​đến ngày 22/05/2026

Đặc biệt: Ưu đãi 25% dành cho Học viên đã học lớp "Computer Vision with Deep Learning", "Deep Learning with Python"

LớpThời gianNgày khai giảngĐịa điểm học 
MD84_312T357_ONThứ 3 - 5 - 7 (18.00 - 21.00)26/05/2026OnlineĐăng ký
ai
Trung Tâm Tin Học
ai
Trung Tâm Tin Học
Chào mừng bạn đến với Trung Tâm Tin Học.
Bạn đang cần hỗ trợ thông tin gì ạ? Hãy Chat ngay với chúng tôi nhé.