Môn học mới
Data Pre-processing and Analysis

  • Giúp Học viên rèn luyện kỹ năng xử lý, phân tích và chuẩn hóa dữ liệu trong các bài toán thực tế
  • Trang bị cho Học viên cách ứng dụng xác suất – thống kê trong phân tích dữ liệu để đưa ra kết luận có cơ sở hơn
  • Biết cách xây dựng và đánh giá các mô hình dự đoán cơ bản (Linear Regression, Logistic Regression)
  • Phát triển tư duy và năng lực phân tích dữ liệu, xây dựng nền tảng vững chắc để trở thành Chuyên gia Khoa học Dữ liệu sau này (Khóa học thứ tư trong chương trình “Data Science and Machine Learning Certificate”)
 
  • Sinh viên các trường Đại học, Cao đẳng
  • HV có định hướng sẽ làm việc trong lĩnh vực Data Science, Machine Learning
  • Người làm việc trong lĩnh vực dữ liệu, phân tích dữ liệu và khoa học dữ liệu muốn nâng cao kỹ năng phân tích và tiền xử lý dữ liệu.
  • Nắm vững quy trình tổng thể của một dự án phân tích dữ liệu.
  • Sử dụng Python để xử lý các vấn đề của dữ liệu thô như giá trị thiếu, trùng lặp, ngoại lệ (outliers), không nhất quán dữ liệu ...
  • Ứng dụng phân tích dữ liệu khám phá (EDA) để tìm kiếm insight.
  • Vận dụng các kỹ thuật Feature Engineering để tạo đặc trưng phù hợp, giúp tối ưu hiệu suất mô hình sau này
  • Xây dựng và đánh giá các mô hình Machine Learning nền tảng: hồi quy tuyến tính và hồi quy logistic.
  • Áp dụng các kỹ thuật chuyên sâu SMOTE và Resampling để xử lý bài toán dữ liệu mất cân bằng.
  • Hiểu và có thể ứng dụng các kỹ thuật xử lý văn bản (NLP) cơ bản
  • Hình thành tư duy giải quyết vấn đề dựa trên dữ liệu để ứng dụng vào các bài toán kinh doanh thực tế.
  • Thời gian: 5 tuần
  • Thời lượng: 40 giờ (53 tiết)
  • Học phí: 5.500.000 đ

 

  • Giới thiệu Data Analysis
  • Quy trình thực hiện dự án Data Analyis:
    • Xác định vấn đề và mục tiêu (Define problem & objectives)
    • Thu thập dữ liệu (Data Collection)
    • Tiền xử lý dữ liệu (Preprocessing)
    • Phân tích khám phá (EDA)
    • Feature Engineering
    • Xây dựng mô hình (Modeling)
    • Đánh giá mô hình (Evaluation)
    • Triển khai và truyền thông kết quả (Deployment & Communication)
  • Giới thiệu Data Pre-processing
  • Các loại dữ liệu và kiểu dữ liệu
  • Làm sạch dữ liệu (Data Cleaning):
    • Xử lý giá trị thiếu (missing values)
    • Loại bỏ dữ liệu trùng lặp (duplicates)
    • Chuẩn hóa định dạng dữ liệu (format standardization)
    • Phát hiện & xử lý dữ liệu bất thường (outliers)
    • Hiệu chỉnh dữ liệu không nhất quán (data inconsistency)
  • Phân tích khám phá dữ liệu EDA (Exploratory Data Analysis)
    • Giới thiệu
    • Các khái niệm xác suất thống kê cơ bản
    • Các phương pháp phân tích
      • Thống kê mô tả (summary statistics)
      • Trực quan hóa dữ liệu (Data visualization)
      • Kiểm định giả thuyết (Hypothesis testing)
    • Phân tích 1 biến:
      • Dữ liệu phân loại (categorical)
      • Dữ liệu liên tục (continuous)
    • Phân tích 2 biến:
      • Quan hệ giữa các biến
      • Cross-tabulation và correlation
    • Phát hiện và xử lý outliers:
      • Z-score
      • IQR (interquartile range)
    • Một số công cụ phân tích:
      • ttth-mds5-analyzer
      • Pandas Profiling hoặc Dataprep
  • Feature Engineering
    • Phân biệt Feature Engineering và Preprocessing
    • Kết hợp hoặc biến đổi cột dữ liệu
    • Feature Scaling
      • Log normalization
      • Standard Scaler
      • Min-max Scaler
      • Robust Scaler
      • Binarizer
    • Data Transformation
      • Pivot and UnPivot
      • Category Encoder: Label encoder and One-Hot encoder
    • Thực hành dựa trên dataset thực tế
  • NLP (Natural Language Processing) cơ bản
    • Giới thiệu
    • Làm sạch văn bản (Text Data Pre-processing)
    • Text Data Transformation:
      • Count Vectorizer
      • Tf-Idf Vectorizer
  • Mô hình hồi quy tuyến tính (Linear Regression)
    • Giới thiệu
    • Simple Linear Regression
    • Multiple Linear Regression
    • Đánh giá mô hình (Evaluation Model)
    • Thực hành với các bài tập dự đoán giá trị số (dự đoán giá, dự đoán chỉ số…)
  • Mô hình hồi quy Logistic (Logistic Regression)
    • Giới thiệu mô hình
    • Logistic Regression
    • Thực hành với các bài tập dự đoán phân loại (dự đoán khách hàng rời đi hay không, giao dịch bất thường…)
  • Xử lý tập dữ liệu mất cân bằng (Imbalanced Dataset)
    • Nhận diện dữ liệu mất cân bằng
    • Kỹ thuật xử lý:
      • Resampling: Oversampling and Undersampling
      • Synthetic Data Generation: SMOTE
    • Performance Metric Classification:
      • Accuracy
      • Confusion Matrix
      • ROC Curves (ROC – AUC)
 

Học viên thi đạt kết quả cuối môn học sẽ được cấp chứng nhận "Data Pre-processing and Analysis - Tiền xử lý dữ liệu và Phân tích dữ liệu"

 
 
LỊCH KHAI GIẢNG Xem thêm
Môn học mới

Học phí: 5.500.000đ - Nhận ƯU ĐÃI HỌC PHÍ khi ghi danh online + hoàn tất ​đến ngày 11/07/2025

LớpThời gianNgày khai giảngĐịa điểm học 
DL04_305S7N5_ONThứ 5 (18.00 - 21.00) & Thứ 7 + Chủ Nhật (08.00 - 11.00)17/07/2025OnlineĐăng ký
CÁC MÔN HỌC LIÊN QUAN
ai
Trung Tâm Tin Học
ai
Trung Tâm Tin Học
Chào mừng bạn đến với Trung Tâm Tin Học.
Bạn đang cần hỗ trợ thông tin gì ạ? Hãy Chat ngay với chúng tôi nhé.