Tổng khai giảng khóa học Lập trình và CSDL
Khóa học Lập trình R cho Khoa học dữ liệu
Khóa học Big Data in Machine Learning - Trung Tâm Tin Học ĐH KHTN
Khóa học React Native
Khóa học Deep Learning với Python
Lịch khai giảng lập trình và CSDL
Khóa học lập trình viên Python
Khóa học Toán và thống kế
Khóa học lập trình web
Khóa học Databases and SQL for Data Science - Trung Tâm Tin Học ĐH KHTN
Machine Learning Certificate

Big Data in Machine Learning

  • Khóa học trang bị cho học viên (HV) những kiến thức nền tảng về đặc điểm và các thành phần của Big Data
  • Giúp HV hiểu được giá trị mà Big Data mang lại doanh nghiệp
  • Cung cấp cho HV các phương pháp làm việc với Big Data trong Machine Learning, Data Science
  • Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDDs, PySpark DataFrames, PySpark SQL, PySpark Mllib, PySpark Streaming… 
  • Giúp HV nắm bắt được các công nghệ sử dụng trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp.
  • Là khóa học cuối trong chương trình “Machine Learning Certificate
  • Là khóa học cuối trong chương trình “Data Science Certificate
 
  • HV học qua lớp Machine Learning with Python hoặc có kiến thức tương đương
  • Sinh viên các trường Đại học, Cao đẳng
  • HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science
 
Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
  • Nắm vững các đặc điểm và thành phần của Big Data
  • Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn
  • Làm việc với Spark, Big Data Technology mới nhất
  • Làm việc với các thư viện của PySpark như PySpark RDD’s, PySpark DataFrames, PySpark SQL, PySpark Mllib, PySpark Streaming…
  • Áp dụng Machine Learning với Big Data
  • Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp
  • Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong và ngoài nước
 

 

  • Thời gian học: 5 tuần
  • Thời lượng: 64 tiết, học trực tiếp trên máy
  • Học phí:  5.800.000 đ
  • Ưu đãi đặc biệt: DUY NHẤT khóa 256, giảm 20% cho tất cả HV đăng kí 
  • Overview of Big Data
    • What is Big Data?
    • History of Big Data
    • The Vs’ of Big Data (3Vs’, 4Vs’, 5Vs’)
    • Batch processing vs Stream processing
    • Introduction to Apache Spark
    • Apache Spark Components: Spark RDD API, Spark SQL, Spark MLlib, Spark GraphX, Spark Streaming
  • Overview of PySpark
    • Introduction to PySpark: Spark with Python (Python API)
    • Why PySpark?
    • Installing and configuration PySpark
    • Spark context, Spark Session
  • PySpark RDDs
    • Introduction to PySpark RDDs (Resilient Distributed Dataset)
    • RDDs operations
      1. Transformation
      2. Action
    • Working with PySpark RDDs
      1. Create RDD: parallelize(), textFile()
      2. RDD Transformations: map(), filter(), flatMap(), RDD1.union(RDD2)
      3. RDD Actions: collect(), take(), count(), first(), reduce(), saveAsTextFile(),…
      4. Pair RDDs:
        1. Create Pair RDDs from key-value tuple/ regular RDD
        2. Transformations: reduceByKey(), groupByKey(), sortByKey(), join()
        3. Actions: countByKey(), collectAsMap()
  • PySpark DataFrame
    • Introduction to PySpark DataFrame
    • Features and Advantages
    • Working with PySpark DataFrame
      1. Create DataFrame: createDataFrame(), spark.read.csv(), spark.read.json()
      2. printSchema(), show()
      3. count()
      4. describe()
      5. crosstab()
      6. groupby()
      7. select(), select() và agg, count, max, mean, min, sum..., select().distinct(),
      8. orderby().asc()/desc()
      9. withColumn(), withColumnRenamed()
      10. drop(), dropDuplicates(), dropna()
      11. filter(), where()
      12. Column string transformation
      13. Conditional clauses: .when(<if condition>, <then x>), .otherwise()
      14. User defined functions (UDF)
    • Data Visualization in PySpark using DataFrames
      1. hist(), distplot()
      2. pandas_histogram()
  • PySpark SQL
    • Introduction to PySpark SQL
    • Running SQL Queries Programmatically
      1. select()
      2. when()
      3. like()
      4. startswith(), endswith()
      5. substr(), between()
    • Manipulating data
      1. Group by
      2. Filtering
      3. Sorting
      4. Missing and replacing value
      5. Joining Data
      6. Repartitioning
      7. Registering DataFrames as Views
  • Data Preprocessing & Analysis
    • Wrangling with Spark Functions
      1. Dropping, Filtering, Joining
      2. Working with missing data
      3. Using lazy processing
      4. Parquet
      5. Removing, Splitting rows/columns
      6. Data validation
    • Feature Engineering
      1. Feature Generation
      2. Differences, Ratios
      3. Deeper Features, Time Features
      4. Time Components, Joining On Time Components
      5. Date Math
      6. Extracting Features/ Text to New Features
      7. Splitting & Exploding
      8. Scaling data
      9. Pivoting & Joining
      10. Binarizing, Bucketing & Encoding
      11. Binarizing Day of Week
      12. Bucketing
      13. One Hot Encoding
    • Data Analysis
      1. Exploratory Data Analysis (EDA), Corr
      2. Visualization: distplot, implot…
  • Overview of PySpark MLlib
    • Introduction to PySpark MLlib
    • PySpark MLlib algorithms
    • Building a Model
    • Estimator and evaluator
    • Cross-validation, Grid Search
    • Interpreting Results
  • Machine Learning with PySpark MLlib
    • Supervised Learning (Classification & Regression)
      1. Linear Regression (pyspark.ml.regression)
      2. Logistic Regression (pyspark.mllib.classification)
      3. Decision Tree (pyspark.mllib.classification)
      4. Random forest (pyspark.mllib.classification)
    • Unsupervised Learning (Clustering & Recommender System)
      1. Clustering with K-means (pyspark.mllib.clustering)
      2. Recommender System (pyspark.mllib.recommendation)
    • Pipeline
      1. Introduction to Pipeline
      2. Working with Pipeline (pyspark.ml import Pipeline)
  • PySpark Streaming
    • Introduction to PySpark Streaming
    • Why PySpark Streaming?
    • Features and Advantages
    • Streaming Context
    • DStream
    • Streaming Transformation Operations
    • Streaming Checkpoint
  • Apache Spark standalone cluster
    • Running Master Server
    • Connecting from Slave computers to Master Server
    • Deployment project in Mater – Slave computers system

Học viên thi đạt kết quả cuối môn học sẽ được cấp chứng nhận "Big Data in Machine Learning" do Trung Tâm Tin Học - Trường ĐH Khoa Học Tự Nhiên cấp.

LỊCH KHAI GIẢNG Xem thêm
Big Data in Machine Learning - 64 tiết (5 tuần)
Học phí : 5.800.000 đ
  • HV học qua lớp Machine Learning with Python hoặc có kiến thức tương đương
  • Ưu đãi đặc biệt: DUY NHẤT khóa 256, giảm 20% cho tất cả HV đăng kí 
LớpThời gianNgày khai giảngĐịa điểm học 
LDS9_256C7NThứ 7 (13.00 - 17.45) + Chủ nhật (13.00 - 17.45)15/02/2020137E Nguyễn Chí Thanh, Q.5Đăng ký
CÁC MÔN HỌC LIÊN QUAN
CHƯƠNG TRÌNH ĐÀO TẠO