Khóa học React Native
Khóa học Deep Learning với Python
Lịch khai giảng lập trình và CSDL
Tổng khai giảng khóa học Lập trình và CSDL
Khóa học lập trình viên Python
Khóa học Toán và thống kế
Khóa học lập trình web
Machine Learning Certificate

Big Data in Machine Learning

  • Khóa học trang bị cho học viên (HV) những kiến thức nền tảng về đặc điểm và các thành phần của Big Data
  • Giúp HV hiểu được giá trị mà Big Data mang lại doanh nghiệp
  • Cung cấp cho HV các phương pháp phân tích khoa học dữ liệu
  • Trang bị các kiến thức và kỹ năng làm việc với PySpark (Python package tích hợp Spark dùng để thực hiện tính toán song song với các bộ dữ liệu lớn) như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib… 
  • Giúp HV nắm bắt được các công nghệ sử dụng trong Big Data: cách lưu trữ, quản lý, xử lý và phân tích dữ liệu lớn để mang lại các số liệu theo yêu cầu của hoạt động doanh nghiệp.
  • Là khóa học cuối trong chương trình “Machine Learning Certificate
  • Là khóa học cuối trong chương trình “Data Science Certificate
 
  • HV học qua lớp Machine Learning with Python hoặc có kiến thức tương đương
  • Sinh viên các trường Đại học, Cao đẳng
  • HV có định hướng sẽ làm việc trong lĩnh vực Machine Learning hoặc Data Science
 
Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
  • Nắm vững các đặc điểm và thành phần của Big Data
  • Nắm vững các kỹ thuật xử lý và phân tích dữ liệu lớn
  • Làm việc với Spark, Big Data Technology mới nhất
  • Sử dụng Spark DataFrame, MLlib Machine Library với cú pháp DataFrame và Spark, Spark SQL,
  • Làm việc với các thư viện của PySpark như PySpark RDD’s, PySpark SQL & DataFrames, PySpark Mllib…
  • Vận dụng các kỹ thuật phân tích dữ liệu lớn để mang lại các số liệu thống kê theo yêu cầu của doanh nghiệp
  • Cơ hội việc làm ổn định tại các công ty xử lý và phân tích dữ liệu lớn trong và ngoài nước
 
  • Thời gian học: 5 tuần
  • Thời lượng: 48 tiết, học trực tiếp trên máy
  • Học phí:  5.000.000 đ

 

  • Introduction To Big Data
    • What is Big Data?
    • The Vs’ of Big Data
  • PySpark
    • PySpark: Spark with Python
    • Spark context, Spark Session, PySpark cell
    • Lambda with map(), filter()
    • Spark DataFrame
  • Programming in PySpark RDD’s
    • Abstraction Spark - resilient distributed dataset (RDD)
    • Abstracting Data with RDDs
    • RDDs from Parallelized collections, RDDs from External Datasets
    • Partitions in your data
    • Basic RDD Transformations and Actions
    • Map and Collect, Filter and Count
    • Pair RDDs in PySpark
    • ReduceBykey and Collect, SortByKey and Collect
    • Advanced RDD Actions
    • CountingBykeys
    • Create a base RDD and transform it
    • Remove stop words and reduce the dataset
    • Print word frequencies
  • PySpark SQL & DataFrames
    • Abstracting Data with DataFrames
    • RDD to DataFrame
    • Loading CSV into DataFrame
    • Operating on DataFrames in PySpark
    • Inspecting data in PySpark DataFrame
    • PySpark DataFrame subsetting and cleaning
    • Filtering your DataFrame
    • Interacting with DataFrames using PySpark SQL
    • Running SQL Queries Programmatically
    • SQL queries for filtering Table
    • Data Visualization in PySpark using DataFrames
    • PySpark DataFrame visualization
    • Create a DataFrame from CSV file
    • SQL Queries on DataFrame
    • Data visualization
  • Manipulating data
    • SQL in nutshell
    • Filter, Select
    • Aggregating, Group & Aggregating
    • Join
  • Data Analysis
    • EDA, Corr
    • Visualization: distplot, implot
  • Wrangling with Spark Functions
    • Drop, Filter, Scaling
    • Working with missing data
    • Join
  • Feature Engineering
    • Feature Generation
    • Differences
    • Ratios
    • Deeper Features, Time Features
    • Time Components, Joining On Time Components
    • Date Math
    • Extracting Features, Extracting Text to New Features
    • Splitting & Exploding
    • Pivot & Join
    • Binarizing, Bucketing & Encoding
    • Binarizing Day of Week
    • Bucketing
    • One Hot Encoding
  • Building a Model
    • Choosing the Algorithm
    • Which MLlib Module?
    • Creating Time Splits
    • Adjusting Time Features
    • Feature Engineering Assumptions for RFR
    • Feature Engineering For Random Forests
    • Dropping Columns with Low Observations
    • Naively Handling Missing and Categorical Values
    • Building a Model
    • Evaluating & Comparing Algorithms
    • Interpreting Results
  • Machine Learning with PySpark MLlib
    • PySpark MF libraries
    • PySpark MLlib algorithms
    • Collaborative filtering
    • Loading Movie Lens dataset into RDDs
    • Model training & predictions
    • Model evaluation using MSE
    • Classification
    • Loading spam & non-spam data
    • Feature hashing & LabelPoint
    • Logistic Regression model training
    • Clustering
    • Loading & parsing the 5000 points data
    • K-means training
 

Học viên thi đạt kết quả cuối môn học sẽ được cấp chứng chỉ "Big Data in Machine Learning" do Trung Tâm Tin Học - Trường ĐH Khoa Học Tự Nhiên cấp.

LỊCH KHAI GIẢNG Xem thêm
CÁC MÔN HỌC LIÊN QUAN
CHƯƠNG TRÌNH ĐÀO TẠO