Chi tiết Khóa học

Data Pre-processing and Analysis

  • Khóa học cung cấp cho học viên (HV) các kiến thức và kỹ năng cần thiết khi thực hiện việc tiền xử lý và phân tích dữ liệu.
  • Trang bị cho HV những kỹ thuật khai thác dữ liệu, chuyển đổi dữ liệu thô thành dữ liệu có định dạng dễ hiểu
  • Hướng dẫn HV cách chuẩn bị dữ liệu để phân tích, thực hiện phân tích thống kê, tạo trực quan hóa dữ liệu có ý nghĩa
  • Cung cấp cho HV các thư viện tiền xử lý và phân tích dữ liệu mạnh mẽ và ưu việt của Python như Numpy, Scipy, Pandas, Matplotlib, Seaborn, pandas profiling, dataprep…
  • Hướng dẫn cách tiền xử lý dữ liệu tiếng Anh, tiếng Việt
  • Cung cấp cho HV quy trình quản lý phân tích dữ liệu hiệu quả
  • Hướng dẫn HV sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning giúp xây dựng các mô hình dự đoán thông minh
  • Là khóa học thứ năm trong chương trình “Data Science and Machine Learning Certificate
  • Khóa học cung cấp cho học viên (HV) các kiến thức và kỹ năng cần thiết khi thực hiện việc tiền xử lý và phân tích dữ liệu.
  • Trang bị cho HV những kỹ thuật khai thác dữ liệu, chuyển đổi dữ liệu thô thành dữ liệu có định dạng dễ hiểu
  • Hướng dẫn HV cách chuẩn bị dữ liệu để phân tích, thực hiện phân tích thống kê, tạo trực quan hóa dữ liệu có ý nghĩa
  • Cung cấp cho HV các thư viện tiền xử lý và phân tích dữ liệu mạnh mẽ và ưu việt của Python như Numpy, Scipy, Pandas, Matplotlib, Seaborn, pandas profiling, dataprep…
  • Hướng dẫn cách tiền xử lý dữ liệu tiếng Anh, tiếng Việt
  • Cung cấp cho HV quy trình quản lý phân tích dữ liệu hiệu quả
  • Hướng dẫn HV sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning giúp xây dựng các mô hình dự đoán thông minh
  • Là khóa học thứ năm trong chương trình “Data Science and Machine Learning Certificate

Sẽ rất hữu ích nếu bạn là:

Bạn sẽ nhận được gì qua khóa học?

Sau khi hoàn thành khóa học, học viên sẽ đạt được các kỹ năng:
  • Hiểu và vận dụng các bước trong quy trình tiền xử lý dữ liệu (Data Pre-processing) khi triển khai dự án Data Science
  • Nắm được quy trình và kỹ thuật phân tích dữ liệu (Data Analysis)
  • Phân tích dữ liệu khám phá (Exploratory Data Analysis - EDA) để có cái nhìn ban đầu về dữ liệu, xác định các yếu tố quan trọng trong bộ dữ liệu
  • Thực hiện các thao tác làm sạch dữ liệu (Data Cleaning)
  • Áp dụng linh hoạt các kỹ thuật chuẩn hóa dữ liệu (Data Standardization) khác nhau tùy vào các bộ dữ liệu và yêu cầu của dự án
  • Tạo các tính năng cần thiết (Feature Engineering)
  • Tiền xử lý dữ liệu tiếng Anh, tiếng Việt
  • Phân tích, triển khai và đánh giá mô hình phân tích dữ liệu
  • Giải thích kết quả từ các phân tích dữ liệu
  • Quy trình quản lý phân tích dữ liệu hiệu quả
  • Sử dụng thư viện mã nguồn mở sklearn để triển khai một số thuật toán Machine Learning
  • Kết hợp trực quan hóa dữ liệu, kết quả thống kê để tạo các báo cáo phân tích dữ liệu mạch lạc, thuyết phục

Khoản đầu tư dành cho khóa học

  • Thời lượng:53 tiết (5 tuần), học trực tiếp trên máy
  • Học phí: 5.500.000đ

Bạn sẽ học những gì?

Phần 1: Data Pre-processing

  • Tổng quan
    • Giới thiệu Pre-processing
    • Tầm quan trọng của Pre-processing
  • Data Understanding (Hiểu dữ liệu)
    • Import dataset
    • Export dataset
    • Phân tích sơ bộ
  • Quy trình Pre-processing
    • Import libraries
    • Đọc dữ liệu
    • Kiểm tra dữ liệu thiếu (missing values)
    • Kiểm tra dữ liệu phân loại (categorical data)
    • Chuẩn hóa dữ liệu (Data standardizing)
    • PCA transformation
    • Data splitting
  • Chuẩn hóa dữ liệu
    • Missing Values: xử lý Missing Value dùng drop, thay thế bằng giá trị mean, median hoặc mode
    • Data Formatting
    • Log normalization
    • Feauture Scaling
      1. Standard scaler
      2. MinMax scaler
      3. Robust scaler
    • Feature Engineering (Encoding categorical data)
      1. Label Encoder
      2. Binary Encoder
      3. One hot Encoder
      4. Numeric feature: average, datetime
      5. String feature: extraction, tf/idf vectors
      6. Dummy Variables
    • Binning
      1. Binning
      2. Pivot
    • Lựa chọn feature
      1. Xác định/ lựa chọn các feature cần thiết
      2. Kiểm tra Correlated Features
      3. Tìm hiểu text vector
    • Tiền xử lý ngôn ngữ tự nhiên
      1. Công cụ và kỹ năng làm việc với ngôn ngữ tiếng Anh
      2. Công cụ và kỹ năng làm việc với ngôn ngữ tiếng Việt  
    • Xử lý dữ liệu mất cân bằng (Imbalanced Dataset)
      1. Các chiến thuật làm việc với dữ liệu mất cân bằng

Phần 2: Data Analysis

  • Data Storytelling (Trực quan hóa dữ liệu)
    • Kỹ năng trực quan hóa dữ liệu
    • Ôn tập trực quan hóa dữ liệu với Matplotlib, Seaborn
  • Quy trình quản lý phân tích dữ liệu
    • Data Analysis Iteration
    • Các giai đoạn của phân tích dữ liệu
    • Các loại câu hỏi, đặc điểm của câu hỏi tốt
    • Mục tiêu và kỳ vọng của khám phá Data Analysis
    • Sử dụng các mô hình thống kê để khám phá dữ liệu
    • Khám phá Phân tích dữ liệu
    • Suy luận từ dữ liệu
    • Phân tích kết hợp (Associational Analysis)
    • Phân tích dự đoán (Prediction Analysis)
    • Giải thích kết quả
    • Báo cáo/ thuyết trình phân tích dữ liệu
  • Khám phá Data Analysis
    • Descriptive Statistics (thống kê mô tả)
    • Tìm hiểu Categorical Data
    • Tìm hiểu Numerical Data
    • Group by
    • Correlation
    • Correlation Statistics
    • Mô tả phân phối dữ liệu
    • Phân tích ANOVA
  • Model deployment (triển khai model)
    • Linear Regression (Symple Linear Regression, Multiple Linear Regression)
    • Đánh giá model
    • Polynomial Regression
    • Pipelines
    • Đo lường kết quả
    • Dự đoán và ra quyết định
  • Model evaluation (Đánh giá model)
    • Model Evaluation & Refinement (Đánh giá và sàng lọc model)
    • Model Selection

 

Lộ trình học

BẰNG CẤP - CHỨNG CHỈ

Học viên thi đạt kết quả cuối môn học sẽ được cấp chứng nhận "Data Pre-processing and Analysis" do Trung Tâm Tin Học - Trường ĐH Khoa Học Tự Nhiên cấp.