Machine Learning - Data Preprocessing

Machine Learning - Data Preprocessing

LAVI

Dealing with Noise

降噪

  • Hinge loss function
    1
    max(0, 1-y(wx - b))
  • Hinge loss function 為 0,當 wx 在正確的 decision boundary
  • Hinge loss function 值與距離 decision boundary 成正比,當其不在 desision boundary 時

Dealing with Inherent Non-Linearity

  • kernel trick
    透過將二維轉成三維,使原本的 figure 變成 linearly separable

Missing Features

在資料集夠大的前提下,使用可以處理刪除 dataset 缺失特徵例子的演算法

Data Imputation

  • 用平均值替換特徵缺失的值
  • 用非常態分佈區間的值替換特徵缺失的值
  • 用中間值替換特徵缺失的值
  • 提升維度
  • 透過 regression model 預測特徵缺失的值
  • 用已經訓練好的模型預測替換特徵缺失的值

Normalization & Standardization

Normalization

轉換數字特徵至 standard range,通常是 [-1, 1][0, 1]
提高學習速度,確保輸入大致處於相對較小範圍內,避免產生 overflow 數字溢位問題

Standardization

資料的均值變為 0,結果分布具有單位標準差


圖片來源

μ 是所有 dataset 中 feature value 的平均值
σ 是與均值的標準差
當 μ = 0, σ = 1 時具有常態分佈的特性

unsupervised learning 通常偏好 standardization
因為如果某些特徵有離群值,Normalization 會擠壓到一個很小的範圍內,因此不好

Reference