Machine Learning - Data Preprocessing
Dealing with Noise
降噪
- Hinge loss function
1
max(0, 1-y(wx - b))
- Hinge loss function 為 0,當 wx 在正確的 decision boundary
- Hinge loss function 值與距離 decision boundary 成正比,當其不在 desision boundary 時
Dealing with Inherent Non-Linearity
- kernel trick
透過將二維轉成三維,使原本的 figure 變成 linearly separable
Missing Features
在資料集夠大的前提下,使用可以處理刪除 dataset 缺失特徵例子的演算法
Data Imputation
- 用平均值替換特徵缺失的值
- 用非常態分佈區間的值替換特徵缺失的值
- 用中間值替換特徵缺失的值
- 提升維度
- 透過 regression model 預測特徵缺失的值
- 用已經訓練好的模型預測替換特徵缺失的值
Normalization & Standardization
Normalization
轉換數字特徵至 standard range,通常是 [-1, 1]
或 [0, 1]
提高學習速度,確保輸入大致處於相對較小範圍內,避免產生 overflow 數字溢位問題
Standardization
資料的均值變為 0,結果分布具有單位標準差
μ 是所有 dataset 中 feature value 的平均值
σ 是與均值的標準差
當 μ = 0, σ = 1 時具有常態分佈的特性
unsupervised learning 通常偏好 standardization
因為如果某些特徵有離群值,Normalization 會擠壓到一個很小的範圍內,因此不好
Reference
- Hundred-Page Machine learning Book by A. Burkov
- 黃貞瑛老師的機器學習課程
- 許見章老師的人工智慧課程
- 資料前處理 — 標準化、偏態