Feature engineering
feature engineering (ํผ์ฒ ์์ง๋์ด๋ง)
์ต์ด ๋ฐ์ดํฐ์ ๋ํด ์ผ๋ จ์ ๊ณต์ ์ฒ๋ฆฌ๋ฅผ ๊ฐํด ํผ์ฒ๋ก ๋ง๋ค์ด ์๊ณ ๋ฆฌ์ฆ๊ณผ ๋ชจ๋ธ์์ ์ ๋ ฅ์ผ๋ก ์ฌ์ฉํ๋ ๊ฒ
- ๋ฐ์ดํฐ์ ๋ผ์ด ์๋ ์ก์(noise)์ ์ค๋ณต ๋ฐ์ดํฐ๋ฅผ ์ ๊ฑฐํ๊ณ ๋ ํจ์จ์ ์ธ ํผ์ฒ๋ฅผ ์ป์์ผ๋ก์จ ํด๊ฒฐํ๋ ค๋ ๋ฌธ์ ์ ์์ธก ๋ชจ๋ธ ๊ฐ์ ๊ด๊ณ๋ฅผ ์ค๋ช ํ๋ ๊ฒ์ด ๋ชฉ์
โป ํน์ฑ์ด ๋๋ฌด ๋ง์ผ๋ฉด training set์์ ๊ณผ๋์ ํฉ, test set์์ ๊ณผ์์ ํฉ
๋ฐ์ดํฐ ์ ํ
์ ํ ๋ฐ์ดํฐ
- ๊ด๊ณํ ๋ฐ์ดํฐ๋ฒ ์ด์ค์ ํ ์ด๋ธ
- ๊ฐ ์ด๋ง๋ค ๋งค์ฐ ๋ช ํํ๊ฒ ์ ์๊ฐ ๋์ด์๊ณ ์์นํ, ์นดํ ๊ณ ๋ฆฌํ ๋ฐ์ดํฐ๋ฅผ ํฌํจ
- ๊ฐ ํ์ ํ๋์ ์ํ์ ๋ํ ์ ๋ณด๋ฅผ ๋ด๊ณ ์์
๋น์ ํ ๋ฐ์ดํฐ
- ํ ์คํธ, ์ด๋ฏธ์ง, ์์ฑ, ๋น๋์ค ๋ฐ์ดํฐ ๋ฑ์ ํฌํจ
- ๊ฐ๋จํ ํ๋์ ์์น๋ก ํํํ๊ธฐ ํ๋ฆ
- ํด๋์ค์ ๋ํ ์ ์๋ ๋ถ๋ช ํํ๊ณ ๊ฐ ๋ฐ์ดํฐ์ ํฌ๊ธฐ ๋ํ ์ฒ์ฐจ๋ง๋ณ
Feature normalization
- ํผ์ฒ์ ๋ํ ์ ๊ทํ ์ฒ๋ฆฌ๋ฅผ ํตํด ์๋ก ๋ค๋ฅธ ์งํ๋ค์ ๋น๊ตํ ์ ์๋๋ก ๋ง๋ฆ ใ ๋ชจ๋ ํน์ง์ ๋๋ต์ ์ผ๋ก ๋น์ทํ ์์น ๊ตฌ๊ฐ ๋ด๋ก ์ด๋ e.g ์ฌ๋์ ํค์ ๋ชธ๋ฌด๊ฒ๊ฐ ๊ฑด๊ฐ์ ๋ฏธ์น๋ ์ํฅ โ m์ kg ๊ฐ์ ์๋ก ๋ค๋ฅธ ๋จ์๋ฅผ ๋์์ ์ฌ์ฉํ ๊ฒฝ์ฐ ๋ถ์ ๊ฒฐ๊ณผ๋ ์์น ๋ฒ์๊ฐ ๋น๊ต์ ๋์ ์ฒด์ค์ ํธํฅ(bias)๋ ๊ฒ. ๋ฐ๋ผ์ ๋ ์ ํํ ๊ฒฐ๊ณผ๋ฅผ ์ป๊ธฐ ์ํด ํผ์ฒ ์ ๊ทํ ์ฒ๋ฆฌ๋ฅผ ํด์ผ ํจ.
- ์ ํํ๊ท, ๋ก์ง์คํฑ ํ๊ท, ์ํฌํธ ๋ฒกํฐ ๋จธ์ , ์ ๊ฒฝ๋ง ๋ฑ์ ๋ชจ๋ธ์์๋ ์ผ๋ฐ์ ์ผ๋ก ์ ๊ทํ๋ฅผ ํจ
- ๊ฒฐ์ ํธ๋ฆฌ๋ชจ๋ธ์ ์ ๊ทํ๊ฐ ํ์ ์์
Min-Max Scaling (์ ํํจ์ ์ ๊ทํ)
- ๋ฐ์ดํฐ์ ๋ํด ์ ํ๋ณํ์ ์งํํด ๊ฒฐ๊ด๊ฐ์ด [0, 1] ๋ฒ์์ ํฌ์๋๋๋ก ๋ณํ = ๋ฐ์ดํฐ๋ฅผ ๋์ผํ ๋น์จ๋ก ์ถ์ํ๊ฑฐ๋ ํ๋
- $ X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$
- $ X_{max}, X_{min}$์ ๊ฐ๊ฐ ๋ฐ์ดํฐ์ ์ต๋๊ฐ๊ณผ ์ต์๊ฐ
z-score Normalization (ํ์ค ์ ๊ทํ)
- ๋ฐ์ดํฐ๋ฅผ ํ๊ท ์ด 0์ด๊ณ ํ์คํธ์ฐจ๊ฐ 1์ธ ๋ถํฌ์์ผ๋ก ํฌ์
- ํ๊ท ์ด $\mu$ ์ด๊ณ ํ์คํธ์ฐจ๊ฐ $\sigma$ ์ผ ๋ $z = \frac{x-\mu}{\sigma}$
โ ๋ ๋ง์ ๋ด์ฉ ๋ณด๋ฌ๊ฐ๊ธฐ click click! โ