Feature engineering

feature engineering (ํ”ผ์ฒ˜ ์—”์ง€๋‹ˆ์–ด๋ง)

์ตœ์ดˆ ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์ผ๋ จ์˜ ๊ณต์ • ์ฒ˜๋ฆฌ๋ฅผ ๊ฐ€ํ•ด ํ”ผ์ฒ˜๋กœ ๋งŒ๋“ค์–ด ์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๋ชจ๋ธ์—์„œ ์ž…๋ ฅ์œผ๋กœ ์‚ฌ์šฉํ•˜๋Š” ๊ฒƒ

  • ๋ฐ์ดํ„ฐ์— ๋ผ์–ด ์žˆ๋Š” ์žก์Œ(noise)์™€ ์ค‘๋ณต ๋ฐ์ดํ„ฐ๋ฅผ ์ œ๊ฑฐํ•˜๊ณ  ๋” ํšจ์œจ์ ์ธ ํ”ผ์ฒ˜๋ฅผ ์–ป์Œ์œผ๋กœ์จ ํ•ด๊ฒฐํ•˜๋ ค๋Š” ๋ฌธ์ œ์™€ ์˜ˆ์ธก ๋ชจ๋ธ ๊ฐ„์˜ ๊ด€๊ณ„๋ฅผ ์„ค๋ช…ํ•˜๋Š” ๊ฒƒ์ด ๋ชฉ์ 

โ€ป ํŠน์„ฑ์ด ๋„ˆ๋ฌด ๋งŽ์œผ๋ฉด training set์—์„œ ๊ณผ๋Œ€์ ํ•ฉ, test set์—์„œ ๊ณผ์†Œ์ ํ•ฉ


๋ฐ์ดํ„ฐ ์œ ํ˜•

์ •ํ˜• ๋ฐ์ดํ„ฐ
  • ๊ด€๊ณ„ํ˜• ๋ฐ์ดํ„ฐ๋ฒ ์ด์Šค์˜ ํ…Œ์ด๋ธ”
  • ๊ฐ ์—ด๋งˆ๋‹ค ๋งค์šฐ ๋ช…ํ™•ํ•˜๊ฒŒ ์ •์˜๊ฐ€ ๋˜์–ด์žˆ๊ณ  ์ˆ˜์น˜ํ˜•, ์นดํ…Œ๊ณ ๋ฆฌํ˜• ๋ฐ์ดํ„ฐ๋ฅผ ํฌํ•จ
  • ๊ฐ ํ–‰์€ ํ•˜๋‚˜์˜ ์ƒ˜ํ”Œ์— ๋Œ€ํ•œ ์ •๋ณด๋ฅผ ๋‹ด๊ณ  ์žˆ์Œ
๋น„์ •ํ˜• ๋ฐ์ดํ„ฐ
  • ํ…์ŠคํŠธ, ์ด๋ฏธ์ง€, ์Œ์„ฑ, ๋น„๋””์˜ค ๋ฐ์ดํ„ฐ ๋“ฑ์„ ํฌํ•จ
  • ๊ฐ„๋‹จํ•œ ํ•˜๋‚˜์˜ ์ˆ˜์น˜๋กœ ํ‘œํ˜„ํ•˜๊ธฐ ํž˜๋“ฆ
  • ํด๋ž˜์Šค์— ๋Œ€ํ•œ ์ •์˜๋„ ๋ถˆ๋ช…ํ™•ํ•˜๊ณ  ๊ฐ ๋ฐ์ดํ„ฐ์˜ ํฌ๊ธฐ ๋˜ํ•œ ์ฒœ์ฐจ๋งŒ๋ณ„


Feature normalization

  • ํ”ผ์ฒ˜์— ๋Œ€ํ•œ ์ •๊ทœํ™” ์ฒ˜๋ฆฌ๋ฅผ ํ†ตํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ์ง€ํ‘œ๋“ค์„ ๋น„๊ตํ•  ์ˆ˜ ์žˆ๋„๋ก ๋งŒ๋“ฆ ใ€“ ๋ชจ๋“  ํŠน์ง•์„ ๋Œ€๋žต์ ์œผ๋กœ ๋น„์Šทํ•œ ์ˆ˜์น˜ ๊ตฌ๊ฐ„ ๋‚ด๋กœ ์ด๋™ e.g ์‚ฌ๋žŒ์˜ ํ‚ค์™€ ๋ชธ๋ฌด๊ฒŒ๊ฐ€ ๊ฑด๊ฐ•์— ๋ฏธ์น˜๋Š” ์˜ํ–ฅ โ†’ m์™€ kg ๊ฐ™์€ ์„œ๋กœ ๋‹ค๋ฅธ ๋‹จ์œ„๋ฅผ ๋™์‹œ์— ์‚ฌ์šฉํ•  ๊ฒฝ์šฐ ๋ถ„์„ ๊ฒฐ๊ณผ๋Š” ์ˆ˜์น˜ ๋ฒ”์œ„๊ฐ€ ๋น„๊ต์  ๋„“์€ ์ฒด์ค‘์— ํŽธํ–ฅ(bias)๋  ๊ฒƒ. ๋”ฐ๋ผ์„œ ๋” ์ •ํ™•ํ•œ ๊ฒฐ๊ณผ๋ฅผ ์–ป๊ธฐ ์œ„ํ•ด ํ”ผ์ฒ˜ ์ •๊ทœํ™” ์ฒ˜๋ฆฌ๋ฅผ ํ•ด์•ผ ํ•จ.
  • ์„ ํ˜•ํšŒ๊ท€, ๋กœ์ง€์Šคํ‹ฑ ํšŒ๊ท€, ์„œํฌํŠธ ๋ฒกํ„ฐ ๋จธ์‹ , ์‹ ๊ฒฝ๋ง ๋“ฑ์˜ ๋ชจ๋ธ์—์„œ๋Š” ์ผ๋ฐ˜์ ์œผ๋กœ ์ •๊ทœํ™”๋ฅผ ํ•จ
  • ๊ฒฐ์ •ํŠธ๋ฆฌ๋ชจ๋ธ์€ ์ •๊ทœํ™”๊ฐ€ ํ•„์š” ์—†์Œ
Min-Max Scaling (์„ ํ˜•ํ•จ์ˆ˜ ์ •๊ทœํ™”)
  • ๋ฐ์ดํ„ฐ์— ๋Œ€ํ•ด ์„ ํ˜•๋ณ€ํ™˜์„ ์ง„ํ–‰ํ•ด ๊ฒฐ๊ด๊ฐ’์ด [0, 1] ๋ฒ”์œ„์— ํˆฌ์˜๋˜๋„๋ก ๋ณ€ํ˜• = ๋ฐ์ดํ„ฐ๋ฅผ ๋™์ผํ•œ ๋น„์œจ๋กœ ์ถ•์†Œํ•˜๊ฑฐ๋‚˜ ํ™•๋Œ€
  • $ X_{norm} = \frac{X - X_{min}}{X_{max} - X_{min}}$
  • $ X_{max}, X_{min}$์€ ๊ฐ๊ฐ ๋ฐ์ดํ„ฐ์˜ ์ตœ๋Œ“๊ฐ’๊ณผ ์ตœ์†Ÿ๊ฐ’
z-score Normalization (ํ‘œ์ค€ ์ •๊ทœํ™”)
  • ๋ฐ์ดํ„ฐ๋ฅผ ํ‰๊ท ์ด 0์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ 1์ธ ๋ถ„ํฌ์ƒ์œผ๋กœ ํˆฌ์˜
  • ํ‰๊ท ์ด $\mu$ ์ด๊ณ  ํ‘œ์ค€ํŽธ์ฐจ๊ฐ€ $\sigma$ ์ผ ๋•Œ $z = \frac{x-\mu}{\sigma}$


โ˜… ๋” ๋งŽ์€ ๋‚ด์šฉ ๋ณด๋Ÿฌ๊ฐ€๊ธฐ click click! โ˜