ํƒœ๊ทธ ๋ณด๊ด€๋ฌผ: algorithms

algorithms

PCA, LASSO, ํƒ„๋ ฅ์  ๋„คํŠธ์›Œํฌ์˜ ์†๋„, ๊ณ„์‚ฐ ๋น„์šฉ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ต์€ ๋ฌธ์ œ์˜ ์ฐจ์›๊ณผ ๊ทธ๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ์ปดํ“จํ„ฐ

๋‚˜๋Š” Hastie et al. โ€œํ†ต๊ณ„ํ•™ ํ•™์Šต ์š”์†Œโ€(2 ํŒ), 3 ์žฅ :

  1. ์„œ๋ธŒ ์„ธํŠธ ์„ ํƒ
  2. ์ˆ˜์ถ• ๋ฐฉ๋ฒ•
  3. ๋„์ถœ ๋œ ์ž…๋ ฅ ๋ฐฉํ–ฅ์„ ์‚ฌ์šฉํ•˜๋Š” ๋ฐฉ๋ฒ• (PCR, PLS)

์•„์ด๋””์–ด๋ฅผ ์ œ๊ณตํ•˜๊ธฐ ์œ„ํ•ด ๋น„๊ต๊ฐ€ ๋งค์šฐ ์–ด๋ ค์šธ ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‹ต์€ ๋ฌธ์ œ์˜ ์ฐจ์›๊ณผ ๊ทธ๊ฒƒ์ด ์–ด๋–ป๊ฒŒ ์ปดํ“จํ„ฐ ์•„ํ‚คํ…์ฒ˜์— ์ ํ•ฉํ•œ ์ง€์— ๋”ฐ๋ผ ๋‹ฌ๋ผ์งˆ ์ˆ˜ ์žˆ์œผ๋ฏ€๋กœ ๊ตฌ์ฒด์ ์ธ ์˜ˆ๋ฅผ ๋“ค์–ด 500 ๋ฐ 50 ํ›„๋ณด ํšŒ๊ท€ ๋ถ„์„๊ธฐ์˜ ํ‘œ๋ณธ ํฌ๊ธฐ๋ฅผ ๊ณ ๋ คํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. ๋‚˜๋Š” ์ฃผ๋กœ ๊ณ„์‚ฐ ๋ณต์žก์„ฑ / ์ถ”์ • ์†๋„์˜ ๋™๊ธฐ์— ๊ด€์‹ฌ์ด ์žˆ์ง€๋งŒ ์ฃผ์–ด์ง„ ์˜ˆ์ œ์—์„œ ํŠน์ • ํ”„๋กœ์„ธ์„œ์— ๊ฑธ๋ฆฌ๋Š” ์‹œ๊ฐ„์€ ์•„๋‹™๋‹ˆ๋‹ค.



๋‹ต๋ณ€

๊ทธ๋ฃน 1 : ๊ทธ๋ฃน 1
์˜ ๋ณต์žก์„ฑ / ์†๋„๋Š” ๋ฌด์ฐจ๋ณ„ ๋Œ€์ž… ์•Œ๊ณ ๋ฆฌ์ฆ˜์ด ์‚ฌ์šฉ๋˜๋Š”์ง€ ํŒŒ์•…ํ•˜๊ธฐ ์–ด๋ ต์ง€ ์•Š์€ ๊ฒƒ์œผ๋กœ ๋ณด์ž…๋‹ˆ๋‹ค ( โ€œ๋ฆฌํ”„ ์•ค ๋ฐ”์šด๋“œโ€์•Œ๊ณ ๋ฆฌ์ฆ˜๊ณผ ๊ฐ™์€๋ณด๋‹ค ํšจ์œจ์ ์ธ ๋Œ€์•ˆ์ด์žˆ์„ ์ˆ˜ ์žˆ์Œ). ์˜ˆ๋ฅผ ๋“ค์–ด, ์ „์ฒด ์ง‘ํ•ฉ ์„ ํƒ์ด ํ•„์š”ํ•ฉ๋‹ˆ๋‹ค ํ’€ ์ฃผ์–ด์ง„ ์ ํ•ฉํ•˜๊ธฐ ์œ„ํ•ด ํšŒ๊ท€ ๋ถ„์„์„ K์˜ ํ›„๋ณด์˜ ๊ธฐ๋Šฅ์„ ์ œ๊ณตํ•ฉ๋‹ˆ๋‹ค. ํ•˜๋‚˜์˜ ์„ ํ˜• ํšŒ๊ท€์— ๋Œ€ํ•œ OLS ํ”ผํŒ…์€ ( ์ด ๊ฒŒ์‹œ๋ฌผ์— ๋”ฐ๋ผ ) O ( K 2 n ) ์˜ ๋ณต์žก์„ฑ์„ ๊ฐ€์ง€๋ฉฐ, ์—ฌ๊ธฐ์„œ n ์€ ์ƒ˜ํ”Œ ํฌ๊ธฐ์ž…๋‹ˆ๋‹ค. ๋”ฐ๋ผ์„œ ๋ฌด์ฐจ๋ณ„ ์™„์ „ ํ•˜์œ„ ์ง‘ํ•ฉ ์„ ํƒ์˜ ์ด ๋ณต์žก๋„๋Š” O ( 2 K ์—ฌ์•ผํ•ฉ๋‹ˆ๋‹ค.

2์ผ€์ด

์ผ€์ด

์˜ํ˜•(์ผ€์ด2์—”)

์—”

.

์˜ํ˜•(2์ผ€์ด์ผ€์ด2์—”)

๊ทธ๋ฃน 2 : ๊ทธ๋ฃน 2
์˜ ๋ณต์žก์„ฑ / ์†๋„๋Š”์ด ์ฑ…์˜ ์„น์…˜ 3.8๊ณผ 3.9์—์„œ ๋…ผ์˜๋ฉ๋‹ˆ๋‹ค. ์˜ˆ๋ฅผ ๋“ค์–ด, ์ฃผ์–ด์ง„ ํŽ˜๋„ํ‹ฐ ฮป์˜ ๋Šฅ์„  ํšŒ๊ท€ ๋Š” ์ •๊ทœ ํšŒ๊ท€์™€ ๋™์ผํ•œ ๊ณ„์‚ฐ ๋ณต์žก๋„๋ฅผ ๊ฐ–์Šต๋‹ˆ๋‹ค. ๊ต์ฐจ ๊ฒ€์ฆ์„ ์‚ฌ์šฉํ•˜์—ฌ ฮป ๋ฅผ ์ฐพ์•„์•ผ ํ•˜๋ฏ€๋กœ ๊ต์ฐจ ๊ฒ€์ฆ์— ์‚ฌ์šฉ๋˜๋Š” ๋ฐ์ดํ„ฐ ๋ถ„ํ•  ์ˆ˜ (์˜ˆ : S ) ์—์„œ ๊ณ„์‚ฐ ๋ถ€ํ•˜๊ฐ€ ์„ ํ˜•์œผ๋กœ ์ฆ๊ฐ€ ํ•ฉ๋‹ˆ๋‹ค. ๊ฒฝ์šฐ] ฮป์˜ ๊ฒฉ์ž ๊ฐ–๋Š” L์˜ ํฌ์ธํŠธ, ๋ฆฌ์ง€ ํšŒ๊ท€์˜ ์ด ๋ณต์žก๋„ ์™€ ๋™์กฐ ฮป์˜ ํŒŒ๋ผ๋ฏธํ„ฐ ๊ฒƒ์ด๋‹ค O ( L S K 2 N ) .

ฮป

ฮป

์—์Šค

ฮป

์—˜

ฮป

์˜ํ˜•(์—˜์—์Šค์ผ€์ด2์—”)


ฮป

ฮป

์˜ํ˜•(์—˜์—์Šค์ผ€์ด2์—”)


์˜ํ˜•(ใ…์—˜์—์Šค์ผ€์ด2์—”)

ใ…

ฮฑ

๊ทธ๋ฃน 3 :
๋‚˜๋Š” ์•„์ง๋„ ๊ทธ๋ฆฌ์›Œ ์ฃผ์„ฑ๋ถ„ ํšŒ๊ท€ (PCR)๊ณผ ๋ถ€๋ถ„ ์ตœ์†Œ ์ œ๊ณฑ (PLS)์œผ๋กœ ๊ตฌ์„ฑ๋˜์–ด ๊ทธ๋ฃน 3์˜ ๋ณต์žก์„ฑ / ์†๋„์— ์–ด๋–ค ๋ฉ”๋ชจ๋ฅผ.


๋‹ต๋ณ€

์œ„์˜ ๊ทธ๋ฃน 3์— ๋Œ€ํ•œ ์งˆ๋ฌธ 2์˜ ํ•œ ๋ถ€๋ถ„ (์ฆ‰, PLS)์—๋งŒ ํ•ด๋‹น๋˜์ง€๋งŒ ๊ทธ๋Ÿผ์—๋„ ๋ถˆ๊ตฌํ•˜๊ณ  ์œ ์ต ํ•  ์ˆ˜ ์žˆ์Šต๋‹ˆ๋‹ค. Srinivasan et al (2010, ๊ธฐ์ˆ  ๋ณด๊ณ ์„œ; https://www.umiacs.umd.edu/~balajiv/Papers/ ์ฐธ์กฐ) UMD_CS_TR_Pls_Gpu.pdf )๋Š” NIPALS ์•Œ๊ณ ๋ฆฌ์ฆ˜์„ ์‚ฌ์šฉํ•˜์—ฌ PLS์—์„œ ์ผ๋ถ€ ์ธก์ •์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.์ด ์•Œ๊ณ ๋ฆฌ์ฆ˜์˜ ์‹œ๊ฐ„ ๋ฐ ๊ณต๊ฐ„ ๋ณต์žก๋„๋Š” O (dN)-์ถ”์ถœ ๋ฐ ์ถ”์ถœ์„ ์œ„ํ•ด ์„œ๋กœ ๋‹ค๋ฅธ ๋ชจ๋ธ์— ํฌํ•จํ•ฉ๋‹ˆ๋‹ค. ) ์–ผ๊ตด ์ธ์‹. ์ž์ฒด GPU ๊ธฐ๋ฐ˜ ๊ตฌํ˜„์„ ์‚ฌ์šฉํ•˜์—ฌ ์ธก์ •์„ ์ˆ˜ํ–‰ํ–ˆ์Šต๋‹ˆ๋‹ค.


๋‹ต๋ณ€