νƒœκ·Έ 보관물: density-estimation

density-estimation

ν‰μ‹ λ„μ˜ κ΄€μ μ—μ„œ Parzen μ°½ (컀널) 밀도 좔정을 μ„€λͺ… ν•  수 μžˆμŠ΅λ‹ˆκΉŒ? ν™•λ₯  밀도 , 파젠

Parzen μ°½ 밀도 좔정은 λ‹€μŒκ³Ό 같이 μ„€λͺ…λ©λ‹ˆλ‹€

p(x)=1nβˆ‘i=1n1h2Ο•(xiβˆ’xh)

μ—¬κΈ°μ„œ, λ²‘ν„°μ˜ μš”μ†Œ 수이고, 벑터이며, 의 ν™•λ₯  밀도 , 파젠 μœˆλ„μš°μ˜ μ‚¬μ΄μ¦ˆμ΄κ³ , μœˆλ„μš° ν•¨μˆ˜μ΄λ‹€.x p ( x ) x h Ο•

n

x

p(x)

x

h

Ο•

λ‚΄ μ§ˆλ¬Έμ€ :

  1. Parzen Window Functionκ³Ό Gaussian Function λ“±κ³Ό 같은 λ‹€λ₯Έ 밀도 κΈ°λŠ₯의 κΈ°λ³Έ 차이점은 λ¬΄μ—‡μž…λ‹ˆκΉŒ?

  2. 의 밀도λ₯Ό μ°ΎλŠ” 데 μœˆλ„μš° ν•¨μˆ˜ ( ) 의 역할은 λ¬΄μ—‡μž…λ‹ˆκΉŒ ?x

    Ο•

    x
  3. μ™œ Window ν•¨μˆ˜ λŒ€μ‹  λ‹€λ₯Έ 밀도 ν•¨μˆ˜λ₯Ό μ—°κ²°ν•  수 μžˆμŠ΅λ‹ˆκΉŒ?

  4. 의 밀도λ₯Ό μ°ΎλŠ” λ°μžˆμ–΄ 의 역할은 λ¬΄μ—‡μž…λ‹ˆκΉŒ ?x

    h

    x


λ‹΅λ³€

Parzen μ°½ 밀도 μΆ”μ • 은 컀널 밀도 μΆ”μ •μ˜ 또 λ‹€λ₯Έ μ΄λ¦„μž…λ‹ˆλ‹€ . λ°μ΄ν„°μ—μ„œ 연속 밀도 ν•¨μˆ˜λ₯Ό μΆ”μ •ν•˜κΈ°μœ„ν•œ λΉ„λͺ¨μˆ˜ 적 λ°©λ²•μž…λ‹ˆλ‹€.

일반적으둜 μ•Œλ €μ§€μ§€ μ•Šμ€, μ•„λ§ˆλ„ 연속적인 뢄포 μ—μ„œ λ‚˜μ˜¨ 데이터 포인트 μžˆλ‹€κ³  κ°€μ • ν•©λ‹ˆλ‹€. 데이터가 주어진 뢄포λ₯Ό μΆ”μ •ν•˜λŠ” 데 관심이 μžˆμŠ΅λ‹ˆλ‹€. 당신이 ν•  μˆ˜μžˆλŠ” ν•œ 가지 일은 λ‹¨μˆœνžˆ κ²½ν—˜μ  뢄포λ₯Όλ³΄κ³  그것을 μ‹€μ œ 뢄포와 λ™λ“±ν•œ ν‘œλ³ΈμœΌλ‘œ μ·¨κΈ‰ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 데이터가 연속적이라면 각 κ°€ ν‘œμ‹œ 될 κ²ƒμž…λ‹ˆλ‹€.

x1,…,xn

f

xi

점은 데이터 μ„ΈνŠΈμ— ν•œ 번만 λ‚˜νƒ€λ‚˜λ―€λ‘œμ΄λ₯Ό 기반으둜 각 κ°’μ˜ ν™•λ₯ μ΄ λ™μΌν•˜λ―€λ‘œ 데이터가 균일 ν•œ λΆ„ν¬μ—μ„œ λ‚˜μ˜¨ κ²ƒμœΌλ‘œ 결둠을 내릴 수 μžˆμŠ΅λ‹ˆλ‹€. λ°”λΌκ±΄λŒ€, 당신은 이것보닀 더 잘 ν•  수 μžˆμŠ΅λ‹ˆλ‹€ : 당신은 μΌμ •ν•œ κ°„κ²©μœΌλ‘œ λͺ‡ 개의 κ°„κ²©μœΌλ‘œ 데이터λ₯Ό 포μž₯ν•˜κ³  각 간격에 ν•΄λ‹Ήν•˜λŠ” 값을 계산할 수 μžˆμŠ΅λ‹ˆλ‹€. 이 방법은 νžˆμŠ€ν† κ·Έλž¨ 좔정을 κΈ°λ°˜μœΌλ‘œν•©λ‹ˆλ‹€ . λΆˆν–‰νžˆλ„, νžˆμŠ€ν† κ·Έλž¨μ„ μ‚¬μš©ν•˜λ©΄ 연속 뢄포가 μ•„λ‹Œ λͺ‡ 개의 빈으둜 λλ‚˜λ―€λ‘œ λŒ€λž΅μ μΈ κ·Όμ‚¬μΉ˜ μΌλΏμž…λ‹ˆλ‹€.

컀널 밀도 μΆ”μ • 이 μ„Έ 번째 λŒ€μ•ˆμž…λ‹ˆλ‹€. μ£Όμš” μ•„μ΄λ””μ–΄λŠ” 데이터 포인트λ₯Ό μ€‘μ‹¬μœΌλ‘œν•˜κ³  (μŠ€μΌ€μΌ ( λŒ€μ—­ν­ )) κ°€μžˆλŠ” 컀널 μ΄λΌλŠ” 연속 뢄포 (λ…Έν…Œμ΄μ…˜ μ‚¬μš©) 의 ν˜Όν•© 에 μ˜ν•΄ λ₯Ό κ·Όμ‚¬ν•œλ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€ .

f

K

Ο•

x i h

xi

h

fh^(x)=1nhβˆ‘i=1nK(xβˆ’xih)

이것은 μ•„λž˜ 그림에 λ‚˜μ™€ μžˆμŠ΅λ‹ˆλ‹€. μ •κ·œ λΆ„ν¬λŠ” 컀널 둜 μ‚¬μš©λ˜λ©° λŒ€μ—­ν­ λŒ€ν•œ μ„œλ‘œ λ‹€λ₯Έ κ°’ 은 7 개의 데이터 포인트 (ν”Œλ‘― 상단에 ν™”λ €ν•œ μ„ μœΌλ‘œ ν‘œμ‹œ)κ°€ 주어지면 뢄포λ₯Ό μΆ”μ •ν•˜λŠ” 데 μ‚¬μš©λ©λ‹ˆλ‹€. ν”Œλ‘―μ˜ λ‹€μ±„λ‘œμš΄ λ°€λ„λŠ” 포인트λ₯Ό μ€‘μ‹¬μœΌλ‘œν•˜λŠ” 컀널 μž…λ‹ˆλ‹€. 곡지 사항 것을 AλŠ” μƒλŒ€ 맀개 λ³€μˆ˜, κ·Έκ²ƒμ˜ 값이 항상 데이터와 λ™μΌν•œ 값에 따라 선택 μ„œλ‘œ λ‹€λ₯Έ 데이터 μ„ΈνŠΈμ— λŒ€ν•œ μœ μ‚¬ν•œ κ²°κ³Όλ₯Ό μ œκ³΅ν•˜μ§€ μ•Šμ„ 수 μžˆμŠ΅λ‹ˆλ‹€.

K

h

xi

h

h

h

컀널 λŠ” ν™•λ₯  밀도 ν•¨μˆ˜λ‘œ 생각할 수 있으며 단일성과 ν†΅ν•©ν•΄μ•Όν•©λ‹ˆλ‹€. λ˜ν•œ 및 κ·Έ 뒀에 μ˜€λŠ” 0이 쀑심 μ΄λ˜λ„λ‘ λŒ€μΉ­μ΄μ–΄μ•Ό ν•©λ‹ˆλ‹€. 컀널에 κ΄€ν•œ Wikipedia 기사 μ—λŠ” Gaussian (μ •κ·œ 뢄포), Epanechnikov, μ§μ‚¬κ°ν˜• (균일 뢄포) λ“±κ³Ό 같은 널리 μ‚¬μš©λ˜λŠ” λ§Žμ€ 컀널이 λ‚˜μ—΄λ˜μ–΄ μžˆμŠ΅λ‹ˆλ‹€. 기본적으둜 μ΄λŸ¬ν•œ μš”κ΅¬ 사항을 μΆ©μ‘±ν•˜λŠ” λͺ¨λ“  λ°°ν¬λŠ” μ»€λ„λ‘œ μ‚¬μš©λ  수 μžˆμŠ΅λ‹ˆλ‹€.

K

K(x)=K(βˆ’x)

λΆ„λͺ…νžˆ, μ΅œμ’… μΆ”μ •μΉ˜λŠ” μ„ νƒν•œ 컀널 (λ§Žμ€ 것은 μ•„λ‹˜)κ³Ό λŒ€μ—­ν­ 맀개 λ³€μˆ˜ 에 달렀 μžˆμŠ΅λ‹ˆλ‹€ . λ‹€μŒ μŠ€λ ˆλ“œ
컀널 밀도 μΆ”μ •μ—μ„œ λŒ€μ—­ν­ 값을 ν•΄μ„ν•˜λŠ” 방법은 λ¬΄μ—‡μž…λ‹ˆκΉŒ? λŒ€μ—­ν­ 맀개 λ³€μˆ˜ μ‚¬μš©μ— λŒ€ν•΄ μžμ„Ένžˆ μ„€λͺ…ν•©λ‹ˆλ‹€.

h

이것을 ν‰λ²”ν•œ μ˜μ–΄λ‘œ λ§ν•˜λ©΄, μ—¬κΈ°μ—μ„œ κ°€μ •ν•˜λŠ” 것은 κ΄€μΈ‘ 된 점 λŠ” 단지 ν‘œλ³Έμ΄λ©° μΆ”μ • ν•  뢄포 λ₯Ό λ”°λ¦…λ‹ˆλ‹€ . 뢄포가 연속적이기 λ•Œλ¬Έμ— 포인트 근처 뢀근에 μ•Œλ €μ§€μ§€ μ•Šμ•˜μ§€λ§Œ 0이 μ•„λ‹Œ 밀도가 μžˆλ‹€κ³  κ°€μ •ν•˜κ³  (이웃은 맀개 λ³€μˆ˜ 둜 μ •μ˜ 됨 ) 컀널 λ₯Ό μ‚¬μš© ν•˜μ—¬μ΄λ₯Ό κ³„μ‚°ν•©λ‹ˆλ‹€. 이웃에 ν¬μΈνŠΈκ°€ λ§Žμ„μˆ˜λ‘μ΄ μ˜μ—­ 주변에 더 λ§Žμ€ 밀도가 λˆ„μ λ˜λ―€λ‘œ 의 전체 밀도가 λ†’μ•„μ§‘λ‹ˆλ‹€ . κ²°κ³Ό ν•¨μˆ˜ λŠ” 이제 λͺ¨λ“  포인트 λŒ€ν•΄ 평가 될 수 μžˆμŠ΅λ‹ˆλ‹€

xi

f

xi

h

K

fh^

fh^

x ^ f h ( x ) f ( x )

x

밀도 좔정값을 κ΅¬ν•˜κΈ° μœ„ν•΄ 이것은 λ―Έμ§€μ˜ 밀도 ν•¨μˆ˜ 의 κ·Όμ‚¬μΉ˜ 인 ν•¨μˆ˜ λ₯Ό 얻은 방법 μž…λ‹ˆλ‹€.

fh^(x)

f(x)

컀널 λ°€λ„μ˜ 쒋은 점은 νžˆμŠ€ν† κ·Έλž¨κ³Ό 달리 연속 ν•¨μˆ˜μ΄λ©° μœ νš¨ν•œ ν™•λ₯  λ°€λ„μ˜ ν˜Όν•©μ΄κΈ° λ•Œλ¬Έμ— μœ νš¨ν•œ ν™•λ₯  λ°€λ„λΌλŠ” κ²ƒμž…λ‹ˆλ‹€. λ§Žμ€ κ²½μš°μ— 이것은 에 근사 ν•  μˆ˜μžˆλŠ” ν•œ κ°€κΉμŠ΅λ‹ˆλ‹€ .

f

μ •κ·œ λΆ„ν¬λ‘œμ„œ 컀널 밀도와 λ‹€λ₯Έ λ°€λ„μ˜ 차이점은 β€œμΌλ°˜μ μΈβ€λ°€λ„λŠ” μˆ˜ν•™ ν•¨μˆ˜μ΄κ³ , 컀널 λ°€λ„λŠ” 데이터λ₯Ό μ‚¬μš©ν•˜μ—¬ μΆ”μ • 된 μ‹€μ œ λ°€λ„μ˜ κ·Όμ‚¬μΉ˜μ΄λ―€λ‘œ β€œλ…λ¦½ν˜•β€λΆ„ν¬λŠ” μ•„λ‹™λ‹ˆλ‹€.

Silverman (1986)κ³Ό Wand and Jones (1995)의이 μ£Όμ œμ— κ΄€ν•œ 두 가지 ν›Œλ₯­ν•œ μ†Œκ°œ 책을 μΆ”μ²œν•©λ‹ˆλ‹€.


BW 싀버 맨 (1986). 톡계 및 데이터 λΆ„μ„μ„μœ„ν•œ 밀도 μΆ”μ •. CRC / Chapman & Hall.

Wand, MP and Jones, MC (1995). 컀널 μŠ€λ¬΄λ”©. 런던 : 채프먼 & 홀 / CRC.


λ‹΅λ³€

1) λ‚΄ μ΄ν•΄λŠ” μ‚¬μš©μžκ°€ 에 μ‚¬μš©ν•  ν•¨μˆ˜λ₯Ό 선택할 수 있으며 κ°€μš°μ‹œμ•ˆ ν•¨μˆ˜λŠ” 맀우 일반적인 μ„ νƒμ΄λΌλŠ” κ²ƒμž…λ‹ˆλ‹€.

Ο•

2)μ—μ„œμ˜ 농도 μ„œλ‘œ λ‹€λ₯Έ κ°’μ˜ 평균이닀 μ—μ„œ . 예λ₯Ό λ“€μ–΄, , 및 λŒ€ν•΄ κ°€μš°μŠ€ 뢄포λ₯Ό μžˆμŠ΅λ‹ˆλ‹€. 이 κ²½μš°μ—μ„œ, 농도 될 .Ο• h ( x i – x ) x x 1 = 1 x 2 = 2 Οƒ = 1 Ο• h x N 1 , 1 ( x ) + N 2 , 1 ( x )

x

Ο•h(xiβˆ’x)

x

x1=1

x2=2

Οƒ=1

Ο•h

x

N1,1(x)+N2,1(x)2

3) μœˆλ„μš° κΈ°λŠ₯으둜 μ›ν•˜λŠ” 밀도 κΈ°λŠ₯을 μ—°κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

4) λŠ” μ„ νƒν•œ μœˆλ„μš° κΈ°λŠ₯의 λ„ˆλΉ„λ₯Ό κ²°μ •ν•©λ‹ˆλ‹€.

h

λ‹΅λ³€