νƒœκ·Έ 보관물: binary-data

binary-data

κ°•ν•˜κ²Œ λΆˆκ· ν˜•μ΄μžˆλŠ” 이진 λΆ„λ₯˜ 데이터 μ„ΈνŠΈκ°€ μžˆμ§€λ§Œ 1은 거의

(κΈ°λŠ₯, 이진 좜λ ₯ 0 λ˜λŠ” 1) ν˜•μ‹μ˜ 데이터 μ„ΈνŠΈκ°€ μžˆμ§€λ§Œ 1은 거의 λ°œμƒν•˜μ§€ μ•ŠμœΌλ―€λ‘œ 항상 0을 μ˜ˆμΈ‘ν•˜λ©΄ 70 %μ—μ„œ 90 % μ‚¬μ΄μ˜ 정확도λ₯Ό μ–»μŠ΅λ‹ˆλ‹€ (λ‚΄κ°€ λ³΄λŠ” νŠΉμ • 데이터에 따라 닀름) ). ML 방법은 λ™μΌν•œ 정확도λ₯Ό μ œκ³΅ν•˜λ©°,이 μƒν™©μ—μ„œ 적용 ν•  ν‘œμ€€ 방법이 μžˆμ–΄μ•Ό λΆ„λͺ…ν•œ 예츑 κ·œμΉ™λ³΄λ‹€ 정확도λ₯Ό ν–₯μƒμ‹œν‚¬ 수 μžˆλ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€.



λ‹΅λ³€

hxd1011κ³Ό Frankκ°€ λͺ¨λ‘ λ§žμŠ΅λ‹ˆλ‹€ (+1). 본질적으둜 λ¦¬μƒ˜ν”Œλ§ 및 / λ˜λŠ” λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅μ€ λΆˆκ· ν˜• 데이터 문제λ₯Ό ν•΄κ²°ν•˜λŠ” 두 가지 μ£Όμš” λ°©λ²•μž…λ‹ˆλ‹€. μ„Έ λ²ˆμ§ΈλŠ” λ•Œλ•Œλ‘œ 클래슀 λΆˆκ· ν˜•μ— μ˜ν•΄ 영ν–₯을 λœλ°›λŠ” 컀널 λ©”μ†Œλ“œλ₯Ό μ‚¬μš©ν•˜λŠ” κ²ƒμž…λ‹ˆλ‹€. 싀버 뢈릿 μ†”λ£¨μ…˜μ΄ μ—†λ‹€κ³  κ°•μ‘°ν•˜κ² μŠ΅λ‹ˆλ‹€. μ •μ˜μ— 따라 μƒ˜ν”Œμ— λΆ€μ μ ˆν•˜κ²Œ ν‘œν˜„ 된 ν΄λž˜μŠ€κ°€ ν•˜λ‚˜ μžˆμŠ΅λ‹ˆλ‹€.

μœ„μ—μ„œ λ§ν•œ κ²ƒμ²˜λŸΌ SMOTE 및 ROSE μ•Œκ³ λ¦¬μ¦˜μ΄ 맀우 유용 ν•˜λ‹€κ³  μƒκ°ν•©λ‹ˆλ‹€ . SMOTE λŠ” μ†Œμˆ˜ 클래슀의 ν•©μ„± 예제λ₯Ό λ§Œλ“œλŠ” 것과 λΉ„μŠ·ν•œ λ°©μ‹μœΌλ‘œ λ‹€μˆ˜ 클래슀의 멀버λ₯Ό μ œμ™Έν•˜κΈ° μœ„ν•΄ 졜근 μ ‘ 이웃 접근법을 효과적으둜 μ‚¬μš©ν•©λ‹ˆλ‹€ . ROSEλŠ” ν‰ν™œν™” 된 λΆ€νŠΈ 슀트랩 μ ‘κ·Ό 방식을 μ‚¬μš©ν•˜μ—¬ 두 클래슀의 κΈ°λ³Έ 뢄포 μΆ”μ •μΉ˜λ₯Ό μž‘μ„±ν•˜κ³  ν•©μ„± 예제λ₯Ό μœ„ν•΄ μƒ˜ν”Œλ§ν•©λ‹ˆλ‹€. λ‘˜ λ‹€ R, SMOTE νŒ¨ν‚€μ§€ DMwR 및 ROSE νŒ¨ν‚€μ§€μ—μ„œ 같은 이름 으둜 μ‰½κ²Œ ꡬ할 수 μžˆμŠ΅λ‹ˆλ‹€ . SMOTE와 ROSEλŠ” λͺ¨λ‘ μ›λž˜λ³΄λ‹€ μž‘μ€ ν•™μŠ΅ 데이터 μ„ΈνŠΈλ₯Ό μƒμ„±ν•©λ‹ˆλ‹€.

k

k

μ‹€μ œλ‘œμ΄ λ¬Έμ œμ— λŒ€ν•΄ μœ μ΅ν•œ μ •λ³΄μž…λ‹ˆλ‹€. μΈ‘μ • ν•­λͺ©μ— 관계없이 λ³„λ„μ˜ ν…ŒμŠ€νŠΈλ₯Ό μ‚¬μš©ν•˜μ—¬ μ•Œκ³ λ¦¬μ¦˜μ˜ μ„±λŠ₯을 ν‰κ°€ν•΄μ•Όν•©λ‹ˆλ‹€. 클래슀의 λΆˆκ· ν˜•μœΌλ‘œ 인해 μ •ν™•νžˆ λ§žμ§€ μ•Šμ„ κ°€λŠ₯성이 훨씬 λ†’μœΌλ―€λ‘œ μƒ˜ν”Œ μ™ΈλΆ€ ν…ŒμŠ€νŠΈκ°€ μ€‘μš”ν•©λ‹ˆλ‹€.

μ•„λ§ˆλ„ κ·Έ λ¬Έμ œμ— λŒ€ν•œ κ°€μž₯ μΈκΈ°μžˆλŠ” 졜근 논문은 그와 Garcia의 λΆˆκ· ν˜• λ°μ΄ν„°λ‘œλΆ€ν„° λ°°μš°λŠ” 것 μž…λ‹ˆλ‹€. 그것은 λ‚˜ μžμ‹ κ³Ό λ‹€λ₯Έ λ‹΅λ³€μ—μ„œ 제기 된 μš”μ μ— λŒ€ν•œ μ•„μ£Ό 쒋은 κ°œμš”λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. λ˜ν•œ 캐럿 νŒ¨ν‚€μ§€μ˜ μΌλΆ€λ‘œ Max Kuhn이 μ œμ‹œ ν•œ μ„œλΈŒ μƒ˜ν”Œλ§ 포 클래슀 λΆˆκ· ν˜• 에 λŒ€ν•œ μ—°μŠ΅ 은 언더 μƒ˜ν”Œλ§ / μ˜€λ²„ μƒ˜ν”Œλ§ 및 ν•©μ„± 데이터 생성을 μΈ‘μ •ν•˜λŠ” 방법에 λŒ€ν•œ ꡬ쑰적 예λ₯Ό μ–»λŠ” 데 ν›Œλ₯­ν•œ λ¦¬μ†ŒμŠ€λΌκ³  μƒκ°ν•©λ‹ˆλ‹€ μ„œλ‘œμ— λŒ€ν•΄.


λ‹΅λ³€

첫째, λΆˆκ· ν˜• 데이터에 λŒ€ν•œ 평가 μ§€ν‘œλŠ” 정확성이 μ•„λ‹™λ‹ˆλ‹€. λ°μ΄ν„°μ˜ 99.9 %κ°€ 사기가 μ•„λ‹ˆλΌκ³  사기 탐지λ₯Όν•˜κ³  μžˆλ‹€κ³  κ°€μ •ν•©λ‹ˆλ‹€. 99.9 %의 정확도λ₯Ό 가진 더미 λͺ¨λΈμ„ μ‰½κ²Œ λ§Œλ“€ 수 μžˆμŠ΅λ‹ˆλ‹€. (μ‚¬κΈ°μ—†λŠ” λͺ¨λ“  데이터λ₯Ό μ˜ˆμΈ‘ν•˜μ‹­μ‹œμ˜€).

평가 μ§€ν‘œλ₯Ό μ •ν™•λ„μ—μ„œ F1 점수 λ˜λŠ” 정밀도 및 νšŒμˆ˜μ™€ 같은 λ‹€λ₯Έ κ²ƒμœΌλ‘œ λ³€κ²½ν•˜λ €κ³ ν•©λ‹ˆλ‹€ . 두 번째 λ§ν¬μ—μ„œ λ‚˜λŠ” μ œκ³΅ν–ˆλ‹€. μ •λ°€ 리콜이 μž‘λ™ν•˜λŠ” μ΄μœ μ— λŒ€ν•œ μžμ„Έν•œ λ‚΄μš©κ³Ό 직관이 μžˆμŠ΅λ‹ˆλ‹€.

λΆˆκ· ν˜•μ΄ μ‹¬ν•œ λ°μ΄ν„°μ˜ 경우 λͺ¨λΈ ꡬ좕이 맀우 μ–΄λ €μšΈ 수 μžˆμŠ΅λ‹ˆλ‹€. 가쀑 손싀 κΈ°λŠ₯ λ˜λŠ” ν•œ 클래슀 만 λͺ¨λΈλ§ν•˜μ—¬ ν”Œλ ˆμ΄ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 같은 ν•˜λ‚˜μ˜ 클래슀 SVM λ˜λŠ” 닀쀑 λ³€λŸ‰ κ°€μš°μŠ€μ— λ§žκ²ŒλŠ” (링크둜 λ‚΄κ°€ 전에 제곡.)


λ‹΅λ³€

μˆ˜μ—… λΆˆκ· ν˜• λ¬Έμ œλŠ” λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅ λ˜λŠ” λ¦¬μƒ˜ν”Œλ§μœΌλ‘œ ν•΄κ²°ν•  수 μžˆμŠ΅λ‹ˆλ‹€. μ•„λž˜μ— 볡사 ν•˜μ—¬ λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅κ³Ό μƒ˜ν”Œλ§μ˜ μž₯점과 단점을 ν™•μΈν•˜μ‹­μ‹œμ˜€ .


{1}은 λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅κ³Ό μƒ˜ν”Œλ§μ˜ μž₯점과 λ‹¨μ μ˜ λͺ©λ‘μ„ μ œκ³΅ν•©λ‹ˆλ‹€.

2.2 μƒ˜ν”Œλ§

μ˜€λ²„ μƒ˜ν”Œλ§ 및 언더 μƒ˜ν”Œλ§μ€ ν•™μŠ΅ λ°μ΄ν„°μ˜ 클래슀 뢄포λ₯Ό λ³€κ²½ν•˜λŠ” 데 μ‚¬μš©λ  수 있으며 두 방법 λͺ¨λ‘ 클래슀 λΆˆκ· ν˜•μ„ μ²˜λ¦¬ν•˜λŠ” 데 μ‚¬μš©λ˜μ—ˆμŠ΅λ‹ˆλ‹€ [1, 2, 3, 6, 10, 11]. ν›ˆλ ¨ λ°μ΄ν„°μ˜ 클래슀 뢄포λ₯Ό λ³€κ²½ν•˜λŠ” 것은 λΉ„λŒ€μΉ­ 데이터 μ„ΈνŠΈλ‘œ ν•™μŠ΅μ— λ„μ›€μ΄λ˜λŠ” μ΄μœ λŠ” λΉ„ 균일 였 λΆ„λ₯˜ λΉ„μš©μ„ 효과적으둜 λΆ€κ³Όν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 예λ₯Ό λ“€μ–΄, μ–‘μ„± λŒ€ μŒμ„±μ˜ λΉ„μœ¨μ΄ 1 : 1μ—μ„œ 2 : 1μ΄λ˜λ„λ‘ ν›ˆλ ¨ μ„ΈνŠΈμ˜ λ“±κΈ‰ 뢄포λ₯Ό λ³€κ²½ν•˜λ©΄, 잘λͺ» λΆ„λ₯˜ 된 λΉ„μš© λΉ„μœ¨μ΄ 2 : 1둜 효과적으둜 ν• λ‹Ήλ©λ‹ˆλ‹€. ν›ˆλ ¨ λ°μ΄ν„°μ˜ 클래슀 뢄포 λ³€κ²½κ³Ό 였 λΆ„λ₯˜ λΉ„μš© λΉ„μœ¨ λ³€κ²½ μ‚¬μ΄μ˜ μ΄λŸ¬ν•œ 동등성은 잘 μ•Œλ €μ Έ 있으며 Elkan에 μ˜ν•΄ κ³΅μ‹μ μœΌλ‘œ μ„€λͺ…λ˜μ—ˆλ‹€ [9].

λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅μ„ β€‹β€‹κ΅¬ν˜„ν•˜κΈ° μœ„ν•΄ μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•˜λŠ” 것과 κ΄€λ ¨ν•˜μ—¬ μ•Œλ €μ§„ 단점이 μžˆμŠ΅λ‹ˆλ‹€. 언더 μƒ˜ν”Œλ§ 의
단점은 잠재적으둜 μœ μš©ν•œ 데이터λ₯Ό λ²„λ¦°λ‹€λŠ” κ²ƒμž…λ‹ˆλ‹€ . μ˜€λ²„ μƒ˜ν”Œλ§ 의 주된 단점 은 κΈ°μ‘΄ 예제λ₯Ό μ •ν™•ν•˜κ²Œ λ³΅μ‚¬ν•˜μ—¬ μ˜€λ²„ ν”ΌνŒ… ν•  κ°€λŠ₯성이 λ†’λ‹€λŠ” 것 μž…λ‹ˆλ‹€. μ‹€μ œλ‘œ μ˜€λ²„ μƒ˜ν”Œλ§μ˜ 경우 ν•™μŠ΅μžκ°€ λ‹¨μΌμ˜ 볡제 된 예λ₯Ό λ‹€λ£¨λŠ” λΆ„λ₯˜ κ·œμΉ™μ„ μƒμ„±ν•˜λŠ” 것이 μΌλ°˜μ μž…λ‹ˆλ‹€. μ˜€λ²„ μƒ˜ν”Œλ§μ˜ 두 번째 단점은 ν›ˆλ ¨ 예제의 μˆ˜κ°€ μ¦κ°€ν•˜μ—¬ ν•™μŠ΅ μ‹œκ°„ 이 λŠ˜μ–΄λ‚œλ‹€λŠ” 것 μž…λ‹ˆλ‹€.

2.3 μ™œ μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•©λ‹ˆκΉŒ?

μƒ˜ν”Œλ§μ˜ 단점을 κ°μ•ˆν•  λ•Œ, μ™œκ³‘ 된 클래슀 뢄포 및 λΉ„ 균일 ν•œ 였 λΆ„λ₯˜ λΉ„μš©μœΌλ‘œ 데이터λ₯Ό μ²˜λ¦¬ν•˜κΈ° μœ„ν•΄ λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ΄ μ•„λ‹Œ μ™œμ΄λ₯Ό μ‚¬μš©ν•˜λŠ”μ§€ λ¬»λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€. μ—¬κΈ°μ—λŠ” λͺ‡ 가지 μ΄μœ κ°€ μžˆμŠ΅λ‹ˆλ‹€. κ°€μž₯ ν™•μ‹€ν•œ μ΄μœ λŠ” λͺ¨λ“  ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ˜ λΉ„μš©μ— λ―Όκ°ν•œ κ΅¬ν˜„μ΄ μ—†κΈ° λ•Œλ¬Έμ— μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•œ 래퍼 기반 μ ‘κ·Ό 방식이 μœ μΌν•œ μ˜΅μ…˜μž…λ‹ˆλ‹€. μ˜€λŠ˜λ‚ λ³΄λ‹€ κ³Όκ±°μ—λŠ” 그렇지 μ•Šμ§€λ§Œ, λ§Žμ€ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜ (예 : C4.5)은 μ—¬μ „νžˆ β€‹β€‹ν•™μŠ΅ κ³Όμ •μ—μ„œ λΉ„μš©μ„ 직접 μ²˜λ¦¬ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€.

μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•˜λŠ” 두 번째 μ΄μœ λŠ” κ³ λ„λ‘œ 치우친 데이터 μ„ΈνŠΈκ°€ μ—„μ²­λ‚˜κ³  ν•™μŠ΅μ΄ κ°€λŠ₯ν•˜λ„λ‘ ν›ˆλ ¨ μ„ΈνŠΈμ˜ 크기λ₯Ό μ€„μ—¬μ•Όν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. 이 경우 언더 μƒ˜ν”Œλ§μ€ 합리적이고 μœ νš¨ν•œ μ „λž΅ 인 것 κ°™μŠ΅λ‹ˆλ‹€. 이 λ°±μ„œμ—μ„œλŠ” ν›ˆλ ¨ μ„ΈνŠΈ 크기λ₯Ό 쀄여야 ν•  ν•„μš”μ„±μ„ κ³ λ €ν•˜μ§€ μ•ŠμŠ΅λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ 일뢀 ν›ˆλ ¨ 데이터λ₯Ό νκΈ°ν•΄μ•Όν•˜λŠ” κ²½μš°μ—λ„ ν›ˆλ ¨ μ„ΈνŠΈ 크기λ₯Ό ν•„μš”ν•œ 크기둜 쀄이고 λΉ„μš©μ„ μ‚¬μš©ν•˜κΈ° μœ„ν•΄ λŒ€λΆ€λΆ„μ˜ 클래슀 예λ₯Ό νκΈ°ν•˜λŠ” 것이 μœ λ¦¬ν•  수 μžˆμŒμ„ μ§€μ ν•©λ‹ˆλ‹€. 폐기 된 ν•™μŠ΅ λ°μ΄ν„°μ˜ 양이 μ΅œμ†Œν™”λ˜λ„λ‘ λ―Όκ°ν•œ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜.

λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ΄ μ•„λ‹Œ μƒ˜ν”Œλ§ μ‚¬μš©μ— κΈ°μ—¬ν•œ λ§ˆμ§€λ§‰ μ΄μœ λŠ” 잘λͺ» λΆ„λ₯˜λ˜λŠ” λΉ„μš©μ„ μ•Œ 수 μ—†κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. κ·ΈλŸ¬λ‚˜ μ΄λŠ” λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜μ— λΉ„ν•΄ μƒ˜ν”Œλ§μ„ μ‚¬μš©ν•˜λŠ” 데 μœ νš¨ν•œ μ΄μœ λŠ” μ•„λ‹™λ‹ˆλ‹€. μƒ˜ν”Œλ§κ³Ό μœ μ‚¬ν•œ λ¬Έμ œκ°€ λ°œμƒν•˜κΈ° λ•Œλ¬Έμž…λ‹ˆλ‹€. μ΅œμ’… ꡐ윑 λ°μ΄ν„°μ˜ 클래슀 λΆ„ν¬λŠ” μ–΄λ–»κ²Œλ©λ‹ˆκΉŒ? 이 λΉ„μš© 정보λ₯Ό μ•Œ μˆ˜μ—†λŠ” 경우 ROC 곑선 μ•„λž˜ 면적과 같은 μΈ‘μ • 값을 μ‚¬μš©ν•˜μ—¬ λΆ„λ₯˜κΈ° μ„±λŠ₯을 μΈ‘μ • ν•  수 있으며 두 가지 방법 λͺ¨λ‘ κ²½ν—˜μ μœΌλ‘œ μ μ ˆν•œ λΉ„μš© λΉ„μœ¨ / 클래슀 뢄포λ₯Ό κ²°μ •ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

그듀은 λ˜ν•œ 일련의 μ‹€ν—˜μ„ν–ˆλŠ”λ° 결정적이지 μ•Šμ•˜μŠ΅λ‹ˆλ‹€.

λͺ¨λ“  데이터 μ„ΈνŠΈμ˜ κ²°κ³Όλ₯Ό λ°”νƒ•μœΌλ‘œ λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅, μ˜€λ²„ μƒ˜ν”Œλ§ 및 언더 μƒ˜ν”Œλ§κ°„μ— ν™•μ‹€ν•œ μŠΉμžκ°€ μ—†μŠ΅λ‹ˆλ‹€.

그런 λ‹€μŒ 데이터 μ„ΈνŠΈμ˜ μ–΄λ–€ 기쀀이 μ–΄λ–€ 기술이 더 잘 λ§žλŠ”μ§€λ₯Ό μ•”μ‹œ ν•  수 μžˆλŠ”μ§€ μ΄ν•΄ν•˜λ €κ³ ν•©λ‹ˆλ‹€.

그듀은 λ˜ν•œ SMOTEκ°€ λͺ‡ 가지 κ°œμ„ μ μ„ κ°€μ Έμ˜¬ 수 μžˆλ‹€κ³  λ§ν•©λ‹ˆλ‹€.

μƒ˜ν”Œλ§μ˜ 효과λ₯Ό κ°œμ„ ν•˜κΈ° μœ„ν•΄ μ‚¬λžŒλ“€μ΄ κ°œμ„  ν•œ λ‹€μ–‘ν•œ κΈ°λŠ₯이 μžˆμŠ΅λ‹ˆλ‹€. μ΄λŸ¬ν•œ ν–₯μƒλœ κΈ°λŠ₯ 쀑 μΌλΆ€μ—λŠ” μ˜€λ²„ μƒ˜ν”Œλ§μ‹œ μƒˆλ‘œμš΄ β€œν•©μ„±β€μ˜ˆμ œ λ„μž… [5-> SMOTE], 언더 μƒ˜ν”Œλ§μ‹œ μœ μš©ν•˜μ§€ μ•Šμ€ λ‹€μˆ˜ 클래슀 예제 μ‚­μ œ [11] 및 각 μ˜ˆμ œλ³΄λ‹€ ν•˜λ‚˜ μ΄μƒμ˜ 언더 μƒ˜ν”Œλ§μ΄ μ‚¬μš©λ˜λŠ” 경우 μ—¬λŸ¬ μ„œλΈŒ μƒ˜ν”Œ μ‚¬μš© μ„œλΈŒ μƒ˜ν”Œ [3]. μ΄λŸ¬ν•œ κΈ°μˆ μ€ μ˜€λ²„ μƒ˜ν”Œλ§ 및 언더 μƒ˜ν”Œλ§κ³Ό λΉ„κ΅λ˜μ—ˆμ§€λ§Œ 일반적으둜 λΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅ μ•Œκ³ λ¦¬μ¦˜κ³Ό λΉ„κ΅λ˜μ§€ μ•Šμ•˜μŠ΅λ‹ˆλ‹€. μ•žμœΌλ‘œ 곡뢀할 κ°€μΉ˜κ°€ μžˆμŠ΅λ‹ˆλ‹€.


{1} Weiss, Gary M., Kate McCarthy 및 Bibi Zabar. β€œλΉ„μš©μ— λ―Όκ°ν•œ ν•™μŠ΅ λŒ€ μƒ˜ν”Œλ§ : 였λ₯˜ λΉ„μš©μ΄ λ‹€λ₯Έ λΆˆν‰ν˜• β€‹β€‹ν΄λž˜μŠ€λ₯Ό μ²˜λ¦¬ν•˜λŠ” 데 κ°€μž₯ μ ν•©ν•œ 방법은 λ¬΄μ—‡μž…λ‹ˆκΉŒ?” DMIN 7 (2007) : 35-41. https://scholar.google.com/scholar?cluster=10779872536070567255&hl=ko&as_sdt=0,22 ; https://pdfs.semanticscholar.org/9908/404807bf6b63e05e5345f02bcb23cc739ebd.pdf


λ‹΅λ³€

이 쿼리에 λŒ€ν•œ λͺ‡ 가지 닡변은 이미 μ—¬λŸ¬ 가지 λ‹€λ₯Έ μ ‘κ·Ό 방식을 λͺ¨λ‘ μ œκ³΅ν–ˆμŠ΅λ‹ˆλ‹€. 이 μ œμ•ˆμ€ ν•˜λ²„λ“œμ˜ μ €λͺ…ν•œ μ •μΉ˜ ν•™μž 게리 ν‚Ή (Gary King)의 λ…Όλ¬Έ 및 κ΄€λ ¨ μ†Œν”„νŠΈμ›¨μ–΄μ—μ„œ λ‚˜μ˜¨ κ²ƒμž…λ‹ˆλ‹€. κ·ΈλŠ” 희귀 사건 λ°μ΄ν„°μ˜ λ‘œμ§€μŠ€ν‹± νšŒκ·€ 뢄석 μ΄λΌλŠ” 제λͺ©μ˜ 논문을 곡동 μ €μˆ ν–ˆμœΌλ©°μ΄ 책은 μƒλ‹Ήνžˆ ν™•μ‹€ν•œ μ†”λ£¨μ…˜μ„ μ œκ³΅ν•©λ‹ˆλ‹€.

μ΄ˆλ‘μ€ λ‹€μŒκ³Ό κ°™μŠ΅λ‹ˆλ‹€.

μš°λ¦¬λŠ” 희귀 사건 데이터, μ „μŸ, κ±°λΆ€κΆŒ, μ •μΉ˜μ  ν–‰λ™μ£Όμ˜ 사건, λ˜λŠ” 역학적 감염과 같은 사건이 μˆ˜μ‹­μ—μ„œ 수천 λ°° 적은 이진 의쑴 λ³€μˆ˜λ₯Ό 0보닀 ( β€œλΉ„ 사건”) μ—°κ΅¬ν•©λ‹ˆλ‹€. λ§Žμ€ λ¬Έν—Œμ—μ„œ, 이듀 λ³€μˆ˜λŠ” μ„€λͺ…ν•˜κΈ°κ°€ μ–΄λ ΅κ³  μ˜ˆμΈ‘ν•˜κΈ° μ–΄λ €μš°λ©°, 적어도 두 가지 μ›μΈμ΄μžˆλŠ” κ²ƒμœΌλ‘œ 보인닀. 첫째, λ‘œμ§€μŠ€ν‹± νšŒκ·€μ™€ 같은 널리 μ‚¬μš©λ˜λŠ” 톡계 μ ˆμ°¨λŠ” λ“œλ¬Έ μ‚¬κ±΄μ˜ ν™•λ₯ μ„ 크게 κ³Όμ†Œ 평가할 수 μžˆμŠ΅λ‹ˆλ‹€. κΈ°μ‘΄ 방법을 λŠ₯κ°€ν•˜λŠ” μˆ˜μ •μ„ ꢌμž₯ν•˜κ³  λ¬Έν—Œμ—λ³΄κ³  된 일뢀 μ˜ˆμƒ 효과만큼 μ ˆλŒ€ 및 μƒλŒ€ μœ„ν—˜μ˜ μΆ”μ •μΉ˜λ₯Ό λ³€κ²½ν•˜λŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€. λ‘˜μ§Έ, 일반적으둜 μ‚¬μš©λ˜λŠ” 데이터 μˆ˜μ§‘ μ „λž΅μ€ 희귀 이벀트 데이터에 λŒ€ν•΄ λΉ„νš¨μœ¨μ μž…λ‹ˆλ‹€. 사건이 λ„ˆλ¬΄ 적은 데이터λ₯Ό μˆ˜μ§‘ν•˜λŠ” 것에 λŒ€ν•œ λ‘λ €μ›€μœΌλ‘œ 인해 μˆ˜λ§Žμ€ κ΄€μΈ‘ κ²°κ³Όλ₯Ό 가진 데이터 μˆ˜μ§‘μ΄ μ΄λ£¨μ–΄μ‘Œμ§€λ§Œ, 1 μ–΅ 5 천만 κ°œκ°€ λ„˜λŠ” ꡭ제 λΆ„μŸ λ°μ΄ν„°μ—μ„œμ™€ 같이 μƒλŒ€μ μœΌλ‘œ 적고 츑정이 μž˜λ˜μ§€ μ•Šμ€ μ„€λͺ… λ³€μˆ˜λŠ” μ†Œμˆ˜μ— λΆˆκ³Όν–ˆμŠ΅λ‹ˆλ‹€. μ „μŸ μ€‘μž…λ‹ˆλ‹€. 결과적으둜 λͺ¨λ“  κ°€λ³€ 사건 (예λ₯Ό λ“€μ–΄, μ „μŸ)κ³Ό μ†ŒλŸ‰μ˜ λΉ„ 사건 (평화)을 μƒ˜ν”Œλ§ν•˜λŠ” 것과 같이 μœ νš¨ν•œ μΆ”λ‘ μ„ν•˜κΈ° μœ„ν•΄λ³΄λ‹€ 효율적인 μƒ˜ν”Œλ§ λ””μžμΈμ΄ μ‘΄μž¬ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν•™μžλ“€μ€ (κ³ μ •λ˜μ§€ μ•Šμ€) 데이터 μˆ˜μ§‘ λΉ„μš©μ˜ 99 %λ₯Ό μ ˆμ•½ν•˜κ±°λ‚˜ 훨씬 더 μ˜λ―ΈμžˆλŠ” μ„€λͺ… λ³€μˆ˜λ₯Ό μˆ˜μ§‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 두 가지 κ²°κ³Όλ₯Ό μ—°κ²°ν•˜λŠ” 방법을 μ œκ³΅ν•˜μ—¬ 두 가지 μœ ν˜•μ˜ μˆ˜μ • μž‘μ—…μ„ λ™μ‹œμ— μˆ˜ν–‰ ν•  수 있으며 개발 된 방법을 κ΅¬ν˜„ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. 1 μ–΅ 5 천만 κ°œκ°€ λ„˜λŠ” 닀이어 λ“œμ™€μ˜ ꡭ제 λΆ„μŸ λ°μ΄ν„°μ—μ„œμ™€ 같이 잘λͺ» μΈ‘μ • 된 μ„€λͺ… λ³€μˆ˜λŠ” μ†Œμˆ˜μ— λΆˆκ³Όν•©λ‹ˆλ‹€. 결과적으둜 λͺ¨λ“  κ°€λ³€ 사건 (예λ₯Ό λ“€μ–΄, μ „μŸ)κ³Ό μ†ŒλŸ‰μ˜ λΉ„ 사건 (평화)을 μƒ˜ν”Œλ§ν•˜λŠ” 것과 같이 μœ νš¨ν•œ μΆ”λ‘ μ„ν•˜κΈ° μœ„ν•΄λ³΄λ‹€ 효율적인 μƒ˜ν”Œλ§ λ””μžμΈμ΄ μ‘΄μž¬ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν•™μžλ“€μ€ (κ³ μ •λ˜μ§€ μ•Šμ€) 데이터 μˆ˜μ§‘ λΉ„μš©μ˜ 99 %λ₯Ό μ ˆμ•½ν•˜κ±°λ‚˜ 훨씬 더 μ˜λ―ΈμžˆλŠ” μ„€λͺ… λ³€μˆ˜λ₯Ό μˆ˜μ§‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 두 가지 κ²°κ³Όλ₯Ό μ—°κ²°ν•˜λŠ” 방법을 μ œκ³΅ν•˜μ—¬ 두 가지 μœ ν˜•μ˜ μˆ˜μ • μž‘μ—…μ„ λ™μ‹œμ— μˆ˜ν–‰ ν•  수 있으며 개발 된 방법을 κ΅¬ν˜„ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. 1 μ–΅ 5 천만 κ°œκ°€ λ„˜λŠ” 닀이어 λ“œμ™€μ˜ ꡭ제 λΆ„μŸ λ°μ΄ν„°μ—μ„œμ™€ 같이 잘λͺ» μΈ‘μ • 된 μ„€λͺ… λ³€μˆ˜λŠ” μ†Œμˆ˜μ— λΆˆκ³Όν•©λ‹ˆλ‹€. 결과적으둜 λͺ¨λ“  κ°€λ³€ 사건 (예λ₯Ό λ“€μ–΄, μ „μŸ)κ³Ό μ†ŒλŸ‰μ˜ λΉ„ 사건 (평화)을 μƒ˜ν”Œλ§ν•˜λŠ” 것과 같이 μœ νš¨ν•œ μΆ”λ‘ μ„ν•˜κΈ° μœ„ν•΄λ³΄λ‹€ 효율적인 μƒ˜ν”Œλ§ λ””μžμΈμ΄ μ‘΄μž¬ν•©λ‹ˆλ‹€. 이λ₯Ό 톡해 ν•™μžλ“€μ€ (κ³ μ •λ˜μ§€ μ•Šμ€) 데이터 μˆ˜μ§‘ λΉ„μš©μ˜ 99 %λ₯Ό μ ˆμ•½ν•˜κ±°λ‚˜ 훨씬 더 μ˜λ―ΈμžˆλŠ” μ„€λͺ… λ³€μˆ˜λ₯Ό μˆ˜μ§‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 두 가지 κ²°κ³Όλ₯Ό μ—°κ²°ν•˜λŠ” 방법을 μ œκ³΅ν•˜μ—¬ 두 가지 μœ ν˜•μ˜ μˆ˜μ • μž‘μ—…μ„ λ™μ‹œμ— μˆ˜ν–‰ ν•  수 있으며 개발 된 방법을 κ΅¬ν˜„ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. λͺ¨λ“  가변적 인 사건 (예λ₯Ό λ“€μ–΄, μ „μŸ)κ³Ό μ†ŒλŸ‰μ˜ λΉ„ 사건 (평화)을 μƒ˜ν”Œλ§ν•˜λŠ” 것과 같이 μœ νš¨ν•œ μΆ”λ‘ μ„ν•˜κΈ° μœ„ν•΄λ³΄λ‹€ 효율적인 μƒ˜ν”Œλ§ 섀계가 μ‘΄μž¬ν•œλ‹€. 이λ₯Ό 톡해 ν•™μžλ“€μ€ (κ³ μ •λ˜μ§€ μ•Šμ€) 데이터 μˆ˜μ§‘ λΉ„μš©μ˜ 99 %λ₯Ό μ ˆμ•½ν•˜κ±°λ‚˜ 훨씬 더 μ˜λ―ΈμžˆλŠ” μ„€λͺ… λ³€μˆ˜λ₯Ό μˆ˜μ§‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 두 가지 κ²°κ³Όλ₯Ό μ—°κ²°ν•˜λŠ” 방법을 μ œκ³΅ν•˜μ—¬ 두 가지 μœ ν˜•μ˜ μˆ˜μ • μž‘μ—…μ„ λ™μ‹œμ— μˆ˜ν–‰ ν•  수 있으며 개발 된 방법을 κ΅¬ν˜„ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€. λͺ¨λ“  가변적 인 사건 (예λ₯Ό λ“€μ–΄, μ „μŸ)κ³Ό μ†ŒλŸ‰μ˜ λΉ„ 사건 (평화)을 μƒ˜ν”Œλ§ν•˜λŠ” 것과 같이 μœ νš¨ν•œ μΆ”λ‘ μ„ν•˜κΈ° μœ„ν•΄λ³΄λ‹€ 효율적인 μƒ˜ν”Œλ§ 섀계가 μ‘΄μž¬ν•œλ‹€. 이λ₯Ό 톡해 ν•™μžλ“€μ€ (κ³ μ •λ˜μ§€ μ•Šμ€) 데이터 μˆ˜μ§‘ λΉ„μš©μ˜ 99 %λ₯Ό μ ˆμ•½ν•˜κ±°λ‚˜ 훨씬 더 μ˜λ―ΈμžˆλŠ” μ„€λͺ… λ³€μˆ˜λ₯Ό μˆ˜μ§‘ ν•  수 μžˆμŠ΅λ‹ˆλ‹€. 이 두 가지 κ²°κ³Όλ₯Ό μ—°κ²°ν•˜λŠ” 방법을 μ œκ³΅ν•˜μ—¬ 두 가지 μœ ν˜•μ˜ μˆ˜μ • μž‘μ—…μ„ λ™μ‹œμ— μˆ˜ν–‰ ν•  수 있으며 개발 된 방법을 κ΅¬ν˜„ν•˜λŠ” μ†Œν”„νŠΈμ›¨μ–΄λ₯Ό μ œκ³΅ν•©λ‹ˆλ‹€.

여기에 쒅이에 λŒ€ν•œ 링크가 μžˆμŠ΅λ‹ˆλ‹€ … http://gking.harvard.edu/files/abs/0s-abs.shtml


λ‹΅λ³€

λΆˆκ· ν˜• 클래슀λ₯Ό 가진 데이터 μ„ΈνŠΈλ₯Όμœ„ν•œ λΆ„λ₯˜κΈ°μ˜ κ°œλ°œμ€ λ¨Έμ‹  λŸ¬λ‹μ˜ 일반적인 λ¬Έμ œμž…λ‹ˆλ‹€. 밀도 기반 방법은 μ΄λŸ¬ν•œ μƒν™©μ—μ„œ β€œμ „ν†΅μ μΈ λΆ„λ₯˜ μžβ€λ³΄λ‹€ μ€‘μš”ν•œ μž₯점을 κ°€μ§ˆ 수 μžˆμŠ΅λ‹ˆλ‹€.

p^(x|y∈C)

C

C={x:yi=0}

xβˆ—

y^(xβˆ—)βˆ‰C

y^(xβˆ—)∈C

λ‹€μŒ μš©μ§€λ₯Ό μ°Έμ‘° ν•  수 μžˆμŠ΅λ‹ˆλ‹€.

β€œμ°Έμ‹  탐지λ₯Όμœ„ν•œ μ΅œμ†Œ λ³Όλ₯¨ μ„ΈνŠΈμ˜ 계산 κ°€λŠ₯ν•œ ν”ŒλŸ¬κ·ΈμΈ 좔정기”C. Park, J. Huang 및 Y. Ding, Operations Research, 58 (5), 2013.


λ‹΅λ³€

이것은 이상 탐지가 μœ μš©ν•œ 접근법 인 μΌμ’…μ˜ λ¬Έμ œμž…λ‹ˆλ‹€. 이것은 기본적으둜 ν›ˆλ ¨ 클래슀의 톡계 ν”„λ‘œνŒŒμΌμ„ κ²°μ •ν•˜κ³  미래 츑정이 ν•΄λ‹Ή ν΄λž˜μŠ€μ— μ†ν•˜μ§€ μ•ŠλŠ” κ²ƒμœΌλ‘œ κ²°μ •λ˜λŠ” ν™•λ₯  μž„κ³„ 값을 μ„€μ •ν•˜λŠ” 그의 λ‹΅λ³€μ—μ„œ rodrigoκ°€ μ„€λͺ…ν•œ κ²ƒμž…λ‹ˆλ‹€. λ‹€μŒμ€ μ‹œμž‘ν•˜κΈ° μœ„ν•œ λΉ„λ””μ˜€ μžμŠ΅μ„œ μž…λ‹ˆλ‹€. 일단 당신이 그것을 ν‘μˆ˜ν•˜λ©΄, λ‚˜λŠ” 컀널 밀도 좔정을 μ°ΎλŠ” 것이 μ’‹μŠ΅λ‹ˆλ‹€.


λ‹΅λ³€