LOF (Local Outlier Factor) 탐지 분석을위한 k- 값 선택 분석에 사용할 k-

3 차원 데이터 세트가 있으며 가장 특이하거나 이상한 값을 식별하기 위해 Local Outlier Factor 분석을 사용하려고합니다. LOF 분석에 사용할 k- 값을 어떻게 결정합니까? k- 값이 무엇을 결정하는지 이해하므로 다른 k를 사용하여 약간 다른 결과를보고 있다는 사실에 놀라지 않습니다. . 감사!



답변

미래에 내 질문을 겪는 사람을 위해 여기에 게시하면 로컬 이상치 요인 알고리즘 “LOF : 밀도 기반 로컬 이상치 식별”(Breunig et al)을 설명하는 원본 논문에서 k- 값을 선택하는 방법을 권장합니다. . LOF 알고리즘은 각 포인트의 밀도를 가장 가까운 이웃 의 밀도와 비교합니다 . 이 논문의 저자는 최소 와 최대 를 선택하고 각 포인트마다 해당 범위의 각 에 대해 최대 LOF 값을 취하는 것이 좋습니다 . 범위를 선택하기위한 몇 가지 지침을 제공합니다.

k

k

k

k

최소값의 경우 LOF 값은 에 대한 균일 분포의 점에서 변동이 심하며, 균일 분포의 점이 때때로 이상치로 표시되므로 최소 을 권장 합니다. 둘째, 최소 값은 “클러스터”로 간주되는 대상의 최소 크기로 사용되므로 해당 클러스터에 비해 점이 이상 치가 될 수 있습니다. 경우 , 그리고 당신의 그룹이 점과 점 , 그룹의 각 지점이 포함됩니다 의 가장 가까운 이웃에서, 그리고 매우 유사 LOI들을 가지고 그들을 선도, 그 점을 포함 할 것이다. 따라서 그룹 근처의 점을 고려하려면

k<10

min(k)=10

k

k=15

12

p

p

p

N

해당 그룹의 일부가 아닌 특이 치로서 k 값은 이상이어야합니다 .

N

최대 값의 경우, 유사한 기준이 적용되는데, 이는 함께 클러스터 된 경우 이상치로 간주 할 최대 오브젝트 수 여야한다는 점입니다. 기본 집합에서 격리 된 개체 그룹은 클러스터이거나 이상일 수 있습니다. 위한 , 그들은 제 것; 위한 , 그들은 제 것이다.

N

N

k<N

k>N

잘하면 이것은 비슷한 문제가있는 사람에게 도움이되기를 바랍니다. 전체 논문은 여기 에 있으며 최대 / 최소 k- 값에 대한 설명은 7 페이지에서 시작하여 9 페이지를 통해 진행됩니다 ( 값을 MinPts 라고 함) .

k