태그 보관물: outliers

outliers

트리밍 평균 대 중앙값 0), 시계를 멈추지

응급 서비스에 대한 모든 전화와 구급차 부서의 응답 시간이 포함 된 데이터 세트가 있습니다. 그들은 녹음을 시작하지 않았거나 (값이 0), 시계를 멈추지 않은 경우 (값이 매우 높을 수 있음) 응답 시간에 약간의 실수가 있음을 인정했습니다.

나는 중심 경향을 알고 싶어하고 이상 값을 제거하기 위해 중간 또는 트림 된 평균을 사용하는 것이 더 좋은지 궁금합니다.



답변

잘린 의미의 의미를 고려하십시오. 프로토 타입의 경우 먼저 데이터를 오름차순으로 정렬합니다. 그런 다음 하단에서 트리밍 백분율까지 세어 해당 값을 버립니다. 예를 들어 10 % 트림 평균이 일반적입니다. 이 경우 세트에있는 모든 데이터의 10 %를 통과 할 때까지 가장 낮은 값부터 계산합니다. 해당 마크 아래의 값은 따로 설정됩니다. 마찬가지로 트리밍 백분율을 통과 할 때까지 가장 높은 값에서 카운트 다운하고 모든 값을 그 값보다 크게 설정합니다. 이제 중간 80 %가 남았습니다. 당신은 그 평균을 취합니다, 그리고 그것은 10 % 트림 된 평균입니다. (두 테일에서 동일하지 않은 비율을 트리밍하거나 하나의 테일 만 트리밍 할 수 있지만 이러한 접근 방식은 일반적이지 않으며 상황에 적합한 것으로 보이지 않습니다.)

이제 50 % 트림 평균을 계산하면 어떻게 될지 생각해보십시오. 하반부는 상반기와 마찬가지로 옆으로 치워 질 것입니다. 중간 (일반적으로)에는 단일 값만 남게됩니다. 그 평균을 다듬은 평균으로 간주합니다 (즉, 해당 값만 가져갈 수 있음). 그러나 해당 값은 중앙값입니다. 다시 말해, 중앙값은 정돈 된 평균 (50 % 정돈 된 평균)입니다. 그것은 매우 공격적인 것입니다. 본질적으로 데이터의 99 %가 오염 된 것으로 가정합니다. 따라서 전력 / 효율성의 손실을 막고 이상치에 대해 최고의 보호 기능을 제공합니다 .

내 생각에 중간 / 50 % 손질 된 평균은 데이터에 필요한 것보다 훨씬 더 공격적이며 사용 가능한 정보가 너무 낭비입니다. 존재하는 특이 치의 비율을 알고 있다면 해당 정보를 사용하여 다듬기 비율을 설정하고 적절한 다듬기 평균을 사용합니다. 트리밍 백분율을 선택할 근거가없는 경우 교차 검증을 통해 하나를 선택하거나 인터셉트만으로 강력한 회귀 분석을 사용할 수 있습니다.


답변

우선, 유효하지 않은 데이터를 제거하십시오.

둘째, 특이 값이 관찰되는 이상 값을 제거 할 필요가 없습니다. 어떤 경우에는 (선형 회귀와 같이) 유용하지만 귀하의 경우에는 요점을 보지 못합니다.

마지막으로 데이터 중심을 찾는 것이 더 정확하기 때문에 중앙값을 사용하는 것이 좋습니다. 말했듯이 평균은 특이 치에 민감 할 수 있습니다 (잘린 평균을 사용하면 편향 될 수 있음).


답변