올바르게 이해하면 1-5 척도의 도서 등급은 리 커트 점수입니다. 즉, 나를위한 3은 다른 사람을위한 3 일 필요는 없습니다. 서수 척도 IMO입니다. 실제로 서수 스케일을 평균화해서는 안되지만 모드, 중앙값 및 백분위 수를 확실히 취할 수 있습니다.
인구의 대부분이 위의 통계보다 수단을 이해하기 때문에 규칙 을 구부리 는 것이 ‘좋아’ 입니까? 리서치 커뮤니티는 리 커트 척도 기반 데이터의 평균을 취하는 것을 강력히 책망하지만, 대중과 함께 (실제로 말하면) 괜찮을까요? 이 경우 평균을 취하는 것이 처음부터 오도 된 것입니까?
아마존과 같은 회사가 기본 통계를 다루지 않을 것 같지만, 그렇지 않다면 여기서 무엇을 놓치고 있습니까? 서수 척도가 평균을 취하는 것을 정당화하기 위해 서수에 대한 편리한 근사라고 주장 할 수 있습니까? 어떤 근거로?
답변
평균을 사용하여 5 점 등급의 중심 경향을 요약 할 경우의 이점
@ gung이 언급했듯이 5 점 항목의 평균을 중심 경향의 지표로 취하는 데는 매우 좋은 이유가 있다고 생각합니다. 나는 이미 이러한 이유를 설명했다 .
말을 바꾸려면 :
- 평균은 계산하기 쉽다
- 평균은 직관적이고 잘 이해됩니다
- 평균은 단일 숫자입니다
- 다른 지수는 종종 유사한 순위의 객체를 산출합니다
평균이 아마존에 좋은 이유
평균을보고하는 데있어 아마존의 목표에 대해 생각해보십시오. 그들은 목표로하고있을 수 있습니다
- 항목에 대해 직관적이고 이해하기 쉬운 등급을 제공합니다.
- 평가 시스템의 사용자 승인을 보장
- 사람들이 평가의 의미를 이해하도록하여 구매 결정에 알맞게 사용할 수 있도록합니다.
Amazon은 일종의 반올림 평균, 각 등급 옵션의 빈도 수 및 샘플 크기 (예 : 등급 수)를 제공합니다. 이 정보는 아마도 대부분의 사람들이 품목에 대한 일반적인 감정과 그러한 등급에 대한 신뢰를 모두 이해하기에 충분할 것입니다 (즉, 등급이 20 인 4.5는 평점이 4.5 인 4.5보다 10 5 인 항목보다 정확할 가능성이 높습니다). -별 등급 및 댓글이없는 1 개의 별 등급은 여전히 좋은 항목 일 수 있습니다).
평균을 민주적 옵션으로 볼 수도 있습니다. 많은 선거는 어느 후보가 2 점 척도에서 가장 높은 평균을 얻는 지에 따라 결정됩니다. 마찬가지로, 검토를 제출 한 각 사람이 투표를 받는다는 주장을한다면, 평균을 각 사람의 투표에 똑같이 가중시키는 형태로 볼 수 있습니다.
스케일 사용의 차이가 실제로 문제입니까?
중심 경향 편향, leniency 편견, 엄격 편향과 같은 심리학 문헌에 알려진 광범위한 등급 편향이 있습니다 (검토를 위해 Saal et al 1980 참조). 또한 일부 평가자는 더 임의적이며 일부는 더 신뢰할 수 있습니다. 일부는 체계적으로 가짜 긍정적 또는 가짜 부정적인 리뷰를 제공하기도합니다. 항목의 실제 평균 등급을 계산할 때 다양한 형태의 오류가 발생합니다.
그러나 임의의 모집단 표본을 추출하는 경우 이러한 치우침이 취소되고 충분한 표본 크기의 평가자가 있으면 실제 평균을 얻을 수 있습니다.
물론 아마존에서 무작위 샘플을 얻지 못하고 아이템에 대해 얻은 특정 평가자 세트가보다 관대하거나 엄격하도록 체계적으로 편향 될 위험이 있습니다. 즉, Amazon 사용자는 사용자가 제출 한 평가가 불완전한 샘플에서 나온 것임을 높이 평가할 것입니다. 또한 많은 경우에 응답 바이어스 차이의 대부분이 사라지기 시작하는 합리적인 표본 크기로 인해 가능성이 높다고 생각합니다.
평균 이상의 가능성
등급의 정확성을 향상시키는 관점에서 평균의 일반적인 개념에 도전하지는 않지만 항목의 실제 모집단 평균 등급을 추정하는 다른 방법이 있다고 생각합니다. 항목을 평가하도록 요청한 큰 대표적인 샘플이었습니다.
- 그들의 신뢰도에 근거한 무게 평가자
- 평균 등급을 모든 품목의 평균 등급과 특정 품목의 평균의 가중 합계로 추정하는 베이지안 등급 시스템을 사용하고 등급 수가 증가함에 따라 특정 품목의 가중치를 높이십시오.
- 항목 전체의 일반적인 등급 경향에 따라 평가자의 정보를 조정하십시오 (예 : 일반적으로 3을 제공하는 사람의 5는 일반적으로 4를 제공하는 사람보다 더 가치가 있습니다).
따라서 등급의 정확성이 아마존의 주요 목표라면 아이템 당 등급 수를 늘리고 위의 전략 중 일부를 채택하기 위해 노력해야한다고 생각합니다. 이러한 접근 방식은 “최고의”순위를 만들 때 특히 관련이있을 수 있습니다. 그러나 페이지의 겸손한 평가의 경우 샘플 평균이 단순성과 투명성의 목표를 더 잘 충족 할 수 있습니다.
참고 문헌
- Saal, FE, Downey, RG & Lahey, MA (1980). 등급 평가 : 등급 데이터의 심리적 품질 평가. Psychological Bulletin, 88, 413.
답변
여기에 다소 기술적하기 위해, 그 평가는 실제로 아니다 리 커트 척도 ; 그들은 단지 서수 등급입니다. 자, 당신의 요점은 본질적으로 맞습니다. 그러나 종종이 문제로 너무 많은 것이 있다고 생각합니다. 한 가지 주목할 점은 일반적으로 다수의 서수 항목의 평균 이 대략 간격 일 수 있다는 점을 이해 하므로 많은 등급이있을 경우 평균이보다 합리적인 표현이됩니다. 내가 발견 한 이 답변 (정말, 질문 및 모든 승무원 답변 읽기 가치가있다) @JeromyAnglim에 의해 우수합니다. 더 이론적 인 치료는 여기를 참조 하십시오. 다른 말로, 나는 아마존을 좋아하지만 특히 기본 사이트 디자인과 관련하여 통계적 정교함을 기대할 이유가 없습니다. 요점은 통계 교수에게 깊은 인상을주지 않는 소비자의 유용성입니다.
답변
모두 이것에 대해 좋은 의견을 가지고 있습니다. 나는 정말 더 많은 것을 추가 할 수 있다고 생각하지 않습니다. 그러나 나는 이것을 게시 할 것이다 :
답변
내 경험상, 평가 척도 데이터의 평균은 종종 우리가 평가 척도와 연관시키려는 실제 메트릭의 수준과 가장 밀접한 상관 관계가 있습니다. 우리는 많은 선형 관계를 발견했으며, 따라서 평균은 데이터를 요약하는 더 좋은 방법 중 하나입니다. 즉, Jeromy가 지적했듯이 등급 척도의 중심 경향을 분석하는 대부분의 방법은 대부분 비슷한 결과 (순위 순서 등)를 제공합니다.
또한, 나는 아마존이 과학적 타당성과 관련된 모든 방법이 아닐 수도 있다고 생각합니다. 결국 아마존의 목표는 사람들이 Amazon.com에서 더 많은 쇼핑을하도록하는 것입니다. 그리고 리뷰를 달성하는 데 도움이되는 방법은 아마도 하나의 요약이 사용 된 것과 다를 수 있습니다. 좋은 제품은 보상을 받고, 나쁜 제품은 처벌을받으며, 신경질적인 구매자는 장단점을 더 자세히 검토 할 수 있습니다.
답변
회사가 시스템을 게임하기 때문에 아마존 등급이 잘못되었습니다. 고객에게 5 성급 리뷰에 대한 리베이트 및 무료 상품이 제공 될 때 등급 번호의 의미 또는 의미에 대한 “통계”가 불분명합니다.
답변
당신은 좋은 지적을합니다. 서수의 평균을 취하는 것은 다소 오해의 소지가 있습니다. 몇 가지 순위에 대한 요약은 내 주관적인 3이 실제로 4와 동일하다는 사실로 인해 어려움을 겪을 것입니다. 따라서 다른 개별 점수를 결합하는 것이 가장 큰 문제 일 것입니다. 3과 4의 평균을 3.5로 해석하는 것은 그리 심각하지 않습니다.