선형 회귀 분석에서 백분율 결과를 사용하는 데 어떤 문제가 있습니까? 형 변수의 영향을

많은 결과가 백분율과 같이 표현되는 연구가 있으며 이러한 결과에 대한 일부 범주 형 변수의 영향을 평가하기 위해 여러 선형 회귀 분석을 사용하고 있습니다.

선형 회귀 분석 결과가 연속 분포라고 가정하기 때문에 이러한 모델을 백분율에 적용하는 방법 론적 문제가 있습니까? 0과 100 사이로 제한됩니까?



답변

불연속 적이거나 지속적인 가능성과 관련된 문제를 다룰 것입니다.

  1. 평균의 설명과 관련된 문제

    응답이 제한되어 있습니다. 그러나 피팅하려는 모델은 제한이 없으므로 경계를 통해 바로 폭발 할 수 있습니다. 귀하의 적합치 중 일부는 불가능할 수 있으며 예측 된 값은 궁극적으로 있어야합니다.

    진정한 관계는 결국 한계에 가까워 질 때보 다 중간에 평평 해져야하므로 어떤 방식으로 구부러 질 것으로 예상됩니다.

  2. 분산 설명과 관련된 문제

    평균이 한계에 가까울수록 분산도 감소하는 경향이 있으며 다른 것들은 동일합니다. 평균과 경계 사이의 공간이 적으므로 전체 변동성이 감소하는 경향이 있습니다 (그렇지 않으면 평균이 경계에 가깝지 않은 쪽의 평균점을 더 멀리하여 경계에서 벗어나는 경향이 있습니다).

(실제로, 어떤 동네의 모든 모집단 값이 정확히 한계에 도달하면 분산이 0이됩니다.)

그러한 경계를 다루는 모델은 그러한 영향을 고려해야합니다.

비율이 계수 변수에 대한 비율 인 경우 비율 분포의 공통 모델은 이항 GLM입니다. 평균 비율과 예측 변수의 관계 형식에 대한 몇 가지 옵션이 있지만 가장 일반적인 방법은 로지스틱 GLM입니다 (여러 다른 선택이 일반적으로 사용됨).

비율이 연속적 인 경우 (우유의 크림 비율과 같은) 여러 가지 옵션이 있습니다. 베타 회귀는 상당히 일반적인 선택으로 보입니다. 다시 말하지만, 평균과 예측 변수 사이의 물류 관계를 사용하거나 다른 기능적 형태를 사용할 수 있습니다.

0과 1 사이의 결과 (비율 또는 분수)회귀 도 참조하십시오 .


답변

결과가 0과 1 사이 인 경우와 정확히 동일하며,이 경우는 일반적으로 로지스틱 회귀와 같은 일반화 된 선형 모델 (GLM)로 처리됩니다. 인터넷에는 로지스틱 회귀 및 기타 GLM에 대한 훌륭한 입문서가 많이 있으며 Agresti가 주제에 대해 잘 알려진 책도 있습니다.

베타 회귀는 실행 가능하지만 더 복잡한 대안입니다. 로지스틱 회귀 분석은 응용 프로그램에 적합하며 일반적으로 대부분의 통계 소프트웨어로 구현하기가 더 쉽습니다.

보통 최소 제곱 법을 사용하지 않는 이유는 무엇입니까? 실제로 사람들은 때때로 “선형 확률 ​​모델”(LPM)이라는 이름을 사용합니다. LPM이 “나쁜”가장 확실한 이유는 특정 범위 내에 있도록 결과를 제한하는 쉬운 방법이 없기 때문에 1 이상 (또는 100 % 또는 기타 유한 상한)과 0 미만 (또는 다른 하한). 같은 이유로 상한 근처의 예측은 체계적으로 너무 높은 경향이 있고, 하한 근처의 예측은 너무 낮은 경향이 있습니다. 선형 회귀의 기본 수학은 이와 같은 경향이 존재하지 않는다고 명시 적으로 가정합니다. 일반적으로 로지스틱 회귀 분석에 LPM을 적용 할만한 큰 이유는 없습니다.

또한 LPM을 포함하여 모든 OLS 회귀 모델을 특수한 종류의 GLM으로 정의 할 수 있으며이 맥락에서 LPM은 로지스틱 회귀와 관련이 있습니다.


답변

베타 회귀 (R 패키지가 있음을 이해함)를 조사하는 것이 가치가있을 수 있습니다.

http://www.jstatsoft.org/v34/i02/paper


답변