“단계적 회귀”는 어떻게 작동합니까? 빗 모델에

프로 빗 모델에 맞추기 위해 다음 R 코드를 사용했습니다.

p1 <- glm(natijeh ~ ., family=binomial(probit), data=data1)
stepwise(p1, direction='backward/forward', criterion='BIC')

나는 무엇을 알고 싶어 stepwise하고 backward/forward정확하게 수행하는 방법과 변수를 선택?



답변

단계별 선택의 원리

  1. 원하는 모든 변수가 포함 된 모형을 적합합니다. 이것은 현재 최고의 모델입니다.
  2. 당신은 하나 개의 변수를 제거 (또는 현재 최고의 모델에서 사용되지 않는 변수 중 하나를 추가)하고, 각각에 대해, 새 모델에 맞게, 그리고 당신에 따라, 각각의 이상으로하고 원래과 비교 BIC (또는 AIC 와 같은 다른 기준 ). 또 다른 “현재 최고의 모델”을 얻습니다.

BIC가 줄어들 때까지 2를 반복합니다. BIC의 로컬 최소값 만 가지고 있으므로 가능한 모든 변수 하위 집합 중에서 최상의 모델을 얻지 못할 수 있습니다. 그러나 어쨌든 일반적으로 너무 많은 것이 있으므로 너무 많은 작업없이 비트를 최적화하는 방법입니다.

Wikipedia에서 단계별 회귀모델 선택 을 참조하십시오 .


답변

단계적 회귀는 기본적으로 지정된 기준에 따라 공변량을 한 번에 하나씩 추가 / 삭제하여 회귀 모델에 적합합니다 (위의 예에서 기준은 BIC를 기반으로 함).

앞으로 지정 R하면 가장 간단한 모형 (예 : 하나의 공변량)으로 시작한 다음 한 번에 하나의 공변량을 추가하여 모형 BIC를 개선하는 모델 만 유지하도록합니다.

뒤로 지정 R하면 전체 모형 (즉, 모든 공변량을 가진 모형)으로 시작한 다음 한 번에 하나씩 공변량을 제거하여 BIC가 향상된다는 것을 알 수 있습니다.

단계적 회귀는 최적의 모형 선택 절차가 아니기 때문에 매우 위험한 통계 절차 일 수 있습니다. 이 방법은 모델 선택이 매우 열악 할 수 있으며 다중 비교와 같은 문제로부터 사용자를 보호하지 않기 때문입니다.


답변