태그 보관물: categorical-data

categorical-data

범주 형 변수를 사용하여 로짓 회귀 분석의 교호 작용 항 해석

응답자가 네 그룹 중 하나에 무작위로 할당 된 설문 조사 실험의 데이터가 있습니다.

> summary(df$Group)
       Control     Treatment1     Treatment2     Treatment3 
            59             63             62             66 

세 가지 치료 그룹은 적용되는 자극이 약간 다르지만, 내가 관심을 갖는 주요 차이점은 대조군과 치료 그룹 사이에 있습니다. 그래서 더미 변수를 정의했습니다 Control.

> summary(df$Control)
     TRUE FALSE 
       59   191 

설문 조사에서 응답자들은 다른 두 가지 중에서 선호하는 두 가지 중 하나를 선택하도록 요청했습니다.

> summary(df$Prefer)
      A   B  NA's 
    152  93   5 

그런 다음 치료 그룹에 의해 결정된 자극을 받고 (대조군에 속해 있지 않은 경우) 자극을받은 후 응답자에게 동일한 두 가지 중에서 선택하도록 요청했습니다.

> summary(df$Choice)
  A    B 
149  101 

나는 세 가지 치료 그룹 중 하나에있는 존재가이 마지막 질문에서 응답자가 선택한 선택에 영향을 미쳤는지 알고 싶습니다. 내 가설은 치료를받은 응답자가보다 더 선택할 가능성이 높다는 AB입니다.

범주 형 데이터로 작업 중이므로 로짓 회귀 분석을 사용하기로 결정했습니다 (정확하지 않다고 생각되면 자유롭게 들리십시오). 응답자가 무작위로 할당되었으므로 다른 변수 (예 : 인구 통계)를 제어 할 필요가 없다는 인상을 받고 있으므로이 질문에 대해서는 제외했습니다. 첫 번째 모델은 다음과 같습니다.

> x0 <- glm(Product ~ Control + Prefer, data=df, family=binomial(link="logit"))
> summary(x0)

Call:
glm(formula = Choice ~ Control + Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-1.8366  -0.5850  -0.5850   0.7663   1.9235  

Coefficients:
                    Estimate Std. Error z value Pr(>|z|)    
(Intercept)           1.4819     0.3829   3.871 0.000109 ***
ControlFALSE         -0.4068     0.3760  -1.082 0.279224    
PreferA              -2.7538     0.3269  -8.424  < 2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 239.69  on 242  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 245.69

Number of Fisher Scoring iterations: 4

나는 통계적으로 중요한 절편이 해석 가능한 의미를 갖는 것이 아니라는 인상을 받고있다. 아마도 다음과 같이 상호 작용 용어를 포함시켜야한다고 생각했습니다.

> x1 <- glm(Choice ~ Control + Prefer + Control:Prefer, data=df, family=binomial(link="logit"))
> summary(x1)

Call:
glm(formula = Product ~ Control + Prefer + Control:Prefer, family = binomial(link = "logit"), 
    data = df)

Deviance Residuals: 
    Min       1Q   Median       3Q      Max  
-2.5211  -0.6424  -0.5003   0.8519   2.0688  

Coefficients:
                                 Estimate Std. Error z value Pr(>|z|)    
(Intercept)                         3.135      1.021   3.070  0.00214 ** 
ControlFALSE                       -2.309      1.054  -2.190  0.02853 *  
PreferA                            -5.150      1.152  -4.472 7.75e-06 ***
ControlFALSE:PreferA                2.850      1.204   2.367  0.01795 *  
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1   1

(Dispersion parameter for binomial family taken to be 1)

    Null deviance: 328.95  on 244  degrees of freedom
Residual deviance: 231.27  on 241  degrees of freedom
  (5 observations deleted due to missingness)
AIC: 239.27

Number of Fisher Scoring iterations: 5

이제 치료 그룹에서와 같이 응답자 상태가 예상되는 영향을 미칩니다. 이 단계가 유효한 단계입니까? 상호 작용 항을 ControlFALSE:PreferA어떻게 해석 할 수 있습니까? 다른 계수는 여전히 로그 확률입니까?



답변

나는 A를 선호하고 그렇지 않으면 0을 선호 할 때 PreferA = 1, 처리 할 때는 ControlFALSE = 1, 통제 할 때는 0을 가정합니다.

사람이 이전에하지 않았고 치료를받지 않았을 때 A를 선점 할 확률 (ControlFALSE = 0 및 PreferA = 0)은 . 즉 23 명은 그러한 사람마다 A를 선호합니다 B를 선호합니다. 그래서 A는 매우 인기가 있습니다.

exp⁡(3.135)=23

치료제의 효과는 이전에 A를 선호하지 않은 사람을 나타냅니다 (PreferA = 0). 이 경우 기준 확률 은 치료를받을 때 또는 만큼 줄어 듭니다 . 따라서 치료를 받고 A를 선호하지 않은 사람들에 대해 A를 선택할 확률은 이므로 B를 선호하는 모든 사람들에 대해 A를 선호하는 사람이 2.3입니다. 처리되지 않은 / 기준선 그룹보다 B보다 적지 만 그렇지 않다.( 1 .099 ) × 100 % = 90.1 % .099 23 = 2.3

exp⁡(−2.309)=.099

(1−.099)×100%=−90.1%

.099∗23=2.3

A를 선호하는 효과는 이전에 통제자인 사람을 말합니다 (ControlFALSE = 0). 이 경우 누군가가 A를 선호했을 때 기준 확률은 또는 만큼 감소합니다 . (따라서 이전에 A를 페퍼 한 사람들은 지금 그렇게 할 가능성이 훨씬 적습니다 .99.4 %

.006

−99.4%

상호 작용 효과는 이전에 A를 선호했던 사람들과 그렇지 않은 사람들에 대한 치료 효과를 비교합니다. 어떤 사람이 이전에 A를 선호했다면 (PreferA = 1) , 치료 의 승산 비 는 인수 합니다. 따라서 이전에 A를 선호했던 치료의 승산 비는 입니다. 또는 이전에 A를 선호했던 치료의 승산 비는 로 계산할 수 있습니다 .17.3 × 0.099 = 1.71 특급 ( 2.850를 2.309를 )

exp⁡(2.850)=17.3

17.3×.099=1.71

exp⁡(2.850−2.309)

따라서 지수 상수는 기본 확률을 제공 하고, 주 효과의 지수 계수 는 다른 변수가 0 일 때 확률 비율 을 제공하며, 상호 작용 항의 지수 계수 는 확률 비율이 변경되지 않음으로써 비율을 알려줍니다 .


답변

또한이 문서가 로지스틱 회귀 분석의 상호 작용을 해석하는 데 도움이된다는 것을 알았습니다.

첸, JJ (2003). 복잡한 정보 전달 : 다중 로지스틱 회귀 분석에서 통계적 상호 작용 해석 . 미국 공중 보건 저널 , 93 (9), 1376-1377.


답변

로지스틱 회귀 분석에서 상호 작용을 해석하려고 할 때 선호하는 것은 범주 형 변수의 각 조합에 대해 예측 된 확률을 보는 것입니다. 귀하의 경우, 이것은 4 가지 확률 일 것입니다 :

  1. A를 선호하고, 참을 통제하십시오
  2. A를 선호하고, 거짓을 통제하십시오
  3. B를 선호하고, 진정한 통제
  4. B 선호, 거짓 제어

연속 변수가 있으면 보통 1 사분 위와 3 사 분위의 예측값을 봅니다.

이것이 각 계수의 해석에 직접적으로 영향을 미치지는 않지만 , 나는 그것이 종종 (그리고 내 고객) 명확한 상황에서 무슨 일이 일어나고 있는지 볼 수 있다는 것을 알게됩니다.


답변