로지스틱 회귀를 사용하여 당뇨병 예측을 모델링하고 있습니다. 사용 된 데이터 세트는 질병 통제 센터 (CDC) 의 행동 위험 요소 감시 시스템 (BRFSS) 입니다. 독립 변수 중 하나는 고혈압입니다. ‘예’, ‘아니요’, ‘알지 못함 / 거부 됨’수준으로 분류됩니다. 모델을 빌드하는 동안 ‘알 수 없음 / 거부 됨’으로 해당 행을 제거해야합니까? 모델에서 해당 행을 유지하거나 제거하는 데 어떤 차이점이 있습니까?
답변
최신 National Hospital Discharge Survey 데이터를 분석 할 때 정확히 같은 질문에 대해 궁금했습니다 . 결혼 상태 및 절차 유형과 같은 몇 가지 변수에는 실질적으로 결 측값이 있습니다. 이 범주는 내가 실행중인 대부분의 로지스틱 회귀 분석에서 강한 (그리고 중요한) 영향으로 나타났기 때문에 주목을 받았습니다.
하나는 왜 궁금해하는 경향이 있습니다누락 된 코드가 제공됩니다. 예를 들어 결혼 여부의 경우이 정보를 제공하지 않으면 사회 경제적 상태 또는 질병 유형과 같은 중요한 요소와 연결될 수 있습니다. 고혈압의 경우, 그 가치를 알 수 없거나 거부 할 이유를 물어야합니다. 이것은 기관에서의 관행 (아마도 느슨한 절차를 반영)이나 심지어 개인 (종교적 신념 등)과 관련이있을 수 있습니다. 이러한 특성은 차례로 당뇨병과 관련 될 수 있습니다. 따라서 이러한 값을 누락 (분석에서 모두 제외)으로 코딩하거나 값을 대치하려고 시도하는 것 (제공하는 정보를 효과적으로 숨기고 결과를 편향시킬 수 있음)보다는 현재 상태를 유지하는 것이 현명한 것으로 보입니다. 실제로 더 이상 어렵지 않습니다. 이 변수가 범주 형으로 취급되는지 확인하기 만하면 회귀 출력에 계수가 하나 더 생깁니다. 또한 BRFSS 데이터 세트가 전력에 대해 걱정할 필요가 없을만큼 충분히 크다고 생각합니다.
답변
먼저 결측 데이터 (MCAR)가 완전히 누락되거나 무작위로 누락되거나 (MAR) 결측이 아닌 경우 (MNAR) 결측 (즉, 완전 사례 분석)으로 인해 결과가 치우칠 수 있다는 점을 고려해야합니다. 대안은 역 확률 가중치, 다중 대치, 완전 우도 방법 및 이중 강력 방법입니다. 가장 쉬운 방법은 연쇄 방정식 (MICE)을 사용한 다중 대치입니다.
답변
당뇨병을 가진 연구 대상이 DK / R 반응을 일으킬 가능성이 더 높거나 적다고 생각할만한 이유가 있습니까? 그렇지 않은 경우 (이 경우를 제외하고 모델 에이 예측 변수를 포함하면이 경우를 제외하고는 매우 놀랐습니다) 노이즈가 발생합니다. 즉, “예”와 “아니오”가 당뇨병의 예상 확률에 어떻게 영향을 미치는지 평가할 때 정확도가 떨어집니다 ( “예”또는 “아니오”의 영향을 모델링하려고 시도하기 때문에) “예”와 “아니오”가 아닌 무작위 DK / R 응답). 가장 간단한 옵션은 DK / R 응답이있는 사례를 제외하는 것입니다. “예 / 아니오”응답이 실제로 임의로 누락되었다고 가정 할 경우, “예”의 영향에 대한 추정치는 “예”대 “아니.” 그러나이 방법을 사용하면 표본 크기가 줄어들어 나머지 예측 변수와 관련된 통계적 검정력이 줄어 듭니다. 이 변수에 대해 많은 DK / R이있는 경우 여러 대치에 의해 “예”/ “아니오”응답을 대치 할 수 있습니다 (아마도 가장, 아마도 방어 적 결 측값 대치 전략).