로지스틱 회귀에서 얻은 계수에서 승산 비에 대한 95 % 신뢰 구간을 구성하는 방법을 연구하고 있습니다. 로지스틱 회귀 모형을 고려하면
되도록 대조군 및 의 경우의 그룹.
나는 가장 간단한 방법은 대해 95 % CI를 구성하는 것임을 읽었 으며 지수 함수를 적용했습니다.
내 질문은 :
-
이 절차를 정당화하는 이론적 이유는 무엇입니까? 나는 알고있다 및 최대 우도 추정량을 불변이다. 그러나 나는이 요소들 사이의 연결을 모른다.
-
델타 방법이 이전 절차와 동일한 95 % 신뢰 구간을 생성해야합니까? 델타 방법을 사용하면
그때,
그렇지 않은 경우 가장 좋은 절차는 무엇입니까?
답변
-
절차에 대한 타당성은 에 대한 MLE의 점근 적 정규성이며 중앙 한계 정리와 관련된 인수의 결과입니다.
-
델타 방법은 MLE를 중심으로 함수의 선형 (즉, 1 차 Taylor) 확장에서 비롯됩니다. 결과적으로 우리는 MLE의 점근 적 정상 성과 편견에 호소합니다.
무증상 적으로 동일한 대답을 제공합니다. 그러나 실제로는 더 밀접하게 보이는 것을 선호합니다. 이 예에서는 첫 번째가 덜 대칭적일 수 있으므로 첫 번째를 선호합니다.
답변
ISL의 예에서 신뢰 구간 방법 비교
Tibshirani, James, Hastie의 “통계 학습 소개” 책 은 임금 데이터 에서 다항 로지스틱 회귀도 4에 대한 신뢰 구간의 267 페이지에 예 를 제공합니다 . 책 인용하기 :
우리는 4 차 다항식으로 로지스틱 회귀를 사용하여 이진 이벤트 을 모델링합니다 . $ 250,000을 초과하는 적합 후부 임금 확률은 추정 95 % 신뢰 구간과 함께 파란색으로 표시됩니다.
다음은 이러한 간격을 구성하는 두 가지 방법과 처음부터 구현하는 방법에 대한 주석을 간략히 요약 한 것입니다.
Wald / Endpoint 변환 간격
- 선형 조합 에 대한 신뢰 구간의 상한 및 하한을 계산합니다 (Wald CI 사용).
- 끝점 에 단조로운 변환을 적용 하여 확률을 구합니다.
이후 의 단조 변화 인
구체적으로 이것은 를 계산 한 다음 로짓 변환을 결과에 적용하여 하한과 상한을 얻습니다.
표준 오차 계산
최대 우도 이론은 의 근사 분산은 다음을 사용 하여 회귀 계수 의 공분산 행렬 를 사용하여 계산할 수 있음을 알려줍니다.
설계 행렬 와 행렬 를 다음 과 같이 정의하십시오.
여기서 는 번째 관측치에 대한 번째 변수 의 값 이고 는 관측치 대한 예측 확률을 나타냅니다 .
공분산 행렬은 다음과 같이 찾을 수 있습니다. 및 표준 오류는
예측 확률에 대한 95 % 신뢰 구간은 다음과 같이 표시 될 수 있습니다.
델타 방법 신뢰 구간
이 방법은 함수 의 선형 근사 분산을 계산하고 이를 사용하여 큰 표본 신뢰 구간을 구성하는 것입니다.
여기서 는 기울기이고 는 추정 된 공분산 행렬입니다. 한 차원에서 :
여기서 는 의 미분입니다 . 이것은 다변량 사례에서 일반화됩니다.
우리의 경우 F는 미분 값이 로지스틱 함수 ( 표시됨)입니다.
위에서 계산 된 분산을 사용하여 신뢰 구간을 구성 할 수 있습니다.
다변량 사례에 대한 벡터 형식
- 참고 단일 데이터 포인트 나타내는 설계 행렬의, 즉, 하나의 행
개방 된 결론
확률과 음의 로그 확률에 대한 정규 QQ 그림을 보면 어느 것도 정규 분포가 아님을 알 수 있습니다. 이것이 차이점을 설명 할 수 있습니까?
출처:
- http://www.indiana.edu/~jslsoc/stata/ci_computations/xulong-prvalue-23aug2005.pdf
- /programming/47414842/confidence-interval-of-probability-prediction-from-logistic-regression-statsmode
- http://www.indiana.edu/~jslsoc/stata/ci_computations/xulong-prvalue-23aug2005.pdf
- http://www.indiana.edu/~jslsoc/stata/ci_computations/spost_deltaci.pdf
답변
이 페이지 의 로그 변환과 관련하여 논의 된 것처럼 대부분의 경우 가장 간단한 방법이 가장 좋습니다 . 통계적 테스트를 수행하고 해당 로짓 척도에 신뢰 구간 (CI)을 정의하여 로짓 척도에서 분석되는 종속 변수를 생각해보십시오. 배당률에 대한 역변환은 단순히 그 결과를 독자가 더 쉽게 파악할 수있는 규모로 만드는 것입니다. 예를 들어, 콕스 생존 분석에서 회귀 계수 (및 95 % CI)를 지수화하여 위험 비율과 CI를 구합니다.