태그 보관물: delta-method

delta-method

로지스틱 회귀 분석에서 확률 비에 대한 신뢰 구간을 생성하는 다양한 방법 것임을 읽었 으며 지수 함수를

로지스틱 회귀에서 얻은 계수에서 승산 비에 대한 95 % 신뢰 구간을 구성하는 방법을 연구하고 있습니다. 로지스틱 회귀 모형을 고려하면

log⁡(p1−p)=α+βx

되도록 대조군 및 의 경우의 그룹.

x=0

x=1

나는 가장 간단한 방법은 대해 95 % CI를 구성하는 것임을 읽었 으며 지수 함수를 적용했습니다.

β

β^±1.96×SE(β^)→exp⁡{β^±1.96×SE(β^)}

내 질문은 :

  1. 이 절차를 정당화하는 이론적 이유는 무엇입니까? 나는 알고있다 및 최대 우도 추정량을 불변이다. 그러나 나는이 요소들 사이의 연결을 모른다.

    odds ratio=exp⁡{β}
  2. 델타 방법이 이전 절차와 동일한 95 % 신뢰 구간을 생성해야합니까? 델타 방법을 사용하면

    exp⁡{β^}∼˙N(β, exp⁡{β}2Var(β^))

    그때,

    exp⁡{β^}±1.96×exp⁡{β}2Var(β^)

    그렇지 않은 경우 가장 좋은 절차는 무엇입니까?



답변

  1. 절차에 대한 타당성은 에 대한 MLE의 점근 적 정규성이며 중앙 한계 정리와 관련된 인수의 결과입니다.

    β
  2. 델타 방법은 MLE를 중심으로 함수의 선형 (즉, 1 차 Taylor) 확장에서 비롯됩니다. 결과적으로 우리는 MLE의 점근 적 정상 성과 편견에 호소합니다.

무증상 적으로 동일한 대답을 제공합니다. 그러나 실제로는 더 밀접하게 보이는 것을 선호합니다. 이 예에서는 첫 번째가 덜 대칭적일 수 있으므로 첫 번째를 선호합니다.


답변

ISL의 예에서 신뢰 구간 방법 비교

Tibshirani, James, Hastie의 “통계 학습 소개” 책 은 임금 데이터 에서 다항 로지스틱 회귀도 4에 대한 신뢰 구간의 267 페이지에 를 제공합니다 . 책 인용하기 :

우리는 4 차 다항식으로 로지스틱 회귀를 사용하여 이진 이벤트 을 모델링합니다 . $ 250,000을 초과하는 적합 후부 임금 확률은 추정 95 % 신뢰 구간과 함께 파란색으로 표시됩니다.

wage>250

다음은 이러한 간격을 구성하는 두 가지 방법과 처음부터 구현하는 방법에 대한 주석을 간략히 요약 한 것입니다.

Wald / Endpoint 변환 간격

  • 선형 조합 에 대한 신뢰 구간의 상한 및 하한을 계산합니다 (Wald CI 사용).
    xTβ

  • 끝점 에 단조로운 변환을 적용 하여 확률을 구합니다.
    F(xTβ)

이후 의 단조 변화 인

Pr(xTβ)=F(xTβ)

xTβ

[Pr(xTβ)L≤Pr(xTβ)≤Pr(xTβ)U]=[F(xTβ)L≤F(xTβ)≤F(xTβ)U]

구체적으로 이것은 를 계산 한 다음 로짓 변환을 결과에 적용하여 하한과 상한을 얻습니다.

βTx±z∗SE(βTx)

[exTβ−z∗SE(xTβ)1+exTβ−z∗SE(xTβ),exTβ+z∗SE(xTβ)1+exTβ+z∗SE(xTβ),]

표준 오차 계산

최대 우도 이론은 의 근사 분산은 다음을 사용 하여 회귀 계수 의 공분산 행렬 를 사용하여 계산할 수 있음을 알려줍니다.

xTβ

Σ

Var(xTβ)=xTΣx

설계 행렬 와 행렬 를 다음 과 같이 정의하십시오.

X

V

X = [1x1,1…x1,p1x2,1…x2,p⋮⋮⋱⋮1xn,1…xn,p]    V = [π^1(1−π^1)0…00π^2(1−π^2)…0⋮⋮⋱⋮00…π^n(1−π^n)]

여기서 는 번째 관측치에 대한 번째 변수 의 값 이고 는 관측치 대한 예측 확률을 나타냅니다 .

xi,j

j

i

π^i

i

공분산 행렬은 다음과 같이 찾을 수 있습니다. 및 표준 오류는

Σ=(XTVX)−1

SE(xTβ)=Var(xTβ)

예측 확률에 대한 95 % 신뢰 구간은 다음과 같이 표시 될 수 있습니다.


델타 방법 신뢰 구간

이 방법은 함수 의 선형 근사 분산을 계산하고 이를 사용하여 큰 표본 신뢰 구간을 구성하는 것입니다.

F

Var[F(xTβ^)]≈∇FT Σ ∇F

여기서 는 기울기이고 는 추정 된 공분산 행렬입니다. 한 차원에서 :

Σ

∂F(xβ)∂β=∂F(xβ)∂xβ∂xβ∂β=xf(xβ)

여기서 는 의 미분입니다 . 이것은 다변량 사례에서 일반화됩니다.

f

F

Var[F(xTβ^)]≈fT xT Σ x f

우리의 경우 F는 미분 값이 로지스틱 함수 ( 표시됨)입니다.

π(xTβ)

π′(xTβ)=π(xTβ)(1−π(xTβ))

위에서 계산 된 분산을 사용하여 신뢰 구간을 구성 할 수 있습니다.

C.I.=[Pr(xβ^)−z∗Var[π(xβ^)]≤Pr(xβ^)+z∗Var[π(xβ^)]]

다변량 사례에 대한 벡터 형식

C.I.=[π(xTβ^)±z∗(π(xTβ^)(1−π(xTβ^)))TxT  Var[β^]  x  π(xTβ^)(1−π(xTβ^))]

  • 참고 단일 데이터 포인트 나타내는 설계 행렬의, 즉, 하나의 행
    x

    Rp+1

    X


개방 된 결론

확률과 음의 로그 확률에 대한 정규 QQ 그림을 보면 어느 것도 정규 분포가 아님을 알 수 있습니다. 이것이 차이점을 설명 할 수 있습니까?

출처:


답변

이 페이지 의 로그 변환과 관련하여 논의 된 것처럼 대부분의 경우 가장 간단한 방법이 가장 좋습니다 . 통계적 테스트를 수행하고 해당 로짓 척도에 신뢰 구간 (CI)을 정의하여 로짓 척도에서 분석되는 종속 변수를 생각해보십시오. 배당률에 대한 역변환은 단순히 그 결과를 독자가 더 쉽게 파악할 수있는 규모로 만드는 것입니다. 예를 들어, 콕스 생존 분석에서 회귀 계수 (및 95 % CI)를 지수화하여 위험 비율과 CI를 구합니다.


답변