태그 보관물: poisson-distribution

poisson-distribution

CLT가 사용하십시오.λ N λ X ~

우리의 합 알고 그래서 매개 변수를 사용하여 물고기 자리 자체에 포아송입니다 . 따라서 가설 적으로 취할 수 있고 실제로 이라고 말할 수 있습니다 . 각 는 다음과 같습니다. , CLT가 작동하려면 큰 n을 사용하십시오.λ N λ X ~ P O I S S O n은 ( λ = 1 ) Σ n은 1 X I ~ P O I S S O N (

n

λ

x∼poisson(λ=1)

∑1nxi∼poisson(λ=1)

xi

xi∼poisson(λ=1/n)

이것은 (분명히) 작동하지 않습니다. CLT가 정규 변수에 “더 가까운”랜덤 변수에 대해 “빠르게”작동하는 방식과 관련이 있다고 가정하고, 람다가 작을수록 대부분 0 인 랜덤 변수를 얻을수록 다른 변수는 거의 변하지 않습니다.

그러나 내가 설명 한 것은 직관입니다. 이것이 왜 그런지를 설명하는보다 공식적인 방법이 있습니까?

감사!



답변

나는 혼란의 근본 원인이 CLT의 요약 점근선을 당신의 주장의 일종으로 나누는 것으로 보인다는 @whuber에 동의합니다. CLT에서 우리는 고정 분포 얻은 다음 그것으로부터 n 숫자 x i 그리고 합 ˉ x n = 1을 계산합니다

f(x,λ)

n

xi

. n을계속 증가 시키면흥미로운 일이 발생합니다.

x¯n=1n∑i=1nxi

n


여기서μ,σ2는 평균 및 분포f(x)의 분산입니다.

n(x¯n−μ)→N(0,σ2)

μ,σ2

f(x)

당신이 포아송와 함께 할 제안하고 다소 거꾸로 : 대신에서 변수를 합산의 고정 유통, 당신이 원하는 분할 고정 에 분배 적 변화 부분. 환언하면 가변 받아 (A)로부터 고정 분포 F ( X , λ를 ) 다음 분할 로하여 X 내가 되도록 N Σ= 1 X IX

x

f(x,λ)

xi

∑i=1nxi≡x

CLT는이 과정에 대해 무엇을 말합니까? 아무것도. CLT에서 어떻게 우리가 변화했는지 , 그변화분포FN(X)하는 수렴고정분포N(0,σ2)

n(x¯n−μ)

fn(x)

N(0,σ2)

설정에서 합계 와 분포 f ( x , λ ) 는 변하지 않습니다! 그들은 고정되어 있습니다. 그들은 변하지 않고 아무것도 수렴하지 않습니다. 따라서 CLT는 이에 대해 아무 말도하지 않습니다.

x

f(x,λ)

또한 CLT는 합계의 요소 수에 대해 아무 것도 말하지 않습니다. Poisson (0.001)에서 1000 개의 변수 합계를 가질 수 있으며 CLT는 합계에 대해 아무 것도 말하지 않습니다. 그것은 당신이 N을 계속 증가하면 어떤 시점 에서이 합계는 정규 분포처럼 보이기 시작한다는 것입니다 . 실제로 N = 1,000,000이면 정규 분포의 근사값을 얻게됩니다.

1N∑i=1Nxi,xi∼Poisson(0.001)

직감은 합계의 요소 수에 대해서만 옳습니다. 즉, 시작 분포가 정규 분포와 다른 것보다 많으면 정규화하기 위해 더 많은 요소를 합산해야합니다. : 더 많은 형식 (하지만 여전히 비공식적 인) 방법은 푸 아송의 특성 기능을 보면 될 것이다
당신이 경우 λ > > 1 , 당신은 테일러 확장을 얻을 (WRT의 t ) 중첩 지수 :
EXP ( I λ t λ / 2 t (2)

exp⁡(λ(exp⁡(it)−1))

λ>>1

t


정규 분포 N ( λ , λ 2 ) 의 특성 함수입니다.

≈exp⁡(iλt−λ/2t2)

N(λ,λ2)

그러나 직감이 올바르게 적용되지 않습니다 .CLT의 합산을 일종의 나눗셈으로 바꾸면 문제가 발생하여 CLT가 적용되지 않습니다.


답변

예제의 문제점은 변경됨에 따라 매개 변수를 변경할 수 있다는 것 입니다. CLT는 유한 평균과 sd 를 갖는 고정 분포의 경우 n ,

n

n→∞

,

∑x−μn→dN(0,σ)

여기서 σx 분포의 평균과 sd에서 나온 것입니다 .

μ

σ

x

물론, 다른 분포 (즉, 더 높은 기울어 짐)에 대해, 이 정리로부터 도출 된 근사치가 합리적이되기 전에 더 큰 이 필요하다. 사용자의 예에 대해 λ m = 1 / m , N > > m은 통상 근사 합리적인 전에 요구된다.

n

λm=1/m

n>>m

편집하다

CLT가 합계에 적용되지 않고 표준화 된 합계에 적용되는 방법에 대한 논의가 있습니다 (예 : 하지Σ는XI을). 이론적으로 이것은 물론 사실입니다. 표준화되지 않은 합계는 대부분의 경우 정의되지 않은 분포를 갖습니다.

∑xi/n

∑xi

그러나 실제로 CLT가 정당화 한 근사값을 합계에 적용 할 수 있습니다! 경우 큰 위해 통상 CDF에 의해 근사화 될 수 N 다음 확실히 F Σ X 스칼라 보존의 정상 곱한 너무 수있다. 그리고이 문제에 바로이를 볼 수 있습니다 리콜을하면 것을 X 내가 ~ P ( λ는 ) 다음 Y = Σ N = 1 X I ~ P ( N λ )

Fx¯

n

F∑x

Xi∼Pois(λ)

Y=∑i=1nXi∼Pois(nλ)

. 그리고 우리 모두가 큰 대한 우리의 상단 분할 확률 과정에서 배운 , a의 CDF P O I S ( λ가 ) 와 함께 정상에 의해 아주 잘 근사 할 수 μ = λ , σ 2 = λ . 그래서 어떤 위해 고정 λ 우리의 CDF 근사 할 Y ~ P를 O를 I S ( N λ ) 와 매우 잘 Φ ( Y N λ

λ

Pois(λ)

μ=λ

σ2=λ

λ

Y∼Pois(nλ)

Φ(y−nλnλ)

for a large enough

n

if

λ>0

(approximation can trivially be applied if

λ=0

, but not the calculation of the CDF as I have written it).

While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.


답변

n

λn

λn=1

Sn=∑i=1nXi,n

. After all, it’s common to apply a CLT even in problems where the distributions of the components of the sum depend on

n

. It’s also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.

The key issue as I see it is that your construction implies the distribution of

Xi,n

depends on

n

in such a way that the parameter of the distribution of

Sn

does not grow in

n

. If you would instead have taken, for example,

Sn∼Poi(n)

and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a

Poi(λn)

distribution that allows for application of a CLT.

The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out,

Sn∼Poi(1)

for all

n

, so

Sn

cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.

A version of the theorem may be found in these notes by Hunter. Let

sn2=Var(Sn)

. The Lindeberg-Feller condition is that,

∀ϵ>0

:

1sn2∑i=1nE[Xi,n−1/n]2I(|Xi,n−1/n|>ϵsn)→0,n→∞

Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in

n

that

sn=1

for every

n

. For fixed

n

, we also have that the

Xi,n

are iid. Thus, the condition is equivalent to

nE[X1,n−1/n]2I(|X1,n−1/n|>ϵ)→0.

But, for small

ϵ

and large

n

,

nE[X1,n−1/n]2I(|X1,n−1/n|>ϵ)>nϵ2P(X1,n>0)=ϵ2n[1−e−1/n]=ϵ2n[1−(1−1/n+o(1/n))]=ϵ2+o(1),

which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of

Sn

for every

n

, but going through these calculations gives some indications of why it fails: if the variance didn’t die off as quickly in

n

you could have the condition hold.


답변