우리의 합 알고 그래서 매개 변수를 사용하여 물고기 자리 자체에 포아송입니다 . 따라서 가설 적으로 취할 수 있고 실제로 이라고 말할 수 있습니다 . 각 는 다음과 같습니다. , CLT가 작동하려면 큰 n을 사용하십시오.λ N λ X ~ P O I S S O n은 ( λ = 1 ) Σ n은 1 X I ~ P O I S S O N (
이것은 (분명히) 작동하지 않습니다. CLT가 정규 변수에 “더 가까운”랜덤 변수에 대해 “빠르게”작동하는 방식과 관련이 있다고 가정하고, 람다가 작을수록 대부분 0 인 랜덤 변수를 얻을수록 다른 변수는 거의 변하지 않습니다.
그러나 내가 설명 한 것은 직관입니다. 이것이 왜 그런지를 설명하는보다 공식적인 방법이 있습니까?
감사!
답변
나는 혼란의 근본 원인이 CLT의 요약 점근선을 당신의 주장의 일종으로 나누는 것으로 보인다는 @whuber에 동의합니다. CLT에서 우리는 고정 분포 를 얻은 다음 그것으로부터 n 숫자 x i 를 그리고 합 ˉ x n = 1을 계산합니다
. n을계속 증가 시키면흥미로운 일이 발생합니다.
√
여기서μ,σ2는 평균 및 분포f(x)의 분산입니다.
당신이 포아송와 함께 할 제안하고 다소 거꾸로 : 대신에서 변수를 합산의 고정 유통, 당신이 원하는 분할 고정 에 분배 적 변화 부분. 환언하면 가변 받아 (A)로부터 고정 분포 F ( X , λ를 ) 다음 분할 로하여 X 내가 되도록 N Σ 난 = 1 X I ≡ X
CLT는이 과정에 대해 무엇을 말합니까? 아무것도. CLT에서 어떻게 우리가 변화했는지 , 그변화분포FN(X)하는 수렴고정분포N(0,σ2)
설정에서 합계 와 분포 f ( x , λ ) 는 변하지 않습니다! 그들은 고정되어 있습니다. 그들은 변하지 않고 아무것도 수렴하지 않습니다. 따라서 CLT는 이에 대해 아무 말도하지 않습니다.
또한 CLT는 합계의 요소 수에 대해 아무 것도 말하지 않습니다. Poisson (0.001)에서 1000 개의 변수 합계를 가질 수 있으며 CLT는 합계에 대해 아무 것도 말하지 않습니다. 그것은 당신이 N을 계속 증가하면 어떤 시점 에서이 합계는 정규 분포처럼 보이기 시작한다는 것입니다 . 실제로 N = 1,000,000이면 정규 분포의 근사값을 얻게됩니다.
직감은 합계의 요소 수에 대해서만 옳습니다. 즉, 시작 분포가 정규 분포와 다른 것보다 많으면 정규화하기 위해 더 많은 요소를 합산해야합니다. : 더 많은 형식 (하지만 여전히 비공식적 인) 방법은 푸 아송의 특성 기능을 보면 될 것이다
당신이 경우 λ > > 1 , 당신은 테일러 확장을 얻을 (WRT의 t ) 중첩 지수 :
≈ EXP ( I λ t – λ / 2 t (2)
정규 분포 N ( λ , λ 2 ) 의 특성 함수입니다.
그러나 직감이 올바르게 적용되지 않습니다 .CLT의 합산을 일종의 나눗셈으로 바꾸면 문제가 발생하여 CLT가 적용되지 않습니다.
답변
예제의 문제점은 변경됨에 따라 매개 변수를 변경할 수 있다는 것 입니다. CLT는 유한 평균과 sd 를 갖는 고정 분포의 경우 n → ∞ ,
,
여기서 와 σ 는 x 분포의 평균과 sd에서 나온 것입니다 .
물론, 다른 분포 (즉, 더 높은 기울어 짐)에 대해, 이 정리로부터 도출 된 근사치가 합리적이되기 전에 더 큰 이 필요하다. 사용자의 예에 대해 λ m = 1 / m , N > > m은 통상 근사 합리적인 전에 요구된다.
편집하다
CLT가 합계에 적용되지 않고 표준화 된 합계에 적용되는 방법에 대한 논의가 있습니다 (예 : 하지Σ는XI을). 이론적으로 이것은 물론 사실입니다. 표준화되지 않은 합계는 대부분의 경우 정의되지 않은 분포를 갖습니다.
그러나 실제로 CLT가 정당화 한 근사값을 합계에 적용 할 수 있습니다! 경우 큰 위해 통상 CDF에 의해 근사화 될 수 N 다음 확실히 F Σ X 스칼라 보존의 정상 곱한 너무 수있다. 그리고이 문제에 바로이를 볼 수 있습니다 리콜을하면 것을 X 내가 ~ P 오 난 의 ( λ는 ) 다음 Y = Σ N 전 = 1 X I ~ P 오 난 의 ( N λ )
. 그리고 우리 모두가 큰 대한 우리의 상단 분할 확률 과정에서 배운 , a의 CDF P O I S ( λ가 ) 와 함께 정상에 의해 아주 잘 근사 할 수 μ = λ , σ 2 = λ . 그래서 어떤 위해 고정 λ 우리의 CDF 근사 할 Y ~ P를 O를 I S ( N λ ) 와 매우 잘 Φ ( Y – N λ
for a large enough
if
(approximation can trivially be applied if
, but not the calculation of the CDF as I have written it).
While the CLT does not readily apply to sums, the approximation based on the CLT certainly does. I believe this is what the OP was referring to when discussing applying the CLT to the sum.
답변
. After all, it’s common to apply a CLT even in problems where the distributions of the components of the sum depend on
. It’s also common to decompose Poisson distributions as the distribution of a sum of Poisson variables, and then apply a CLT.
The key issue as I see it is that your construction implies the distribution of
depends on
in such a way that the parameter of the distribution of
does not grow in
. If you would instead have taken, for example,
and made the same decomposition, the standard CLT would apply. In fact, one can think of many decompositions of a
distribution that allows for application of a CLT.
The Lindeberg-Feller Central Limit Theorem for triangular arrays is often used to examine convergence of such sums. As you point out,
for all
, so
cannot be asymptotically normal. Still, examining the Lindeberg-Feller condition sheds some light on when decomposing a Poisson into a sum may lead to progress.
A version of the theorem may be found in these notes by Hunter. Let
. The Lindeberg-Feller condition is that,
:
Now, for the case at hand, the variance of the terms in the sum is dying off so quickly in
that
for every
. For fixed
, we also have that the
are iid. Thus, the condition is equivalent to
But, for small
and large
,
which does not approach zero. Thus, the condition fails to hold. Again, this is as expected since we already know the exact distribution of
for every
, but going through these calculations gives some indications of why it fails: if the variance didn’t die off as quickly in
you could have the condition hold.