경험적 평균이 값을 초과 할 것으로 예상되는 횟수 , 2 ,

대해 의 iid 랜덤 변수 시퀀스가 주어지면 , 경험적 평균 의 예상 횟수를 제한하려고합니다. 는 샘플을 계속 추출함에 따라 값을 초과합니다 .
$X_{i} \in [0, 1]$

X_{i} \in [0, 1]

$X_i \in [0,1]$ $i = 1, 2, . . ., n$

i = 1, 2, . . ., n

$i = 1,2,...,n$ $\frac{1}{n} \sum_{i = 1}^{n} X_{i}$

\frac{1}{n} \sum_{i = 1}^{n} X_{i}

$\frac{1}{n}\sum_{i=1}^n X_i$ $c \geq 0$

c \geq 0

$c \geq 0$

T \overset{d e f}{=} \sum_{j = 1}^{n} P ({\frac{1}{j} \sum_{i = 1}^{j} X_{i} \geq c})

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \mathbb{P} \left(\left\{ \frac{1}{j}\sum_{i=1}^j X_i \geq c\right\}\right)$

일부 대해 라고 가정 하면 Hoeffding의 부등식 을 사용 하여 $c = a + E [X]$

c = a + E [X]

$c = a + \mathbb{E}[X]$ $a > 0$

a > 0

$a > 0$

\begin{aligned} T & \leq \sum_{j = 1}^{n} e^{- 2 j a^{2}} \\ = \frac{1 - e^{- 2 a^{2} n}}{e^{2 a^{2}} - 1} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n e^{-2ja^2} \\ & = \frac{1 - e^{-2 a^2 n}}{e^{2 a^2}-1} \end{align}$

어느 것이 좋을지 모르지만 실제로는 꽤 느슨한 범위입니다.이 값을 묶는 더 좋은 방법이 있습니까? 다른 이벤트 (각 )가 명확하게 독립적이지 않기 때문에이 의존성을 악용 할 수있는 방법을 모릅니다 . 또한 가 평균보다 크다는 제한을 제거하는 것이 좋습니다 . $j$

j

$j$ $c$

c

$c$

편집 : Markov의 불평등 을 다음과 같이 사용하면 가 평균보다 큰 제한을 제거 할 수 있습니다 . $c$

c

$c$

\begin{aligned} T & \leq \sum_{j = 1}^{n} \frac{\frac{1}{j} E [X]}{c} \\ = \frac{E [X] H_{n}}{c} \end{aligned}

$\begin{align} \mathcal{T} & \leq \sum_{j=1}^n \frac{\frac{1}{j}\mathbb{E}[X]}{c} \\ & = \frac{\mathbb{E}[X]H_n}{c} \end{align}$
보다 일반적이지만 위의 경계보다 훨씬 나쁘지만 은 . $T$

T

$\mathcal{T}$ $c \leq E [X]$

c \leq E [X]

$c \leq \mathbb{E}[X]$

답변

이것은 다소 손으로 만든 접근 방식이며 이에 대한 의견을 보내 주셔서 감사합니다. 비판하는 사람들이 가장 도움이됩니다. OP가 올바르게 이해하면 OP는 표본 평균 계산합니다 . 여기서 각 표본에는 새 rv의 이전 표본 +1 관측치가 포함됩니다. 는 각 표본 평균의 분포를 나타냅니다 . 그럼 우리는 쓸 수 있습니다 ${\bar{x}}_{j}$

{\bar{x}}_{j}

$\bar x_j$ $F_{j}$

F_{j}

$F_j$

T \overset{d e f}{=} \sum_{j = 1}^{n} (1 - F_{j} (c)) = n - \sum_{j = 1}^{n} F_{j} (c)

$\mathcal{T} \overset{def}{=} \sum_{j=1}^n \left(1-F_j(c)\right) = n- \sum_{j=1}^n F_j(c)$

표본 평균 의 분포가 거의 정상적인 표본 크기 을 고려한 다음 표시하십시오 . 그럼 우리는 쓸 수 있습니다 $m$

m

$m$ $\hat{G}$

\hat{G}

$\hat G$

T = n - \sum_{j = 1}^{m} F_{j} (c) - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c) < n - \sum_{j = m + 1}^{n} {\hat{G}}_{j} (c)

$\mathcal{T} = n- \sum_{j=1}^m F_j(c)-\sum_{j=m+1}^n \hat G_j(c) < n-\sum_{j=m+1}^n \hat G_j(c)$

해결 우리가 구

여기서 통상 표준 인 cdf, 는 iid 프로세스의 표준 편차이고 는 평균입니다. 바운드에 삽입하고 다시 정렬 ${\hat{G}}_{j} (c)$

{\hat{G}}_{j} (c)

$\hat G_j(c)$

{\hat{G}}_{j} (c) = 1 - Φ (\frac{\sqrt{j}}{σ} (μ - c))

$\hat G_j(c) = 1- \Phi\left(\frac{\sqrt j}{\sigma}(\mu-c)\right)$ $Φ$

Φ

$\Phi$ $σ$

σ

$\sigma$ $μ$

μ

$\mu$

T < m + \sum_{j = m + 1}^{n} Φ (\frac{\sqrt{j}}{σ} (- a))

$\mathcal{T} < m+\sum_{j=m+1}^n \Phi\left(\frac{\sqrt j}{\sigma}(-a)\right)$

이 한계는 프로세스의 분산에 따라 달라집니다. 이것이 질문에 제시된 것보다 더 나은 범위입니까? 이것은 표본 평균의 분포가 "거의 정상"이되는 방법이 얼마나 "빠른지"에 달려 있습니다. 수치 예제를 제공하기 위해, 가정 이 . 또한 랜덤 변수가 에서 균일하다고 가정하십시오 . 그런 다음 및 입니다. 평균에서 10 % 편차를 고려하십시오 (예 : 설정) . 그런 다음 : 이미 경우 제안하는 범위 ( 의미 가 있음)가 더 엄격 해집니다. 들면 Hoeffding 바인드 $m = 30$

m = 30

$m= 30$ $[0, 1]$

[0, 1]

$[0,1]$ $σ = \sqrt{\frac{1}{12}}$

σ = \sqrt{\frac{1}{12}}

$\sigma = \sqrt \frac{1}{12}$ $μ = \frac{1}{2}$

μ = \frac{1}{2}

$\mu = \frac 12$ $a = 0.05$

a = 0.05

$a=0.05$ $n = 34$

n = 34

$n=34$ $n > 30$

n > 30

$n>30$ $n = 100$

n = 100

$n=100$ $78.5$

78.5

$78.5$ 내가 제안하는 경계는 입니다. Hoeffding는 수렴을 바인딩 (가) 나는 것을 제안 바인딩 동안 당신이 증가하면 20 % 편차 : 두 경계 사이의 차이는 감소하지만 계속 표시 의 Hoeffding가 수렴 바인딩 반면, 경계 나는 수렴한다고 제안한다 (즉, 일반 cdfs의 합은 전체 경계에 거의 기여하지 않는다).
좀 더 일반적으로, 우리는 대해 Hoeffding 바운드가 $36.2$

36.2

$36.2$ $\approx 199.5$

\approx 199.5

$\approx 199.5$ $\approx 38.5$

\approx 38.5

$\approx 38.5$ $a$

a

$a$ $a = 0.1$

a = 0.1

$a=0.1$ $49.5$

49.5

$49.5$ $30.5$

30.5

$30.5$
$n \to \infty$

n \to \infty

$n\rightarrow \infty$

H_{b} \to \frac{1}{e^{2 a^{2}} - 1}

$H_b\rightarrow \frac{1}{e^{2 a^2}-1}$
내 바인딩되는 동안

A_{b} \to m

$A_b \rightarrow m$

작은 값 때문에 (오히려 관심의 경우) 다수가되고, 그 경우 여전히 존재한다 샘플 등이더라도, 밀폐 그것을 능가 할 수는 서서히 표본 평균 수렴 분포 정규 분포. $a$

a

$a$ $H_{b}$

H_{b}

$H_b$ $A_{b}$

A_{b}

$A_b$

How IT

언제든지 물어보세요.

경험적 평균이 값을 초과 할 것으로 예상되는 횟수 , 2 ,

답변

답변