Wikipedia의 RNG 와 TLDP의$RANDOM
기능에 대해 읽었 지만이 결과를 실제로 설명하지는 않습니다.
$ max=$((6*3600))
$ for f in {1..100000}; do echo $(($RANDOM%max/3600)); done | sort | uniq -c
21787 0
22114 1
21933 2
12157 3
10938 4
11071 5
왜 약 2 배 이상의 값이 3, 4, 5보다 0, 1, 2 인 경향이 있지만 최대 모듈로를 변경하면 10 개의 값 모두에 거의 동일하게 분산됩니까?
$ max=$((9*3600))
$ for f in {1..100000}; do echo $(($RANDOM%max/3600)); done | sort | uniq -c
11940 0
11199 1
10898 2
10945 3
11239 4
10928 5
10875 6
10759 7
11217 8
답변
모듈로 바이어스의 주제를 확장하기 위해 공식은 다음과 같습니다.
max=$((6*3600))
$(($RANDOM%max/3600))
이 공식에서 $RANDOM
0-32767 범위의 임의의 값입니다.
RANDOM Each time this parameter is referenced, a random integer between
0 and 32767 is generated.
이것이 가능한 값에 어떻게 매핑되는지 시각화하는 데 도움이됩니다.
0 = 0-3599
1 = 3600-7199
2 = 7200-10799
3 = 10800-14399
4 = 14400-17999
5 = 18000-21599
0 = 21600-25199
1 = 25200-28799
2 = 28800-32399
3 = 32400-32767
따라서 수식에서 0, 1, 2의 확률은 4, 5의 두 배입니다. 그리고 3의 확률도 4, 5보다 약간 높습니다. 따라서 결과는 승자로 0, 1, 2, 패자는 4, 5로 나타납니다.
로 변경하면 다음 9*3600
과 같이 나타납니다.
0 = 0-3599
1 = 3600-7199
2 = 7200-10799
3 = 10800-14399
4 = 14400-17999
5 = 18000-21599
6 = 21600-25199
7 = 25200-28799
8 = 28800-32399
0 = 32400-32767
1-8의 확률은 동일하지만 0에 대한 약간의 편향이 있으므로 0은 100,000 회 반복 테스트에서 여전히 승자였습니다.
모듈로 바이어스를 수정하려면 먼저 공식을 단순화해야합니다 (0-5 만 원하는 경우 모듈러스는 6, 3600이 아닌 더 까다로운 숫자, 그 의미는 없습니다). 이 단순화만으로도 바이어스가 크게 줄어 듭니다 (32766은 0, 32767에서 1로 매핑되어 두 숫자에 대한 작은 바이어스를줍니다).
바이어스를 완전히 없애려면 (예를 들어) $RANDOM
보다 낮은 경우 다시 롤업해야합니다 32768 % 6
(사용 가능한 임의 범위에 완벽하게 매핑되지 않은 상태 제거).
max=6
for f in {1..100000}
do
r=$RANDOM
while [ $r -lt $((32768 % $max)) ]; do r=$RANDOM; done
echo $(($r%max))
done | sort | uniq -c | sort -n
검사 결과:
16425 5
16515 1
16720 0
16769 2
16776 4
16795 3
대안은 눈에 띄지 않는 바이어스 (32768 가능한 값보다 큰 차수)가없는 다른 임의의 소스를 사용하는 것입니다. 그러나 다시 롤 로직을 구현해도 아무 문제가 없습니다.
답변
이것은 모듈로 바이어스입니다. RANDOM
제대로 구성된 경우 0에서 32767 사이의 각 값은 동일한 확률로 생성됩니다. 모듈로를 사용하면 확률이 변경됩니다. 모듈로 위의 모든 값의 확률이 매핑 된 값에 추가됩니다.
귀하의 예에서 6×3600은 값 범위의 약 2/3입니다. 따라서 상위 3 분의 1의 확률은 하위 3 분의 3의 확률에 더해집니다. 즉, 0에서 2까지의 값은 3에서 5까지의 값에 비해 생성 될 가능성이 두 배가됩니다. 9 × 3600은 거의 32767이므로 모듈로 바이어스는 훨씬 작으며 32400에서 32767 사이의 값에만 영향을줍니다.
주요 질문에 대답하기 위해, 적어도 Bash에서 시드를 알고 있다면 무작위 시퀀스를 완전히 예측할 수 있습니다. 보기 intrand32
에서 variables.c
.