비교할 시계열 데이터 세 세트가 있습니다. 그들은 약 12 일의 3 개의 별도 기간에 촬영되었습니다. 그들은 마지막 주 동안 대학 도서관에서 취한 평균, 최대 및 최소 인원 수입니다. 시간당 헤드 수는 연속적이지 않기 때문에 평균, 최대 및 최소를 수행해야했습니다 (시계열의 정규 데이터 간격 참조 ).
이제 데이터 세트는 다음과 같습니다. 12 저녁 동안 저녁마다 하나의 데이터 포인트 (평균, 최대 또는 최소)가 있습니다. 12 일 동안 만 3 학기 동안 데이터를 수집했습니다. 예를 들어 Spring 2010, Fall 2010 및 2011 년 5 월에는 각각 12 점 세트가 있습니다. 예제 차트는 다음과 같습니다.
학기마다 패턴이 어떻게 변하는 지보고 싶기 때문에 학기를 겹쳤습니다. 그러나 링크 된 스레드 에서 들었 듯이 사이에 데이터가 없기 때문에 학기를 앞뒤로 두드리는 것은 좋지 않습니다.
문제는 다음과 같습니다. 각 학기의 출석 패턴을 비교하기 위해 어떤 수학적 기법을 사용할 수 있습니까? 시계열에 특별한 것이 있습니까, 아니면 단순히 백분율 차이를 취할 수 있습니까? 저의 목표는 요즘 도서관 이용이 증가하거나 감소하고 있다는 것입니다. 나는 그것을 보여주기 위해 어떤 기술을 사용 해야하는지 잘 모르겠습니다.
답변
고정 효과 ANOVA (또는 선형 회귀 등가)는 이러한 데이터를 분석하는 강력한 방법을 제공합니다. 예를 들어, 다음은 저녁 당 평균 HC의 플롯과 일치하는 데이터 세트입니다 (색당 하나의 플롯).
| Color
Day | B G R | Total
-------+---------------------------------+----------
1 | 117 176 91 | 384
2 | 208 193 156 | 557
3 | 287 218 257 | 762
4 | 256 267 271 | 794
5 | 169 143 163 | 475
6 | 166 163 163 | 492
7 | 237 214 279 | 730
8 | 588 455 457 | 1,500
9 | 443 428 397 | 1,268
10 | 464 408 441 | 1,313
11 | 470 473 464 | 1,407
12 | 171 185 196 | 552
-------+---------------------------------+----------
Total | 3,576 3,323 3,335 | 10,234
에 count
대한 분산 day
및 color
이 테이블을 생성합니다.
Number of obs = 36 R-squared = 0.9656
Root MSE = 31.301 Adj R-squared = 0.9454
Source | Partial SS df MS F Prob > F
-----------+----------------------------------------------------
Model | 605936.611 13 46610.5085 47.57 0.0000
|
day | 602541.222 11 54776.4747 55.91 0.0000
colorcode | 3395.38889 2 1697.69444 1.73 0.2001
|
Residual | 21554.6111 22 979.755051
-----------+----------------------------------------------------
Total | 627491.222 35 17928.3206
model
0.0000 의 p- 값은 적합도가 매우 중요 함을 나타냅니다. day
0.0000 의 p- 값도 매우 중요합니다. 매일 변화를 감지 할 수 있습니다. 그러나 color
0.2001 의 (학기) p- 값은 중요하게 간주되지 않아야합니다 . 매일 변동을 제어 한 후에도 세 학기 간의 체계적인 차이를 감지 할 수 없습니다 .
Tukey의 HSD ( “정직한 유의미한 차이”) 테스트는 0.05 수준에서 매일 평균 (학기에 관계없이)의 다음과 같은 중대한 변화를 식별합니다.
1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.
이것은 그래프에서 눈이 볼 수있는 것을 확인합니다.
그래프가 꽤 많이 움직이기 때문에 시계열 분석의 전체 지점 인 일상 상관 관계 (직렬 상관 관계)를 감지 할 수있는 방법이 없습니다. 다시 말해, 시계열 기술에 신경 쓰지 마십시오. 더 큰 통찰력을 제공하기에 충분한 데이터가 없습니다.
통계 분석 결과를 얼마나 많이 믿을 수 있는지 항상 궁금해야합니다. 이분산성에 대한 다양한 진단 (예 : Breusch-Pagan 테스트 )은 아무 것도 보여주지 않습니다. 잔차는 매우 정상적이지 않으며 (일부 그룹으로 묶임) 모든 p- 값은 한 알의 소금으로 가져와야합니다. 그럼에도 불구하고, 이들은 합리적인 지침을 제공하고 그래프를 통해 얻을 수있는 데이터의 의미를 정량화하는 데 도움이되는 것으로 보입니다.
일일 최소값 또는 일일 최대 값에 대해 병렬 분석을 수행 할 수 있습니다. 가이드와 유사한 플롯으로 시작하고 통계 출력을 확인하십시오.
답변
Sarah, 36 개의 숫자 (사이클 당 12 개 값, 3주기)를 가져 와서 학기당 가능한 주중 효과를 반영하는 11 개의 지표로 회귀 모델을 구성한 다음 렌더링에 필요한 개입 시리즈 (펄스, 레벨 시프트)를 식별하십시오. 잔차의 평균은 모든 곳에서 0.0이거나 적어도 0.0과 통계적으로 크게 다르지 않습니다. 예를 들어, 기간 13에서 레벨 이동을 식별하는 경우 이는 첫 번째 학기 평균 (즉, 첫 12 개 값)과 마지막 두 학기 평균 (마지막 24 개 값) 사이의 통계적으로 유의 한 차이를 암시 할 수 있습니다. 매주 학기 효과가없는 가설을 추론하거나 테스트 할 수 있습니다. 이와 관련하여 좋은 시계열 패키지가 유용 할 수 있습니다. 이 분석 분야에서 도움을 줄 사람을 찾아야 할 수도 있습니다.