태그 보관물: time-series

time-series

시계열 세트 비교 (시계열의 정규 데이터 간격 참조 ). 이제 데이터

비교할 시계열 데이터 세 세트가 있습니다. 그들은 약 12 ​​일의 3 개의 별도 기간에 촬영되었습니다. 그들은 마지막 주 동안 대학 도서관에서 취한 평균, 최대 및 최소 인원 수입니다. 시간당 헤드 수는 연속적이지 않기 때문에 평균, 최대 및 최소를 수행해야했습니다 (시계열의 정규 데이터 간격 참조 ).

이제 데이터 세트는 다음과 같습니다. 12 저녁 동안 저녁마다 하나의 데이터 포인트 (평균, 최대 또는 최소)가 있습니다. 12 일 동안 만 3 학기 동안 데이터를 수집했습니다. 예를 들어 Spring 2010, Fall 2010 및 2011 년 5 월에는 각각 12 점 세트가 있습니다. 예제 차트는 다음과 같습니다.

여기에 이미지 설명을 입력하십시오

학기마다 패턴이 어떻게 변하는 지보고 싶기 때문에 학기를 겹쳤습니다. 그러나 링크 된 스레드 에서 들었 듯이 사이에 데이터가 없기 때문에 학기를 앞뒤로 두드리는 것은 좋지 않습니다.

문제는 다음과 같습니다. 각 학기의 출석 패턴을 비교하기 위해 어떤 수학적 기법을 사용할 수 있습니까? 시계열에 특별한 것이 있습니까, 아니면 단순히 백분율 차이를 취할 수 있습니까? 저의 목표는 요즘 도서관 이용이 증가하거나 감소하고 있다는 것입니다. 나는 그것을 보여주기 위해 어떤 기술을 사용 해야하는지 잘 모르겠습니다.



답변

고정 효과 ANOVA (또는 선형 회귀 등가)는 이러한 데이터를 분석하는 강력한 방법을 제공합니다. 예를 들어, 다음은 저녁 당 평균 HC의 플롯과 일치하는 데이터 세트입니다 (색당 하나의 플롯).

       |              Color
   Day |         B          G          R |     Total
-------+---------------------------------+----------
     1 |       117        176         91 |       384
     2 |       208        193        156 |       557
     3 |       287        218        257 |       762
     4 |       256        267        271 |       794
     5 |       169        143        163 |       475
     6 |       166        163        163 |       492
     7 |       237        214        279 |       730
     8 |       588        455        457 |     1,500
     9 |       443        428        397 |     1,268
    10 |       464        408        441 |     1,313
    11 |       470        473        464 |     1,407
    12 |       171        185        196 |       552
-------+---------------------------------+----------
 Total |     3,576      3,323      3,335 |    10,234

count대한 분산 daycolor이 테이블을 생성합니다.

                       Number of obs =      36     R-squared     =  0.9656
                       Root MSE      =  31.301     Adj R-squared =  0.9454

              Source |  Partial SS    df       MS           F     Prob > F
          -----------+----------------------------------------------------
               Model |  605936.611    13  46610.5085      47.57     0.0000
                     |
                 day |  602541.222    11  54776.4747      55.91     0.0000
           colorcode |  3395.38889     2  1697.69444       1.73     0.2001
                     |
            Residual |  21554.6111    22  979.755051
          -----------+----------------------------------------------------
               Total |  627491.222    35  17928.3206

model0.0000 의 p- 값은 적합도가 매우 중요 함을 나타냅니다. day0.0000 의 p- 값도 매우 중요합니다. 매일 변화를 감지 할 수 있습니다. 그러나 color0.2001 의 (학기) p- 값은 중요하게 간주되지 않아야합니다 . 매일 변동을 제어 한 후에도 세 학기 간의 체계적인 차이를 감지 할 수 없습니다 .

Tukey의 HSD ( “정직한 유의미한 차이”) 테스트는 0.05 수준에서 매일 평균 (학기에 관계없이)의 다음과 같은 중대한 변화를 식별합니다.

1 increases to 2, 3
3 and 4 decrease to 5
5, 6, and 7 increase to 8,9,10,11
8, 9, 10, and 11 decrease to 12.

이것은 그래프에서 눈이 볼 수있는 것을 확인합니다.

그래프가 꽤 많이 움직이기 때문에 시계열 분석의 전체 지점 인 일상 상관 관계 (직렬 상관 관계)를 감지 할 수있는 방법이 없습니다. 다시 말해, 시계열 기술에 신경 쓰지 마십시오. 더 큰 통찰력을 제공하기에 충분한 데이터가 없습니다.

통계 분석 결과를 얼마나 많이 믿을 수 있는지 항상 궁금해야합니다. 이분산성에 대한 다양한 진단 (예 : Breusch-Pagan 테스트 )은 아무 것도 보여주지 않습니다. 잔차는 매우 정상적이지 않으며 (일부 그룹으로 묶임) 모든 p- 값은 한 알의 소금으로 가져와야합니다. 그럼에도 불구하고, 이들은 합리적인 지침을 제공하고 그래프를 통해 얻을 수있는 데이터의 의미를 정량화하는 데 도움이되는 것으로 보입니다.

일일 최소값 또는 일일 최대 값에 대해 병렬 분석을 수행 할 수 있습니다. 가이드와 유사한 플롯으로 시작하고 통계 출력을 확인하십시오.


답변

Sarah, 36 개의 숫자 (사이클 당 12 개 값, 3주기)를 가져 와서 학기당 가능한 주중 효과를 반영하는 11 개의 지표로 회귀 모델을 구성한 다음 렌더링에 필요한 개입 시리즈 (펄스, 레벨 시프트)를 식별하십시오. 잔차의 평균은 모든 곳에서 0.0이거나 적어도 0.0과 통계적으로 크게 다르지 않습니다. 예를 들어, 기간 13에서 레벨 이동을 식별하는 경우 이는 첫 번째 학기 평균 (즉, 첫 12 개 값)과 마지막 두 학기 평균 (마지막 24 개 값) 사이의 통계적으로 유의 한 차이를 암시 할 수 있습니다. 매주 학기 효과가없는 가설을 추론하거나 테스트 할 수 있습니다. 이와 관련하여 좋은 시계열 패키지가 유용 할 수 있습니다. 이 분석 분야에서 도움을 줄 사람을 찾아야 할 수도 있습니다.


답변