과거 관측치에 따라 방금 도착한 데이터의 종속 변수 (예 : 행)의 값을 예측하기 위해 스트리밍 데이터 (다차원 시계열) 컨텍스트에서 이진 로지스틱 회귀 모델을 사용하고 싶습니다. 내가 아는 한, 로지스틱 회귀 분석은 전통적으로 사후 분석에 사용되며, 각 종속 변수는 이미 검사 또는 연구의 특성에 의해 설정되었습니다.
그러나 시계열의 경우 어떻게됩니까? 우리는 과거 데이터 (예를 들어 마지막 초의 시간 창에서 )와 이전의 데이터 측면에서 종속 변수에 대한 예측 (즉석에서)을 만들고 싶습니다. 종속 변수의 추정치는?
그리고 시간이 지남에 따라 위의 시스템을 보면 회귀가 작동하려면 어떻게 구성해야합니까? 데이터의 처음 50 개 행 (즉, 종속 변수를 0 또는 1로 설정)을 레이블링하여 먼저 훈련 한 다음 현재 추정 벡터 를 사용하여 새로운 확률을 추정해야합니까? 방금 도착한 데이터 (즉, 시스템에 방금 추가 된 새 행)에 대해 종속 변수가 0 또는 1입니까?
내 문제를보다 명확하게하기 위해 행별로 데이터 세트를 구문 분석하고 이전의 모든 종속 또는 설명에 대한 지식 (관찰 또는 추정)을 고려하여 이진 결과 (종속 변수)를 예측하려고하는 시스템을 구축하려고합니다. 고정 시간 창에 도착한 변수. 내 시스템은 Rerl에 있으며 추론에 R을 사용합니다.
답변
고려해야 할 두 가지 방법이 있습니다.
-
마지막 N 개의 입력 샘플 만 사용하십시오. 입력 신호의 크기가 D라고 가정하면 접지 진실 레이블 당 N * D 샘플이 있습니다. 이 방법을 사용하면 로지스틱 회귀를 포함하여 원하는 분류기를 사용하여 훈련 할 수 있습니다. 이러한 방식으로 각 출력은 다른 모든 출력과 독립적으로 간주됩니다.
-
마지막 N 입력 샘플과 생성 한 마지막 N 출력을 사용하십시오. 문제는 viterbi 디코딩 과 유사합니다 . 입력 샘플을 기반으로 비 이진 점수를 생성하고 viterbi 디코더를 사용하여 여러 샘플의 점수를 결합 할 수 있습니다. 이것은 출력 1 사이의 시간적 관계에 대해 무언가 있다면 방법 1보다 낫습니다.