두 데이터 세트 간의 유사성 정량화 을 요약하는

요약 : 가장 좋은 방법을 찾으려고 시도하면 단일 값을 사용하여 정렬 된 두 데이터 집합 간의 유사성을 요약합니다.

세부 사항 :

내 질문은 다이어그램으로 가장 잘 설명됩니다. 아래 그래프는 값이 각각 nf및로 표시된 두 개의 서로 다른 데이터 세트를 보여줍니다 nr. x 축의 점은 측정이 수행 된 위치를 나타내며 y 축의 값은 측정 된 결과 값입니다.

각 그래프 에 대해 각 측정 지점 의 유사성 nfnr값 을 요약하는 단일 숫자를 원합니다 . 이 예에서는 첫 번째 그래프의 결과가 두 번째 그래프의 결과와 덜 유사하다는 것이 시각적으로 명백합니다. 그러나 차이점이 분명하지 않은 다른 많은 데이터가 있으므로이를 정량적으로 순위를 매기는 것이 도움이 될 것입니다.

일반적으로 사용되는 표준 기술이있을 것으로 생각했습니다. 통계적 유사성을 검색하면 많은 다른 결과가 나왔지만 무엇을 선택해야하는지 또는 준비된 것이 내 문제에 적용되는지 확실하지 않습니다. 그래서 간단한 대답이있을 경우이 질문을 할 가치가 있다고 생각했습니다.

여기에 이미지 설명을 입력하십시오



답변

두 커브 사이의 영역에 차이가있을 수 있습니다. 따라서 합 (nr-nf) (모든 차이의 합)은 두 곡선 사이의 면적의 근사치입니다. 상대적으로 만들려면 sum (nr-nf) / sum (nf)를 사용할 수 있습니다. 각 그래프에 대해 2 개의 곡선 사이의 유사성을 나타내는 단일 값이 제공됩니다.

편집 : 위의 차이 합계 방법은 별도의 점 또는 관측치이며 연결된 선이나 곡선이 아닌 경우에도 유용하지만,이 경우 차이의 평균도 지표가 될 수 있으며 관측치 수


답변

‘유사성’의 의미를 더 정의해야합니다. 규모가 중요합니까? 아니면 모양 만?

모양 만 중요한 경우 두 시계열을 최대 값으로 정규화해야합니다 (따라서 모두 0에서 1까지).

선형 상관 관계를 찾고 있다면 간단한 피어슨 상관 관계 분석이 제대로 작동합니다. 이는 본질적으로 공분산을 측정합니다.

예를 들어, 시계열에 선 또는 다항식을 맞추고 (실질적으로 다듬기) 부드러운 다항식을 비교할 수있는 다른 기술이 있습니다.

주기적인 유사성을 찾고있는 경우 (즉, 시계열에 특정 정현파 성분 또는 계절성이있는 경우) 시계열 분해를 추세에 사용하고 계절 성분을 먼저 사용하십시오. 또는 FFT와 같은 것을 사용하여 주파수 영역의 데이터를 비교하십시오.

그것이 ‘유사한 것’이 무엇인지에 대한 더 많은 정의없이 내가 아는 모든 것에 관한 것입니다. 도움이 되길 바랍니다.


답변

모든 측정 지점에 (nr-nf)를 사용할 수 있습니다. 숫자가 작을수록 (절대 값) 값이 더 비슷합니다. 가장 과학적인 접근 방식은 아니지만 용서하십시오. 나는이 물건에 대한 공식적인 훈련이 없습니다. 비주얼의 숫자 표현을 찾고 있다면 그렇게해야합니다.