MASS 패키지를 R
사용하여 MM 가중치 로 강력한 선형 모델을 추정했습니다 rlm()
. `R“은 모델에 값을 제공하지 않지만 의미있는 수량이라면 값을 원합니다. 또한 관측치가 강력한 회귀 분석에서 가중치를 적용한 것과 같은 방식으로 총 및 잔류 분산을 측정 하는 R 2 값을 갖는 데 어떤 의미가 있는지 알고 싶습니다 . 나의 일반적인 생각은, 회귀의 목적으로, 우리가 본질적으로 일부 추정치가 어떤 방식으로 이상치이기 때문에 약간의 영향을 덜주는 가중치를 가지고 있다면, 아마도 r 2 를 계산하기 위해 우리는 그것들을 제공해야한다는 것입니다 동일한 추정치가 덜 영향을 받습니까?
R2
r2
와 가중 R 2에 대해 두 가지 간단한 함수를 작성했습니다 . 아래에 있습니다. 또한 HI9라는 내 모델에 대해 이러한 기능을 실행 한 결과도 포함했습니다. 편집 : 나는 대한 수식을 제공 UNSW의 아델 코스터의 웹 페이지를 찾을 수 그 둘의 계산을 계산 가중치 벡터를 포함 하고 내가했던 것처럼, 그리고 더 공식적인 참조를 위해 그녀에게 물었다 : HTTP : //web.maths. unsw.edu.au/~adelle/Garvan/Assays/GoodnessOfFit.html (여전히 가중치 가중치 r 2 를 해석하는 방법에 대한 Cross Validated의 도움을 찾고 있습니다.)
R2R2 아르 자형2
#I used this function to calculate a basic r-squared from the robust linear model
r2 <- function(x){
+ SSe <- sum((x$resid)^2);
+ observed <- x$resid+x$fitted;
+ SSt <- sum((observed-mean(observed))^2);
+ value <- 1-SSe/SSt;
+ return(value);
+ }
r2(HI9)
[1] 0.2061147
#I used this function to calculate a weighted r-squared from the robust linear model
> r2ww <- function(x){
+ SSe <- sum((x$w*x$resid)^2); #the residual sum of squares is weighted
+ observed <- x$resid+x$fitted;
+ SSt <- sum((x$w*(observed-mean(observed)))^2); #the total sum of squares is weighted
+ value <- 1-SSe/SSt;
+ return(value);
+ }
> r2ww(HI9)
[1] 0.7716264
이에 답변하는 데 시간을 보낸 사람에게 감사합니다. 내가 놓친 것에 대해 이미 아주 좋은 참조가 있거나 위의 코드를 읽기 어려운 경우 사과드립니다 (코드 사람이 아닙니다).
답변
다음 답변은 (1) Willett and Singer에 대한 나의 해석 (1988) R- 제곱에 대한 또 다른주의 사항 : 가중 최소 스쿼트 회귀 분석에 사용됩니다. 미국 통계 학자. 42 (3). pp236-238, 및 (2) 강력한 선형 회귀는 반복 프로세스에 의해 추정 된 가중치와 본질적으로 최소 제곱 회귀에 가중치가 부여된다는 전제.
r2w에 대한 질문에서 내가 제시 한 공식은 r2wl에 대한 Willet and Singer (1988)의 방정식 4에 해당하는 작은 수정이 필요합니다. SSt 계산에는 가중 평균도 사용해야합니다.
the correction is SSt <- sum((x$w*observed-mean(x$w*observed))^2)].
이 (수정 된) 가중치 r- 제곱의 의미는 무엇입니까? Willett와 Singer는이를 “변환 된 [가중] 데이터 세트의 결정 계수로 해석합니다. 가중 의 변동 비율을 측정 한 것입니다.” 가중 X 에 의해 설명 될 수있는 Y 과 같이 출력됩니다. WLS 회귀 분석 수행시 주요 통계 컴퓨터 패키지에 의한 R2 “
적합도의 척도로 의미가 있습니까? 이것은 그것이 제시되고 해석되는 방법에 달려 있습니다. Willett와 Singer는 보통 최소 제곱 회귀 분석에서 얻은 r- 제곱보다 상당히 높으며 높은 값은 눈에 잘 띄는 표시를 장려하지만 …이 표시는 일반적인 r의 의미로 해석되면 기만적입니다. -제곱 ( 비가 중의 비율로)모델에 의해 설명 된 변형). 윌렛과 싱어는 덜 ‘기만적인’대안이 pseudoR2wls (그들의 방정식 7)이라고 제안했는데, 이것은 원래의 질문에서 내 함수 r2와 같습니다. 일반적으로 Willett와 Singer는 적합도의 유일한 척도로서 r2 (의 pseudor2wls)에 의존하는 것은 좋지 않다고 경고합니다. 이러한주의에도 불구하고, 강력한 회귀 분석의 전제는 전제 조건이 ‘좋지 않다’고 판단되며 모형 적합도에 포함되지 않으며,이를 모형 평가 과정의 일부로 반영하는 것이 좋습니다. 가중 된 r 제곱은 하나 일 수 있습니다. 적합도의 좋은 척도-정확한 해석이 프레젠테이션에 명확하게 제시되어 있고 적합도에 대한 유일한 평가에 의존하지 않는 한.
답변
@CraigMilligan. 하지 말아야 할 것 :
- 무게는 제곱 괄호 밖에 있어야합니다
- 가중 평균은 우리가 사용할 수있는 것으로 계산됩니다.
sum(x$w*observed)/sum(x$w)
weighted.mean(observed,x$w)
이 같은:
r2ww <- function(x){
SSe <- sum(x$w*(x$resid)^2)
observed <- x$resid+x$fitted
SSt <- sum(x$w*(observed-weighted.mean(observed,x$w))^2)
value <- 1-SSe/SSt;
return(value);
}