연속 종속 변수 y 와 순서 변수 X 1을 포함한 독립 변수가 주어지면 선형 모형을 R
어떻게 적합 합니까? 이 유형의 모델에 대한 논문이 있습니까?
답변
@Scortchi 는 정렬 된 공변량 에 대한 코딩에 대한 이 답변 을 다루었습니다 . 나는에 추천을 반복 한 내 대답 에 대한 설문 조사 응답에 두 인구의 IV의 효과 (리 커트 척도) . 특히 Gertheiss (2013) ordPens 패키지 를 사용하고 이론적 배경과 시뮬레이션 연구에 대해서는 Gertheiss and Tutz (2009a) 를 참조 하는 것이 좋습니다 .
원하는 특정 기능은 ordSmooth
* 입니다. 이것은 본질적으로 순서 변수의 레벨에 걸쳐 더미 계수를 평활화하여 인접 계급에 대한 계수와 덜 다르게하여 과적 합을 줄이고 예측을 향상시킵니다. 일반적으로 데이터가 실제로 순서적일 때 연속적 (또는 용어로, 메트릭) 데이터에 대한 회귀 모델의 최대 가능성 (즉,이 경우 보통 최소 제곱) 추정보다 최대 (또는 경우에 따라) 더 잘 수행합니다. 모든 종류의 일반화 선형 모형과 호환되는 것으로 보이며 명목 및 연속 예측 변수를 별도의 행렬로 입력 할 수 있습니다.
Gertheiss, Tutz 및 동료의 추가 참조가 아래에 나와 있습니다. 이 중 일부는 대안을 포함 할 수 있습니다. Gertheiss와 Tutz (2009a) 조차도 다른 대안으로 능선 재개에 대해 논의합니다. 나는 아직 그것을 스스로 파헤 치지 않았지만 이것이 서수 예측 자에 대한 너무 적은 문헌의 @Erik 문제를 해결한다고 말하기에 충분하다!
참고 문헌
-Gertheiss, J. (2013 년 6 월 14 일). ordPens : 순서 예측 자의 선택 및 / 또는 평활화 , 버전 0.2-1. http://cran.r-project.org/web/packages/ordPens/ordPens.pdf 에서 검색했습니다 .
-Gertheiss, J., Hogger, S., Oberhauser, C. & Tutz, G. (2011). 기능적 핵심 세트의 국제 분류에 적용 할 수있는 정규 척도 독립 변수 선택. 왕립 통계 학회지 : 시리즈 C (응용 통계), 60 (3), 377–395.
-Gertheiss, J., & Tutz, G. (2009a). 순서 예측 변수를 사용한 페널티 회귀 국제 통계 검토, 77 (3), 345–365. http://epub.ub.uni-muenchen.de/2100/1/tr015.pdf 에서 검색했습니다 .
-Gertheiss, J., & Tutz, G. (2009b). 블록 단위 부스팅을 통한 질량 분석 기반 단백질 프로 테밍 프로파일 링에서 기능 선택을 감독했습니다. 생물 정보학, 25 (8), 1076–1077.
-Gertheiss, J., & Tutz, G. (2009c). 가변 스케일링 및 가장 가까운 이웃 방법. 화학 저널, 23 (3), 149–151. -Gertheiss, J. & Tutz, G. (2010). 범주 설명 변수의 스파 스 모델링.
응용 통계의 연대기, 4 , 2150-2180.
-Hofner, B., Hothorn, T., Kneib, T., & Schmid, M. (2011). 부스팅 기반의 편향되지 않은 모델 선택을위한 프레임 워크입니다. 전산 및 그래픽 통계 저널, 20 (4), 956–971. http://epub.ub.uni-muenchen.de/11243/1/TR072.pdf 에서 검색했습니다 .
-Oelker, M.-R., Gertheiss, J., & Tutz, G. (2012). 일반화 된 선형 모형에서 범주 형 예측 변수 및 효과 수정자를 사용한 정규화 및 모형 선택. 통계청 : 기술 보고서, No. 122 . http://epub.ub.uni-muenchen.de/13082/1/tr.gvcm.cat.pdf 에서 검색했습니다 .
-Oelker, M.-R., & Tutz, G. (2013). 일반화 된 구조화 된 모델에서 서로 다른 유형의 페널티를 결합하기위한 일반적인 페널티 제품군. 통계청 : 기술 보고서, No. 139 . http://epub.ub.uni-muenchen.de/17664/1/tr.pirls.pdf 에서 검색했습니다 .
-Petry, S., Flexeder, C. & Tutz, G. (2011). 쌍으로 융합 된 올가미. 통계청 : 기술 보고서, No. 102. http://epub.ub.uni-muenchen.de/12164/1/petry_etal_TR102_2011.pdf 에서 검색했습니다 .
-Rufibach, K. (2010). 순서화 된 예측 변수가있는 일반화 된 선형 모형에서 모수를 추정하는 활성 집합 알고리즘입니다. 전산 통계 및 데이터 분석, 54 (6), 1442–1456. http://arxiv.org/pdf/0902.0240.pdf?origin=publication_detail 에서 검색했습니다 .
-Tutz, G. (2011 년 10 월). 범주 형 데이터의 정규화 방법 뮌헨 : Ludwig-Maximilians-Universität. http://m.wu.ac.at/it/departments/statmath/resseminar/talktutz.pdf 에서 검색했습니다 .
-Tutz, G., & Gertheiss, J. (2013). 예측 척도로 평가 척도 — 척도 수준의 오래된 질문과 일부 답변.Psychometrika , 1-20.
답변
예측 변수가 여러 개이고 관심있는 예측 변수가 순서 인 경우 변수를 코딩하는 방법을 결정하기가 어려운 경우가 많습니다. 범주 형으로 코딩하면 주문 정보가 손실되고 숫자로 코딩하면 실제 영향과는 거리가 먼 정렬 된 범주의 영향에 선형성이 적용됩니다. 전자의 경우, 등장 성 회귀는 비단 조성을 다루는 방법으로 제안되었지만, 다른 많은 데이터 중심 절차와 마찬가지로 최종 적합 모델과 유의성을 신중하게 평가해야하는 데이터 중심 모델 선택 절차입니다. 그 매개 변수의. 후자의 경우 스플라인은 엄격한 선형성 가정을 부분적으로 완화 할 수 있지만 여전히 정렬 된 범주에 숫자를 할당해야하며 결과는 이러한 선택에 민감합니다. 우리의 논문 (Li and Shepherd, 2010, Introduction, 단락 3-5)에서
결과 변수, 를 관심 서수 예측 자, 다른 공변량 이라고합시다 . 우리는 두 개의 회귀 모델, 하나에 맞게 제안 에 와 다른 에 두 모델의 잔차를 계산하고, 잔류 사이의 상관 관계를 평가합니다. Li and Shepherd (2010)에서 우리는 가 순 서형일 때이 접근 방식을 연구했으며 범주 의 효과 가 단조로운 한 매우 강력한 접근 방법이 될 수 있음을 보여주었습니다 . 우리는 현재 다른 결과 유형에 대한이 접근 방식의 성능을 평가하고 있습니다.
이 접근법은 에서 서수 의 회귀에 대한 적절한 잔차가 필요합니다 . 우리는 Li and Shepherd (2010)에서 서수 결과에 대한 새로운 잔차를 제안하고이를 사용하여 검정 통계량을 구성했습니다. 우리는이 잔재의 특성과 다른 용도를 별도의 논문에서 추가로 연구했다 (Li and Shepherd, 2012).
우리는 CRAN에서 구할 수 있는 R 패키지 PResiduals를 개발했습니다 . 패키지에는 선형 및 순서 결과 유형에 대한 접근 방식을 수행하는 기능이 포함되어 있습니다. Google은 다른 결과 유형 (예 : 개수) 및 기능 (예 : 상호 작용 허용)을 추가하기 위해 노력하고 있습니다. 이 패키지에는 다양한 회귀 모형에 대한 확률 척도 잔차 인 잔차를 계산하는 함수도 포함되어 있습니다.
참고 문헌
Li, C. & Shepherd, BE (2010). 공변량을 조정하면서 두 서수 변수 사이의 연관성을 테스트합니다. JASA, 105, 612–620.
BE, C. & Shepherd, BE (2012). 서수 결과의 새로운 잔차. Biometrika 99, 473–480.
답변
일반적으로 서수 변수에 의존하는 서수 변수에 대한 많은 문헌이 있으며 예측 변수로 사용하는 경우는 거의 없습니다. 통계적 실습에서는 일반적으로 연속적이거나 범주적인 것으로 가정합니다. 잔차를 확인하여 예측 변수가 연속 변수 인 선형 모형이 적합하게 보이는지 확인할 수 있습니다.
때로는 누적 적으로 코딩되기도합니다. 예를 들어, 레벨이 1,2 및 3 인 순서 변수 x1의 경우 x1> 1에 대한 더미 이진 변수 d1과 x1> 2에 대한 더미 이진 변수 d2가 있습니다. 그런 다음 d1에 대한 계수는 서수를 2에서 3으로 증가시킬 때 얻게되는 효과이고 d2에 대한 계수는 서수를 2에서 3으로 증가시킬 때 나타나는 효과입니다.
이렇게하면 해석이 더 쉬워 지지만 실제 목적을 위해 범주 형 변수로 해석하는 것과 같습니다.
Gelman 은 서수 예측 변수를 주요 요인에 대한 범주 형 요인과 모형의 유연성을 높이기 위해 연속 변수 (상호 작용에 대해)로 사용할 수 있다고 제안합니다.
나의 개인적인 전략은 보통 그것들을 연속적인 것으로 취급하는 것이 합리적이며 합리적인 모델을 만들어 내고 필요한 경우 범주로만 사용하는 것입니다.