나는 논문에서 로지스틱 회귀의 사용을 이해하려고 애썼다. 사용할 수있는 종이 여기가 백내장 수술 중 합병증의 가능성을 예측하기 위해 로지스틱 회귀 분석을 사용합니다.
나를 혼란스럽게하는 것은 종이가 다음과 같이 1에 대한 승산 비를 기준선에 할당하는 모델을 제시한다는 것입니다.
위험 프로파일이 모든 위험 지표에 대해 기준 그룹에있는 환자 (즉, 표 1의 모든 것에 대해 OR = 1.00으로 조정 된)는 ‘기준 위험 프로파일’을 갖는 것으로 간주 될 수 있으며, 로지스틱 회귀 모델은 ‘기준 예측 확률’을 나타냅니다. PCR 또는 VL 또는 둘 다 = .736 %.
따라서 0.00736의 확률은 승산 비 1로 표시됩니다. 확률에서 승산 비로의 변환을 기준으로 는 1 : 같을 수 없습니다. .
더욱 혼란스러워집니다. 기준선과 다른 값을 갖는 다중 공변량을 나타내는 복합 승산 비를 사용하여 예측 위험을 계산합니다.
… 표 1의 합성 OR은 1.28 X 1.58 X 2.99 X 2.46 X 1.45 X 1.60 = 34.5이며, 그림 1의 그래프에서이 OR은 예측 된 PCR 또는 VL 확률 또는 약 20 %
논문으로 제시 한 가치에 도달하는 유일한 방법은 다음과 같이 기준 확률에 복합 확률을 곱하는 것입니다.
.
무슨 일이야? 확률 비 1을 0.5가 아닌 기준 확률에 할당하는 논리는 무엇입니까? 위에서 설명한 업데이트 공식은 논문의 예에 대한 올바른 확률을 제시하지만 이것은 내가 기대할 확률 비율의 직접적인 곱셈이 아닙니다. 그때는 무엇입니까?
답변
승률 은 기회를 표현하는 방법입니다. 승률 은 단지 하나입니다. 한 배당률은 다른 배당률로 나뉩니다. 즉, 승산 비는 한 승산에 다른 승산을 곱한 것입니다. 이 일반적인 상황에서 어떻게 작동하는지 봅시다.
확률과 확률 사이의 변환
이진 응답 확률 (코딩이 일어나는 확률의 비율이다 1 기록) 잠 ( Y = 1 ) 가 (코딩되지 않는 확률로 0 기입) 잠 ( Y = 0 ) :
오른쪽의 등가 표현 은 확률을 찾기 위해 모델이면 충분하다는 것을 보여줍니다 . 반대로, 우리는 해결할 수 있습니다
로지스틱 회귀
로지스틱 회귀 분석 은 Y 확률의 로그 를 설명 변수의 선형 함수로 모델링합니다 . 가장 일반적으로 이러한 변수를 x 1 , … , x p 로 쓰고 선형 함수에 가능한 상수 항을 포함하여 계수 (데이터에서 추정되어야 함)의 이름을 β 1 , … , β p 및 β 0 . 공식적으로 이것은 모델을 생성합니다
로그를 취소하면 확률 자체를 복구 할 수 있습니다.
범주 형 변수 사용
예컨대 연령, 성별, 녹내장의 존재와 같은 범주 형 변수 등 , “코딩 더미.”에 의하여 포함된다 변수가 어떻게 코딩되는지는 중요하지 않다는 것을 보여주기 위해 하나의 작은 그룹에 대한 간단한 예를 제공 할 것입니다. 여러 그룹에 대한 일반화는 분명해야합니다. 이 연구에서 변수 하나는 “대형”, “중간”및 “소형”의 세 가지 범주가있는 “학생 크기”입니다. (연구 취급이 분명히 고유의 순서에 아무런주의를 기울이지 않는다. 순전히 범주로) 직관적으로, 각 카테고리는 자신의 확률을 가지고 말 , “대형”에 대한 α M “중간”을위한 α S “작은”에 대한 . 이것은 다른 모든 것들이 동일하다는 것을 의미합니다.
‘큰’카테고리의 모든 사용자에게
‘중간’카테고리의 모든 사용자
“작은”카테고리의 사용자
식별 가능한 계수 만들기
첫 번째 두 계수를 색칠하여 강조 표시했습니다. 왜냐하면 간단한 변경이 가능하다는 것을 알기를 원하기 때문입니다. 우리는 임의의 숫자 선택할 수 있고 β 0 에 더하고 α L , α 에서 각각 빼서 M , 및 α S는 , 우리는 어떤 예측 가능성을 변경하지 않을 것입니다. 이것은 형식의 명백한 동등성 때문입니다
등 모델에 대한 문제는이 선물을 비록 – 아직 정확히 같은 일을 예측하지 – 매개 변수가 그 자체로 해석되지된다는 사실을 보여줍니다. 이 더하기 빼기 조작을 수행 할 때 동일하게 유지되는 것은 계수 간의 차이 입니다. 일반적으로, 이러한 식별성의 부족 을 해결하기 위해 사람들 (및 기본적으로 소프트웨어)은 각 변수의 범주 중 하나를 “기본”또는 “참조”로 선택하고 계수가 0이되도록 간단히 규정합니다. 모호성을 제거합니다.
이 논문은 참조 범주를 먼저 나열합니다. 이 경우 “큰”입니다. 따라서, 각각으로부터 감산 α L , α M , 및 α S 및 첨가 β 0 보상.
따라서 모든 기본 범주에 속하는 가상의 개인에 대한 로그 확률은 과 다른 모든 “공변량”(비범 주형 변수)과 관련된 많은 용어와 같습니다.
확률 비교
확률을 비교해 봅시다. 가상의 개인이
흰색 백내장, 재정적 견해 및 전문 등록 기관이 운영하는 작은 학생이있는 80-89 세 남성 환자 …
이것은 정확하게이 환자의 로그 확률이베이스와 다른 정도입니다. 로그 승산에서 변환하려면 로그를 취소하고 더하기가 곱셈으로 바뀌는 것을 상기하십시오. 따라서 기본 배당률은
These are the numbers given in the table under “Adjusted OR” (adjusted odds ratio). (It is called “adjusted” because covariates
were included in the model. They play no role in any of our calculations, as you will see. It is called a “ratio” because it is precisely the amount by which the base odds must be multiplied to produce the patient’s predicted odds: see the first paragraph of this post.) In order in the table, they are
,
,
, and so on. According to the article, their product works out to
. Therefore
(Notice that the base categories all have odds ratios of
, because including
in the product leaves it unchanged. That’s how you can spot the base categories in the table.)
Restating the results as probabilities
Finally, let us convert this result to probabilities. We were told the baseline predicted probability is
. Therefore, using the formulas relating odds and probabilities derived at the outset, we may compute
Consequently Charlie’s odds are
Finally, converting this back to probabilities gives