LDA 하이퍼 파라미터에 대한 자연 해석 무엇을 의미하는지 설명 할 수 있습니까? 그것은

누군가 LDA 하이퍼 파라미터에 대한 자연 해석이 무엇인지 설명 할 수 있습니까? ALPHA그리고 BETA(문서 당) 주제 및 (주제 당) 단어 분포에 대한 디리클레 분포의 매개 변수입니다. 그러나 누군가이 하이퍼 매개 변수의 값을 더 작게 선택하는 것이 무엇을 의미하는지 설명 할 수 있습니까? 그것은 문서의 주제 희소성 및 주제의 상호 배타성에 대한 사전 신념을 단어의 관점에서 제시하는 것을 의미합니까?

이 질문은 잠재적 인 Dirichlet 할당에 관한 것이지만, 바로 아래의 BGReene의 의견은 선형 판별 분석을 나타내며, 이는 혼란스럽게도 LDA입니다.



답변

David Blei는 여름 학급 학생들에게 LDA를 소개하는 훌륭한 강연을하고 있습니다 : http://videolectures.net/mlss09uk_blei_tm/

첫 번째 비디오에서 그는 주제 모델링의 기본 개념과 Dirichlet 배포가 어떻게 진행되는지 광범위하게 다루고 있습니다. 플레이트 표기법은 모든 숨겨진 변수가 종속성을 나타내는 것으로 관찰되는 것처럼 설명됩니다. 기본적으로 주제는 단어를 통한 배포 및 주제를 통한 문서 배포입니다.

두 번째 비디오에서 그는 샘플 그래프와 함께 알파의 효과를 보여줍니다. 알파가 작을수록 분포가 더 희박합니다. 또한 몇 가지 추론 방법을 소개합니다.


답변

답은 대칭 또는 비대칭 디리 클릿 분포를 가정하는지 (또는 더 기술적으로는 기본 측정 값 이 균일 한지) 여부에 따라 다릅니다 . 다른 것을 명시하지 않는 한, LDA의 대부분의 구현은 분포가 대칭이라고 가정합니다.

대칭 분포의 경우 알파 값이 높으면 각 문서에 단일 주제가 아닌 대부분 의 주제가 혼합되어있을 가능성이 있습니다 . 알파 값이 낮 으면 문서에 이러한 제약이 적으므로 문서에 주제 중 몇 개 또는 하나만 혼합되어있을 가능성이 높습니다. 마찬가지로 베타 값이 높으면 각 주제에 특정 단어가 아닌 대부분의 단어가 혼합되어있을 가능성이 높고, 값이 낮 으면 주제에 몇 단어 만 섞어있을 수 있습니다.

반면에 분포가 비대칭 인 경우 알파 값이 높으면 각 문서에 대해 특정 주제 분포 (기본 측정에 따라 다름)가 더 많을 가능성이 있음을 의미합니다. 마찬가지로 베타 값이 높으면 각 주제에 기본 측정 값으로 정의 된 특정 단어 조합이 포함될 가능성이 높습니다.

실제로 알파 값이 높으면 문서에 포함 된 주제와 관련하여 문서가 더 비슷해집니다. 베타 값이 높을수록 주제에 포함 된 단어가 더 비슷해집니다.

따라서, 알파 매개 변수는 문서의 주제 희소성 / 균일성에 대한 사전 신념을 명시합니다. “단어의 주제에서 상호 배타적”이라는 말의 의미가 확실하지 않습니다.


보다 일반적으로, 이들은 LDA 모델에 사용 된 디 리클 렛 분포에 대한 농도 파라미터 이다. 이것이 어떻게 작동하는지에 대한 직관적 인 이해를 돕기 위해이 프레젠테이션 에는 LDA에 대한 좋은 설명뿐만 아니라 멋진 삽화가 들어 있습니다.


(α1,α2,...,α케이)

유=(유1,유2,...,유케이)

α

α※유=(α1,α2,...,α케이)

α

(α1,α2,...,α케이)

(α1,α2,...,α케이)