cosine-similarity Archives

약 6 천만 개의 문구를 벡터 공간 에 삽입하려고 시도하고 그 사이 의 코사인 유사성 을 계산 하려고합니다. 나는 유니 그램 CountVectorizer과 bigram을 생성하는 맞춤형 내장 토큰 화 기능과 함께 sklearn을 사용 하고 있습니다. 의미있는 표현을 얻으려면 행 수에서 선형으로 엄청난 수의 열을 허용해야합니다. 이로 인해 엄청나게 희소 행렬이 발생하여 성능이 저하됩니다. 약 10,000 개의 열만 있으면 그렇게 나쁘지 않을 것입니다. 단어 삽입에 상당히 합리적이라고 생각합니다.

word2vec치수가 더 작고 밀도가 높은 임베딩을 생성하기 때문에 Google을 사용하려고합니다 . 그러나 그 전에 먼저 살펴볼만한 다른 삽입물이 있습니까? 핵심 요구 사항은 약 6 천만 개의 문구 (행)로 확장 할 수 있어야합니다.

나는 단어 임베딩 분야에 익숙하지 않아 조언이 도움이 될 것입니다.

또한 성능 향상을 위해 이미 단일 값 분해를 사용하고 있다고 덧붙여 야합니다.

답변

Boltzmann 기계를 사용하여 word2vec (스킵 그램) 치수를 동적으로 할당하는 작업이 최근에 이루어졌습니다. 이 논문을 확인하십시오 :

“무한 차원 단어 포함”-Nalsnick, Ravi

기본 아이디어는 트레이닝 세트가 word2vec 모델의 차원을 지시하도록하는 것입니다.이 모델은 차원 크기와 관련된 정규화 용어에 의해 처벌됩니다.

위의 논문은 단어에 대해이 작업을 수행하며 구문이 얼마나 잘 수행되는지 궁금합니다.

How IT

언제든지 물어보세요.

태그 보관물: cosine-similarity

성능 측면에서 단어 포함 알고리즘 함께 sklearn을

답변

답변