speech-to-text Archives

자막을 갖고 싶은 강의 비디오 콘텐츠가 많이 있습니다. YouTube는 특정 조건에서 동영상의 자막을 자동으로 생성합니다 (이러한 조건은 여전히 미스터리입니다).

YouTube 외부에서이 음성 인식 기술을 사용하고 싶습니다. 대본을 얻기 위해 모든 비디오를 업로드하고 싶지는 않습니다 (시간이 너무 많이 소요됨). 또한 YouTube에서 30 분 이상 (대부분의 경우)보다 긴 비디오에 대해서는 비디오를 할 수 없다고 생각합니다. 비공개 동영상에 대해서는 그렇게하지 않을 것입니다 (판매용으로 제작 된 프리미엄 콘텐츠이기 때문에 문제가됩니다).

완벽한 시나리오 : 데스크톱에서이 동영상의 대본을 가져 오기 위해 실행할 수있는 프로그램이 있으며 YouTube와 같거나 품질이 우수하며 YouTube에서 생성하는 SRT 또는 XML과 유사한 타임 코드 가 있습니다. YouTube 자막 가져 오기 ].

허용 가능한 시나리오 : 비공개 또는 공개로 설정되었거나 길이에 관계없이 YouTube에서 동영상을 녹음하도록 강요 할 수있는 몇 가지 트릭이 있습니다.

가능한 시나리오 : 자신의 프로그램을 코딩하는 데 사용할 수있는 라이브러리 또는 무언가가 있습니다. 나는 C #에 좋고 C ++에 괜찮습니다 (그러나 C #을 선호합니다).

답변

Google 은 음성 인식 및 합성을 위해 Web Speech API 를 Chrome에 구현했으며 개발자 인 경우 사용할 수 있습니다. YouTube가 일부 동영상에서 캡션을 생성하는 데 사용하는 기능입니다. 상호 작용하는 코드를 찾을 수 있습니다.

데이터 흐름은 아마도 다음과 같습니다.

비디오 파일 => 오디오 추출 및 변환 => Google API로 전송 => 텍스트 가져 오기 => SRT에 씁니다.

편집 : W3C 사양 이외의 공식 API 페이지가없는 것 같습니다. 더 많은 링크는 다음과 같습니다.

이 예는 Chrome에서 API를 사용하는 것에 관한 것이지만 Google의 온라인 음성 인식 엔진에 직접 쿼리 할 수 있습니다. 예를 들어 Raspberrry Pi의 음성 인식 개인 비서 인 Jasper를 사용하면 음성 인식 엔진으로 Google 을 선택할 수 있습니다 .

답변

이전 Google 음성 API를 사용하더라도 “autosub”(github의 agermanidis / autosub 참조)라는 도구가 있습니다. 이 도구는 ffmpeg를 사용하여 오디오를 FLAC 파일로 스트리핑 한 다음 FLAC 파일을 Google에 전송합니다. SRT 또는 VTT 파일을 생성합니다.

이전 Google API로 인해 정확도가 부분적으로 낮습니다. 최신 API ( https://cloud.google.com/speech/docs/apis의 ‘Cloud Speech REST API’ )가 있습니다. 이 API는 매우 간단하며 어느 시점에서 autosub를 사용하여 포크하려고했습니다.

다른 방법은 캡션이 완료되면 YouTube에 업로드하고 VTT 파일을 다운로드하는 것입니다. 이것의 복잡한 점은 YouTube가 문장이 아닌 매우 세밀한 캡션 (예 : 몇 단어)을 생성한다는 것입니다. 수동 스캔을 수행 할 때 캡션을 확인하기가 더 어려워집니다.

답변

가장 쉬운 방법은 다음과 같습니다. Google 문서로 이동하여 새 텍스트 문서를 열고 도구 “음성 입력”을 선택한 다음 테이프를 재생합니다. 예. 정말 쉬워요! (다국어 지원)

그렇지 않으면 다음과 같이 HTML5와 함께 로컬 웹 페이지를 사용할 수 있습니다 :
https://www.labnol.org/software/add-speech-recognition-to-website/19989/

How IT

언제든지 물어보세요.

태그 보관물: speech-to-text

YouTube에 비디오를 업로드하지 않고 Google의 YouTube 음성 인식을 어떻게 사용합니까? 미스터리입니다). YouTube 외부에서이 음성 인식 기술을 사용하고

답변

답변

답변

답변