태그 보관물: speech-to-text

speech-to-text

YouTube에 비디오를 업로드하지 않고 Google의 YouTube 음성 인식을 어떻게 사용합니까? ​​미스터리입니다). YouTube 외부에서이 음성 인식 기술을 사용하고

자막을 갖고 싶은 강의 비디오 콘텐츠가 많이 있습니다. YouTube는 특정 조건에서 동영상의 자막을 자동으로 생성합니다 (이러한 조건은 여전히 ​​미스터리입니다).

YouTube 외부에서이 음성 인식 기술을 사용하고 싶습니다. 대본을 얻기 위해 모든 비디오를 업로드하고 싶지는 않습니다 (시간이 너무 많이 소요됨). 또한 YouTube에서 30 분 이상 (대부분의 경우)보다 긴 비디오에 대해서는 비디오를 할 수 없다고 생각합니다. 비공개 동영상에 대해서는 그렇게하지 않을 것입니다 (판매용으로 제작 된 프리미엄 콘텐츠이기 때문에 문제가됩니다).

완벽한 시나리오 : 데스크톱에서이 동영상의 대본을 가져 오기 위해 실행할 수있는 프로그램이 있으며 YouTube와 같거나 품질이 우수하며 YouTube에서 생성하는 SRT 또는 XML과 유사한 타임 코드 가 있습니다. YouTube 자막 가져 오기 ].

허용 가능한 시나리오 : 비공개 또는 공개로 설정되었거나 길이에 관계없이 YouTube에서 동영상을 녹음하도록 강요 할 수있는 몇 가지 트릭이 있습니다.

가능한 시나리오 : 자신의 프로그램을 코딩하는 데 사용할 수있는 라이브러리 또는 무언가가 있습니다. 나는 C #에 좋고 C ++에 괜찮습니다 (그러나 C #을 선호합니다).



답변

Google 은 음성 인식 및 합성을 위해 Web Speech API 를 Chrome에 구현했으며 개발자 인 경우 사용할 수 있습니다. YouTube가 일부 동영상에서 캡션을 생성하는 데 사용하는 기능입니다. 상호 작용하는 코드를 찾을 수 있습니다.

데이터 흐름은 아마도 다음과 같습니다.

비디오 파일 => 오디오 추출 및 변환 => Google API로 전송 => 텍스트 가져 오기 => SRT에 씁니다.

편집 : W3C 사양 이외의 공식 API 페이지가없는 것 같습니다. 더 많은 링크는 다음과 같습니다.

이 예는 Chrome에서 API를 사용하는 것에 관한 것이지만 Google의 온라인 음성 인식 엔진에 직접 쿼리 할 수 ​​있습니다. 예를 들어 Raspberrry Pi의 음성 인식 개인 비서 인 Jasper를 사용하면 음성 인식 엔진으로 Google선택할 수 있습니다 .


답변

이전 Google 음성 API를 사용하더라도 “autosub”(github의 agermanidis / autosub 참조)라는 도구가 있습니다. 이 도구는 ffmpeg를 사용하여 오디오를 FLAC 파일로 스트리핑 한 다음 FLAC 파일을 Google에 전송합니다. SRT 또는 VTT 파일을 생성합니다.

이전 Google API로 인해 정확도가 부분적으로 낮습니다. 최신 API ( https://cloud.google.com/speech/docs/apis의 ‘Cloud Speech REST API’ )가 있습니다. 이 API는 매우 간단하며 어느 시점에서 autosub를 사용하여 포크하려고했습니다.

다른 방법은 캡션이 완료되면 YouTube에 업로드하고 VTT 파일을 다운로드하는 것입니다. 이것의 복잡한 점은 YouTube가 문장이 아닌 매우 세밀한 캡션 (예 : 몇 단어)을 생성한다는 것입니다. 수동 스캔을 수행 할 때 캡션을 확인하기가 더 어려워집니다.


답변

가장 쉬운 방법은 다음과 같습니다. Google 문서로 이동하여 새 텍스트 문서를 열고 도구 “음성 입력”을 선택한 다음 테이프를 재생합니다. 예. 정말 쉬워요! (다국어 지원)

그렇지 않으면 다음과 같이 HTML5와 함께 로컬 웹 페이지를 사용할 수 있습니다 :
https://www.labnol.org/software/add-speech-recognition-to-website/19989/


답변