Расшифровка аудио и видео в текст

Товарищи, всем привет! Сейчас появилась необходимость сделать API-интеграцию. Хотим получать качественные текстовые расшифровки разговоров с клиентами и видео-конференций. Что-то гуглил-гуглил, то цены высокие, то качество ужасное, то интеграция невозможно сложно настраивается. Может знаете какой-то прикольный сервис, где это можно сделать КАЧЕСТВЕННО и НЕ СЛИШКОМ ДОРОГО?


Ответы (1 шт):

Автор решения: MoonInBlack

Или вот генерация текста с таймингом. Можно доработать под себя. Но и так работает.

import assemblyai as aai
from config import token

aai.settings.api_key = "token берется на сайте AssemblyAI"

audio_url = 'your.mp3'

config = aai.TranscriptionConfig(
        speaker_labels=True,
        language_code='ru'
      )

transcript = aai.Transcriber().transcribe(audio_url, config)

    
if __name__=="__main__":
    
    for utterance in transcript.utterances:
      print(f"Спикер {utterance.speaker}: {utterance.text}")
    print(transcript.export_subtitles_vtt())
→ Ссылка