Расшифровка аудио и видео в текст
Товарищи, всем привет! Сейчас появилась необходимость сделать API-интеграцию. Хотим получать качественные текстовые расшифровки разговоров с клиентами и видео-конференций. Что-то гуглил-гуглил, то цены высокие, то качество ужасное, то интеграция невозможно сложно настраивается. Может знаете какой-то прикольный сервис, где это можно сделать КАЧЕСТВЕННО и НЕ СЛИШКОМ ДОРОГО?
Ответы (1 шт):
Автор решения: MoonInBlack
→ Ссылка
Или вот генерация текста с таймингом. Можно доработать под себя. Но и так работает.
import assemblyai as aai
from config import token
aai.settings.api_key = "token берется на сайте AssemblyAI"
audio_url = 'your.mp3'
config = aai.TranscriptionConfig(
speaker_labels=True,
language_code='ru'
)
transcript = aai.Transcriber().transcribe(audio_url, config)
if __name__=="__main__":
for utterance in transcript.utterances:
print(f"Спикер {utterance.speaker}: {utterance.text}")
print(transcript.export_subtitles_vtt())