Как быстро преобразовать голос в текст и обратно

Наверняка у многих из вас возникала задача по преобразованию речи или записи голоса в текст. Или даже обратная ситуация — есть текст, который нужно преобразовать в голос. Такая проблема может возникнуть не только при профессиональной работе по транскрибации, но и у обычного менеджера среднего звена.

К сожалению, найти в cети качественные инструменты для решения этих задач не так просто. Как правило, это либо кривые сервисы, либо очень дорогие. В этом посте я расскажу про решение от apihost.

Перевод голоса в текст

Сервис для перевода голоса в текст поддерживает около 60 языков для распознавания. Проще сказать, что здесь есть практически все популярные языки, включая русский, английский и украинский.

Сервис подойдёт как для разового распознавания голоса в текст, так и для профессионального или коммерческого использования.

Вы можете использовать его в качестве помощника при ручной транскрибации или для озвучки статей, книг. Или даже для озвучки видеороликов, к примеру, так:

Как работает

Для распознавания в сервисе есть возможность записи аудио с микрофона. Либо вы можете загрузить свой аудиофайл или указать ссылку на YouTube-видео. После чего нужно выбрать язык распознавания.

Единственным ограничением является объём файла, который составляет 100 Мб. Увеличить лимит можно после обращения в техподдержку.

После загрузки файла сразу же будет рассчитана стоимость распознавания, которая зависит только от длительности самого файла — 2,4 рубля за минуту. В моём случае за аудио длительностью 3 минуты 15 секунд стоимость получилась 7,8 рубля.

Следующий шаг — нажать кнопку Отправить на распознавание, и через какое-то время вы увидите результат работы. Его можно скопировать в буфер обмена или скачать в форматах .txt, .docx.

Преимущества сервиса

У решения от apihost есть несомненное преимущество перед аналогами, которые я пробовал в своё время, — очень легко работать с сервисом. Обычно инициировать запись голоса на сайте — целая морока из-за разрешений браузера. А при загрузке своего файла надо выбрать движок распознавания, язык и кучу других лишних параметров.

Здесь же весь процесс требует нажатия трёх кнопок: Запись > Выбор языка > Отправка на распознавание.

Также стоит отметить, что сервис автоматически пытается расставлять знаки препинания в зависимости от пауз в исходнике и правил пунктуации. С точками он справляется на ура, а с запятыми есть небольшие проблемы. Где-то запятые появляются, хотя в оригинале паузы не было.

Что касается качества распознавания, то здесь есть некоторые нарекания. Не всегда точно распознаются окончания слов. А сам текст выводится сплошной портянкой. Но если быть честным, то эти проблемы есть у любого, даже самого крутого сервиса по распознаванию голоса.

Поэтому перечитать результат работы сервиса точно не будет лишним. Но это гораздо проще, чем самому пытаться переписать аудио в текст.

Стоимость

Как я написал выше, стоимость распознавания начинается от 2,4 рубля за минуту. На практике это очень доступный тариф, особенно для разовых задач по распознаванию аудио.

При этом у вас есть возможность бесплатно попробовать работу сервиса и понять, подходит ли он вам. Для этого нужно перейти по этой ссылке и нажать кнопку Получить 25 рублей. Этой суммы хватит примерно на 10 минут аудио.