Как быстро преобразовать голос в текст и обратно

Константин Докучаев
Константин Докучаев
Как быстро преобразовать голос в текст и обратно
Capital

Наверняка у многих из вас возникала задача по преобразованию речи или записи голоса в текст. Или даже обратная ситуация — есть текст, который нужно преобразовать в голос. Такая проблема может возникнуть не только при профессиональной работе по транскрибации, но и у обычного менеджера среднего звена.

К сожалению, найти в cети качественные инструменты для решения этих задач не так просто. Как правило, это либо кривые сервисы, либо очень дорогие. В этом посте я расскажу про решение от apihost.

Перевод голоса в текст

Сервис для перевода голоса в текст поддерживает около 60 языков для распознавания. Проще сказать, что здесь есть практически все популярные языки, включая русский, английский и украинский.

Сервис подойдёт как для разового распознавания голоса в текст, так и для профессионального или коммерческого использования.

Вы можете использовать его в качестве помощника при ручной транскрибации или для озвучки статей, книг. Или даже для озвучки видеороликов, к примеру, так:

Как работает

Для распознавания в сервисе есть возможность записи аудио с микрофона. Либо вы можете загрузить свой аудиофайл или указать ссылку на YouTube-видео. После чего нужно выбрать язык распознавания.

Единственным ограничением является объём файла, который составляет 100 Мб. Увеличить лимит можно после обращения в техподдержку.

После загрузки файла сразу же будет рассчитана стоимость распознавания, которая зависит только от длительности самого файла — 2,4 рубля за минуту. В моём случае за аудио длительностью 3 минуты 15 секунд стоимость получилась 7,8 рубля.

Следующий шаг — нажать кнопку Отправить на распознавание, и через какое-то время вы увидите результат работы. Его можно скопировать в буфер обмена или скачать в форматах .txt, .docx.

Преимущества сервиса

У решения от apihost есть несомненное преимущество перед аналогами, которые я пробовал в своё время, — очень легко работать с сервисом. Обычно инициировать запись голоса на сайте — целая морока из-за разрешений браузера. А при загрузке своего файла надо выбрать движок распознавания, язык и кучу других лишних параметров.

Здесь же весь процесс требует нажатия трёх кнопок: Запись > Выбор языка > Отправка на распознавание.

Также стоит отметить, что сервис автоматически пытается расставлять знаки препинания в зависимости от пауз в исходнике и правил пунктуации. С точками он справляется на ура, а с запятыми есть небольшие проблемы. Где-то запятые появляются, хотя в оригинале паузы не было.

Что касается качества распознавания, то здесь есть некоторые нарекания. Не всегда точно распознаются окончания слов. А сам текст выводится сплошной портянкой. Но если быть честным, то эти проблемы есть у любого, даже самого крутого сервиса по распознаванию голоса.

Поэтому перечитать результат работы сервиса точно не будет лишним. Но это гораздо проще, чем самому пытаться переписать аудио в текст.

Стоимость

Как я написал выше, стоимость распознавания начинается от 2,4 рубля за минуту. На практике это очень доступный тариф, особенно для разовых задач по распознаванию аудио.

При этом у вас есть возможность бесплатно попробовать работу сервиса и понять, подходит ли он вам. Для этого нужно перейти по этой ссылке и нажать кнопку Получить 25 рублей. Этой суммы хватит примерно на 10 минут аудио.

Онлайн озвучка текста

Второй сервис от apihost служит для обратной цели — озвучки текста — и доступен по этой ссылке.

Как работает

Как и во всех подобных сервисах, от вас требуется ввести текст, который нужно будет распознать, выбрать язык, голос и формат конечного файла (.mp3 или .wav).

Кроме этого, есть возможность выбрать тон (нейтральный, дружеский или раздражённый), высоту голоса, скорость речи и длительность паузы. Подобные опции мне редко встречаются в аналогичных сервисах.

При распознавании поддерживаются популярные языки мира.

Также в верхней части сайта можно выбрать движок для распознавания — V1-V7 TTS. Честно говоря, в чём разница между ними, на сайте нигде не указано.

Если судить по стоимости, V7 — самый крутой вариант. Но на практике это не так.

Я рекомендую самостоятельно попробовать все семь движков и выбрать среди них наиболее подходящий под ваши задачи. Своим методом проб и ошибок я нащупал следующее:э

  • V2 Владимир (PREM) Владимир (NEW).
  • V3 Филип, Алёна.
  • V4 — Быстрый синтез Станислав, Борис.
  • V7 Максим — Бот донатеров (Youtube).

Знаю, что для многих из вас имена ботов мало о чём скажут. Но для тех, кто в теме, это будет полезной информацией.

При нажатии на кнопку Озвучить через какое-то время вы услышите голос, зачитывающий ваш текст. А при нажатии на кнопку Скачать можно получить файл озвучки.

Среди ограничений стоит отметить максимальную длину текста — 20 000 символов.

Преимущества сервиса

Как и в случае с распознаванием аудио, здесь мне понравилось — насколько просто всё работает. Если не считать этапа выбора движка, хотелось бы увидеть описание на сайте.

Качество озвучки в любом движке одинаковое с точки зрения совпадения слов с буквами. А синтез голоса сильно меняется. К примеру, V1 — почти не заметно, что говорит робот. А V7 — известный многим бот Максим, который не скрывает свою суть.

По информации от разработчиков в будущем планируется добавить ещё несколько русских голосов, а также обновить разнообразие голосов в бесплатной версии. И уже совсем скоро (или прямо сейчас) снято ограничение по количеству символов на синтез.

Стоимость

Стоимость озвучки зависит от количества символов в тексте и от выбранного движка. Самый дешёвый вариант — 50 копеек за 1000 символов. А самый дорогой — 4 рубля за 1000 символов.

Попробовать сервис можно и бесплатно с ограниченным выбором движков и текстом до 1000 символов. При этом итоговый файл вы всё равно сможете скачать.


По итогу я хочу ещё раз отметить лёгкость в использовании обоих сервисов и ценовую доступность. При этом разработчики не побоялись даже на бесплатных тарифах оставить довольно лояльные ограничения и возможность получения готового файла.

Перевести голос в текст | Перевести текст в голос



Great! Next, complete checkout for full access to All-In-One Person
Welcome back! You've successfully signed in
You've successfully subscribed to All-In-One Person
Success! Your account is fully activated, you now have access to all content
Success! Your billing info has been updated
Your billing was not updated