Наверняка у многих из вас возникала задача по преобразованию речи или записи голоса в текст. Или даже обратная ситуация — есть текст, который нужно преобразовать в голос. Такая проблема может возникнуть не только при профессиональной работе по транскрибации, но и у обычного менеджера среднего звена.
К сожалению, найти в cети качественные инструменты для решения этих задач не так просто. Как правило, это либо кривые сервисы, либо очень дорогие. В этом посте я расскажу про решение от apihost.
Перевод голоса в текст
Сервис для перевода голоса в текст поддерживает около 60 языков для распознавания. Проще сказать, что здесь есть практически все популярные языки, включая русский, английский и украинский.
Сервис подойдёт как для разового распознавания голоса в текст, так и для профессионального или коммерческого использования.
Вы можете использовать его в качестве помощника при ручной транскрибации или для озвучки статей, книг. Или даже для озвучки видеороликов, к примеру, так:
Как работает
Для распознавания в сервисе есть возможность записи аудио с микрофона. Либо вы можете загрузить свой аудиофайл или указать ссылку на YouTube-видео. После чего нужно выбрать язык распознавания.
Единственным ограничением является объём файла, который составляет 100 Мб. Увеличить лимит можно после обращения в техподдержку.
После загрузки файла сразу же будет рассчитана стоимость распознавания, которая зависит только от длительности самого файла — 2,4 рубля за минуту. В моём случае за аудио длительностью 3 минуты 15 секунд стоимость получилась 7,8 рубля.
Следующий шаг — нажать кнопку Отправить на распознавание, и через какое-то время вы увидите результат работы. Его можно скопировать в буфер обмена или скачать в форматах .txt, .docx.
Преимущества сервиса
У решения от apihost есть несомненное преимущество перед аналогами, которые я пробовал в своё время, — очень легко работать с сервисом. Обычно инициировать запись голоса на сайте — целая морока из-за разрешений браузера. А при загрузке своего файла надо выбрать движок распознавания, язык и кучу других лишних параметров.
Здесь же весь процесс требует нажатия трёх кнопок: Запись > Выбор языка > Отправка на распознавание.
Также стоит отметить, что сервис автоматически пытается расставлять знаки препинания в зависимости от пауз в исходнике и правил пунктуации. С точками он справляется на ура, а с запятыми есть небольшие проблемы. Где-то запятые появляются, хотя в оригинале паузы не было.
Что касается качества распознавания, то здесь есть некоторые нарекания. Не всегда точно распознаются окончания слов. А сам текст выводится сплошной портянкой. Но если быть честным, то эти проблемы есть у любого, даже самого крутого сервиса по распознаванию голоса.
Поэтому перечитать результат работы сервиса точно не будет лишним. Но это гораздо проще, чем самому пытаться переписать аудио в текст.
Стоимость
Как я написал выше, стоимость распознавания начинается от 2,4 рубля за минуту. На практике это очень доступный тариф, особенно для разовых задач по распознаванию аудио.
При этом у вас есть возможность бесплатно попробовать работу сервиса и понять, подходит ли он вам. Для этого нужно перейти по этой ссылке и нажать кнопку Получить 25 рублей. Этой суммы хватит примерно на 10 минут аудио.
Онлайн озвучка текста
Второй сервис от apihost служит для обратной цели — озвучки текста — и доступен по этой ссылке.
Как работает
Как и во всех подобных сервисах, от вас требуется ввести текст, который нужно будет распознать, выбрать язык, голос и формат конечного файла (.mp3 или .wav).
Кроме этого, есть возможность выбрать тон (нейтральный, дружеский или раздражённый), высоту голоса, скорость речи и длительность паузы. Подобные опции мне редко встречаются в аналогичных сервисах.
При распознавании поддерживаются популярные языки мира.
Также в верхней части сайта можно выбрать движок для распознавания — V1-V7 TTS. Честно говоря, в чём разница между ними, на сайте нигде не указано.
Если судить по стоимости, V7 — самый крутой вариант. Но на практике это не так.
Я рекомендую самостоятельно попробовать все семь движков и выбрать среди них наиболее подходящий под ваши задачи. Своим методом проб и ошибок я нащупал следующее:э
- V2 Владимир (PREM) Владимир (NEW).
- V3 Филип, Алёна.
- V4 — Быстрый синтез Станислав, Борис.
- V7 Максим — Бот донатеров (Youtube).
Знаю, что для многих из вас имена ботов мало о чём скажут. Но для тех, кто в теме, это будет полезной информацией.
При нажатии на кнопку Озвучить через какое-то время вы услышите голос, зачитывающий ваш текст. А при нажатии на кнопку Скачать можно получить файл озвучки.
Среди ограничений стоит отметить максимальную длину текста — 20 000 символов.
Преимущества сервиса
Как и в случае с распознаванием аудио, здесь мне понравилось — насколько просто всё работает. Если не считать этапа выбора движка, хотелось бы увидеть описание на сайте.
Качество озвучки в любом движке одинаковое с точки зрения совпадения слов с буквами. А синтез голоса сильно меняется. К примеру, V1 — почти не заметно, что говорит робот. А V7 — известный многим бот Максим, который не скрывает свою суть.
По информации от разработчиков в будущем планируется добавить ещё несколько русских голосов, а также обновить разнообразие голосов в бесплатной версии. И уже совсем скоро (или прямо сейчас) снято ограничение по количеству символов на синтез.
Стоимость
Стоимость озвучки зависит от количества символов в тексте и от выбранного движка. Самый дешёвый вариант — 50 копеек за 1000 символов. А самый дорогой — 4 рубля за 1000 символов.
Попробовать сервис можно и бесплатно с ограниченным выбором движков и текстом до 1000 символов. При этом итоговый файл вы всё равно сможете скачать.
По итогу я хочу ещё раз отметить лёгкость в использовании обоих сервисов и ценовую доступность. При этом разработчики не побоялись даже на бесплатных тарифах оставить довольно лояльные ограничения и возможность получения готового файла.
Перевести голос в текст | Перевести текст в голос