При записи видео и особенно подкастов очень важно иметь чистый звук. Добиться идеального звучания сложно даже в студийных условиях, а про улицу и говорить нечего. И если не решить, то упростить решение этой задачи могут специальные нейросети. О них и поговорим.
Результаты работы всех сервисов и оригинал можно скачать по ссылке в конце статьи. И на всякий случай ещё раз отмечу, что я специально выбирал только инструменты с поддержкой ИИ. Понятно, что решений для улучшения аудио существует гораздо больше.
Adobe Podcast AI
На бесплатном тарифе вы можете загрузить аудио в форматах .wav, .mp3, .acc, .flac, .org длительностью до 30 минут и объёмом не более 500 Мб. В день можно улучшить не более часа аудио. Также можно провести настройку микрофона с помощью ИИ.
После загрузки файла нужно подождать до десяти минут для его автоматической обработки нейросетью. Никаких настроек нет, кроме переключателя улучшения речи. Финальный файл можно только скачать.
Почему-то обработанный файл стал в два раза меньше, хотя ни формат, ни длительность не изменилась. Но даже визуально на дорожке оказалось меньше пиков. При прослушивании также заметно сильное улучшение, слова стали более чёткими и различимыми, шумы были убраны.
В платном тарифе за $9.99 в месяц есть возможность пакетной загрузки, более тонкая настройка обработки, до 4 часов аудио в день и объём файла до 1 Гб. Также бесплатный доступ к express.adobe.com.
Более тонкая настройка выглядит так:
Descript
Есть онлайн-версия и десктопные приложения. Вообще, этот сервис больше про быструю обработку с помощью нейросетей, чем про улучшение аудио.
К сожалению, он вам не подойдёт, если оригинал аудио на русском языке. Но если ваш язык поддерживается, вы сможете автоматически транскрибировать аудио в текст и с помощью редактирования текста править содержимое самого подкаста.
Descript использует технологию Google Cloud Speech-to-Text, поэтому уровень точности во многом такой же, как у Google Home или у Text-to-speech в Google Docs. Но есть Rev (другой провайдер) — для более качественной транскрибации. Есть возможность выравнивания уровня громкости и встроенный эквалайзер.
Также есть Overdab (доступна по требованию только в бета-версии), но на момент написания статьи я так и не получил к ней доступа.
Как я понял, это AI (искусственный интеллект), который обрабатывает запись и извлекает из неё модель речи для формирования ваших недосказанных слов и предложений. По словам тех, кто экспериментировал с этим инструментом, результаты впечатляют — смоделированная роботом-программой речь имеет ту же интонацию голоса, что и оригинал.
С тарифной сеткой можно ознакомиться ниже.
Читать обзор | Перейти на сайт
LALAL.AI
Это сервис для извлечения голоса из различных типов видео- и аудиофайлов: музыка, стримы и прочее. У этого сервиса есть онлайн-версия, десктопные и мобильные приложения.
В бесплатном тарифе можно обработать до 10 минут аудио (не более 200 Мб), но попробовать приложение можно без траты платных минут. Для этого нужно активировать переключатель Создать превью, и вы получите короткий фрагмент обработанного трека. Поддерживаются форматы MP3, OGG, WAV, FLAC, AVI, MP4, MKV, AIFF, AAC.
У меня возникли проблемы с загрузкой файла объёмом 184 Мб и 100 Мб. Почему-то сервис всё равно ругался, что я превысил бесплатный объём. Поэтому попробовать его на практике я так и не смог.
Десктопная версия для своей работы всё равно требует подключение к сети. Аудио будет обрабатываться онлайн, и придётся дождаться его загрузки на сервер.
Пакеты минут покупаются разово. 90 минут и 2 Гб обойдутся вам в $15.
Audio Studio
Онлайн-сервис, который поддерживает работу с видео и аудио: asf, wmv, mp4, quicktime, webm, x-matroska, x-msvideo, x-flv, wav, flac, x-wav, x-m4a, m4a, ogg, x-flac, amr.
На бесплатном тарифе можно обработать до 20 минут аудио, при этом с загрузкой файла на 30 минут и объёмом 900 Мб никаких проблем не возникло.
Можно выровнять аудио, убрать фоновые шумы (с указанием степени очистки) и когда-нибудь в будущем убрать реверберацию. После обработки прямо онлайн можно переключаться между версией до и после и прослушать их для сравнения.
Визуально почему-то обработанная версия выглядит хуже оригинала. При прослушивании разницы между оригиналом и обработкой я не заметил.
Платный тариф за $12 в месяц позволит обрабатывать до 900 минут аудио в месяц. Либо за $20 можно прикупить 600 минут до их окончания.
AI Mastering
Онлайн-сервис и офлайн-приложение для Windows с открытым исходным кодом. Приложение умеет изменять громкость и динамический диапазон. Все параметры настраиваются вручную. Мой исходный файл приложение не смогло обработать.
В онлайн-версии доступно гораздо больше параметров для улучшения, но и она не смогла обработать мои исходники.
Crumplepop
Windows- и Mac-приложение для удаления из аудиодорожки различных шумов. На каждый шум есть свой плагин, но нас интересует AudioDenoise, потому что он использует ИИ.
К сожалению, пользоваться самостоятельно плагинами нельзя. После установки Crumplepop и плагина нужно запустить одно из поддерживаемых приложений: Premiere Pro, Audition, DaVinci Resolve, Audacity, Pro Tools или Media Composer. Настроить плагин в нём, и уже в привычном вам инструменте добавлять выбранные эффекты.
В случае с AudioDenoise можно выбрать один из пресетов обработки или настроить все необходимые параметры вручную.
При настройке непонятно, где тут конкретно в работе используется искусственный интеллект. Разработчики уверяют, что он удаляет шумы, недоступные другим плагинам: звук кондиционера, хмыканье и прочее.
По картинке ниже так и не скажешь, но плагин действительно удалил лишние шумы и сделал запись более чёткой и ясной.
Во время триала плагин можно попробовать бесплатно, потом придётся оплатить подписку стоимостью $23 в месяц.
Podcastle
Это комплексный онлайн-сервис для работы над подкастом, где на каждом шагу вас ждут инструменты с поддержкой искусственного интеллекта. Нас интересует Magic Dust.
К сожалению, использование этой фишки доступно только при оплате сервиса ($11.99 в месяц при оплате за год). Триала никакого не предусмотрено.
Моего коммитмента не хватило на оплату сервиса, поэтому я без понятия, как он работает.
Cleanvoice
Онлайн-сервис, который специализируется на удалении лишних звуков из подкастов. Можно загрузить трек из одной дорожки или нескольких. В бесплатном режиме доступно 30 минут для обработки.
Во время загрузки можно выбрать автоматическое удаление шумов или настроить каждый параметр вручную.
Я выбрал автоматический режим, чтобы проверить базовые возможности сервиса. По окончании Cleanvoice сообщает, что именно было удалено из оригинальной дорожки. При скачивании можно выбрать экспорт временных отметок и маркеров для Audacity.
Мой конечный файл весил 3 мегабайта вместо исходных 109 и выглядел как более зашумленный. Проблема оказалась в том, что сервис удалил фрагменты без звука, из-за чего аудиодорожка оказалась сильно короче. Но шумов в ней я тоже не заметил.
Конечно, при ручной настройке фрагменты тишины остались бы, поэтому это не является проблемой сервиса.
Cyberlink AudioDirector 365
Это полноценное приложение для редактирования аудио на Windows. Нейроштуки находятся в разделе Repair Audio, где вы сможете удалить шумы, убрать шум ветра, улучшить звучание голоса и многое другое.
В рамках статьи я применил инструмент для удаления шумов Noise Reduction с дефолтными настройками. Лишние шумы на записи при этом остались, но их было меньше слышно. Вероятно, всё же нужно было самостоятельно покрутить настройки инструмента.
Есть триал. Полная версия стоит $4.33 в месяц.
Acoustica
Ещё один полноценный редактор аудио, в котором есть целый набор инструментов с поддержкой Deep Learning: Remix, Extract:Dialogue, DeWind:Dialogue, DeRustle:Dialogue, DeBuzz:Dialogue, DeBird, DeClick:Dialogue и DePlosive:Dialogue.
Думаю, из названий опций и так понятно, что каждая из них делает. Инструмент для человека со стороны оказался очень сложный, и если честно, я не смог разобраться, как сделать хоть что-то с аудио. Поэтому оценить его работу лучше самостоятельно.
Есть триал. Лицензия — от $60.
Auphonic
Этот сервис прямо с порога заявляет, что он AI для подкастеров. В нём есть множество различных инструментов по улучшению аудио, и все используют ИИ в своей работе. Есть поддержка пакетной обработки и работы с треками из нескольких дорожек.
В моём случае после обработки шумов стало только больше, но я и применил самые дефолтные настройки. Всё же я рекомендую использовать этот инструмент с пониманием дела.
На бесплатном тарифе можно обрабатывать до двух часов аудио в месяц. Дополнительные часы приобретаются отдельно при необходимости.
Забрать исходники и обработанные файлы можно ниже 👇