Наталья Кайда 08 ноября 2023

🔈16+ лучших нейронок для синтеза речи

Предлагаем подборку платных, бесплатных и опенсорсных инструментов для озвучивания текста, клонирования голоса и дублированного перевода подкастов и видео.

Простейшие сервисы для синтеза речи предоставляют одну-две услуги – чтение текста умеренно реалистичным голосом (мужским или женским) и скачивание готового аудиофайла. Иногда предусмотрен доступ к SSLM-разметке, которая дает возможность настроить паузы, ударения и другие базовые особенности произношения. Главный недостаток простых сервисов – объем текста обычно ограничен 5 000 – 10 000 символов, а выбор голосов минимален (обычно не более 2). Такую же функциональность предоставляет голосовой синтезатор Windows и бесплатная программа «Балаболка».

На продвинутых платформах услуг намного больше:

Клонирование голоса по образцу.
Создание уникального голоса (с нужным акцентом или эмоциональной окраской, например) на основе реального или синтетического образца.
Автоматический перевод и дубляж аудио и видео с сохранением всех характеристик оригинального голоса (интонации, глубина, эмоции).

Продвинутые сервисы, разумеется, платные. Если нужно максимально реалистичное озвучивание, а пользоваться платными сервисами не хочется, можно воспользоваться одним из опенсорсных решений.

🤖 Библиотека data scientist’а

Больше полезных материалов вы найдете на нашем телеграм-канале «Библиотека data scientist’а»

🤖💼 Библиотека Data Science для собеса

Подтянуть свои знания по DS вы можете на нашем телеграм-канале «Библиотека Data Science для собеса»

🤖🧩 Библиотека задач по Data Science

Интересные задачи по DS для практики можно найти на нашем телеграм-канале «Библиотека задач по Data Science»

RHVoice

Условия использования: open source.

Функциональность: голосовой синтезатор с качественными русскими голосами, поддерживает 13 других языков. Работает на Windows, Linux и Android.

Лучше всего подходит: для чтения вслух и озвучивания голосовых помощников.

Поддержка русского языка: есть, RHVoice изначально создавался для синтеза русской речи.

Особенности: используется в качестве помощника для незрячих и слабовидящих людей. Есть приложение для Android.

ElevenLabs

Условия использования: платный. Бесплатный тестовый период предусмотрен, но если пользуетесь VPN, сервис заподозрит вас в уклонении от оплаты.

Функциональность: один из самых продвинутых сервисов – предоставляет библиотеку максимально реалистичных голосов, которые можно настраивать как угодно. Есть клонирование голоса, есть опция создания уникального синтетического голоса с нуля. Можно клонировать свой голос и заставить его говорить на любом из поддерживаемых языков.

Лучше всего подходит: для профессионального озвучивания и дублирования любого контента – от аудиокниг и подкастов до игр и фильмов.

Поддержка русского языка: есть.

Особенности: есть API.

Free Text To Speech Online

Условия использования: бесплатный.

Функциональность: использует библиотеку Microsoft AI Speech для синтеза речи. Есть два качественных, нейтральных русских голоса, простые настройки темпа и тона, предусмотрено скачивание аудио в mp3.

Лучше всего подходит: для чтения статей вслух.

Поддержка русского языка: есть.

Особенности: ограничение по количеству символов – 10 000. Для выставления пауз и корректировки ударений можно использовать SSML-разметку.

Аналогичные по функциональности сервисы: TTSMaker, Voicemaker, VoxWorker, Narakeet, VoiceBot, TextToSpeech, FreeTTS, Ozvuchka Online.

Статья по теме

🤖 25 бесплатных AI-инструментов для разработчиков

Mimic

Условия использования: open source.

Функциональность: быстрый и легкий голосовой синтезатор, созданный на основе CMU Flite. Можно создавать новые уникальные голоса.

Лучше всего подходит: для озвучивания голосовых помощников и чтения вслух.

Поддержка русского языка: есть.

Особенности: работает на любых устройствах – от Raspberry Pi до Android смартфонов. Не поддерживает (пока) Windows и macOS.

Близкие по функциональности опенсорсные синтезаторы: MaryTTS, Flite, Voice Builder, eSpeak NG, Pico TTS.

Murf

Условия использования: платный. Бесплатно можно генерировать до 10 минут аудио в день.

Функциональность: предоставляет более 120 реалистичных мужских и женских голосов, которые можно настраивать и кастомизировать (придать акцент, например, изменить возраст, темп, тон или эмоциональную окраску). Поддерживает 20+ языков.

Лучше всего подходит: для создания подкастов, озвучивания видео и записи аудиокниг.

Поддержка русского языка: есть.

Особенности: есть продвинутый редактор видео и обширная библиотека бесплатных музыкальных треков.

Speechify

Условия использования: платный. Бесплатного тестового периода достаточно для ознакомления со всеми функциями платформы.

Функциональность: озвучивает любой текстовый контент, создает уникальные голоса для ИИ-аватаров, на лету переводит и дублирует видео.

Лучше всего подходит: для профессионального озвучивания и дублирования контента.

Поддержка русского языка: есть.

Особенности: поддерживает импорт видео и скриптов по ссылкам на YouTube. Есть приложения для Android и Apple девайсов.

Статья по теме

🤖📄 ChatGPT: эффективная суммаризация с помощью LLM

Mozilla TTS

Условия использования: open source.

Функциональность: включает большой набор обученных моделей. Поддерживает 20+ языков, генерирует нейтральную по эмоциональной окраске реалистичную речь. Можно создавать и обучать свои модели.

Лучше всего подходит: для использования в любых собственных проектах.

Поддержка русского языка: есть.

Особенности: с 2021 года не обновляется, разработчики проекта переключились на Coqui AI, который использует Mozilla TTS в качестве основы.

Deepgram

Условия использования: платный. Бесплатно можно использовать любую функциональность на $200 (стоимость синтеза 60 минут речи, например).

Функциональность: сервис использует 4 модели для синтеза гиперреалистичной речи – Nova-2, Enhanced, Base, Whisper Large. Модели, помимо синтеза речи на основе текста, делают суммаризацию и анализ тональности, определяют тематику и намерения.

Лучше всего подходит: для озвучивания контента и голосовых ботов, анализа речи, генерации транскриптов в реальном времени.

Поддержка русского языка: скоро будет.

Особенности: есть плейграунд для тестирования основных функций. Имеется API, загружать аудио и видео можно по ссылкам на YouTube.

Respeecher

Условия использования: платный. Есть бесплатный тестовый период – 3 дня.

Функциональность: предлагает библиотеку реалистичных голосов с различными акцентами. Есть возможность клонировать собственный голос. Можно преобразовать свой голос в любую другую тональность, изменить гендерную принадлежность или возраст – в общем, стать человеком-оркестром.

Лучше всего подходит: для профессионального озвучивания игр и фильмов.

Поддержка русского языка: есть, однако разработчики предупреждают, что лучше всего Respeecher работает с английским.

Особенности: может преобразовать человеческий голос в специфические звуки, издаваемые различными животными.

Tortoise TTS

Условия использования: open source.

Функциональность: синтезирует речь с использованием множества реалистичных голосов (примеры – здесь), учитывает указания на эмоции в тексте, клонирует голос.

Лучше всего подходит: для озвучивания контента в пет-проектах, для записи подкастов и аудиокниг.

Поддержка русского языка: пока нет.

Особенности: для клонирования голоса нужно использовать любые качественные аудиореференсы без фоновых звуков. Есть усовершенствованная и ускоренная версия Tortoise TTS Fast.

Wondercraft AI

Условия использования: платный. Бесплатно можно сделать 3 аудиозаписи.

Функциональность: располагает библиотекой гиперреалистичных голосов для озвучивания текста, есть опция клонирования голоса. Предусмотрено автоматическое создание транскрипта и заметок. Готовые подкасты можно дублировать на любом из 24 доступных языков.

Лучше всего подходит: для автоматического создания подкастов на основе текстового контента.

Поддержка русского языка: есть.

Особенности: для платных тарифов предусмотрен хостинг на Apple+ и Spotify.

Coqui

Условия использования: платный, но есть возможность абсолютно бесплатного использования – ссылка ниже. Для тестирования выдают 300 кредитов – этого вполне достаточно, чтобы клонировать сколько угодно голосов и сгенерировать 5 минут аудио.

Функциональность: предоставляет 5 гиперреалистичных голосов, поддерживает 7 языков.

Лучше всего подходит: для озвучивания игр, видеороликов, фильмов и аудиокниг.

Поддержка русского языка: есть.

Особенности: тон, эмоциональность и другие параметры голоса можно настраивать как угодно, причем поддерживаются манипуляции на уровне отдельных предложений, слов и слогов – это гарантирует максимальную реалистичность.

Опенсорсный вариант: Coqui AI можно установить бесплатно на свой комп.

Fluxon

Условия использования: платный. Бесплатно можно клонировать 3 голоса и озвучивать 10 тыс. символов в месяц.

Функциональность: 5 реалистичных голосов на выбор, возможность клонировать любой голос по образцу, перевод аудио на другой язык.

Лучше всего подходит: для озвучивания и дублирования аудио и видеоконтента, записи аудиокниг и подкастов, создания голосовых чат-ботов.

Поддержка русского языка: скоро будет.

Особенности: все функции, включая синхронное дублирование, доступны по API.

PlayHT

Условия использования: платный. Бесплатно можно клонировать один голос и озвучить 12,5 тыс. символов в месяц.

Функциональность: генерирует человеческие голоса, неотличимые от настоящих. Имеет редактор для создания уникальных голосов персонажей. Предоставляет огромный выбор голосов – более 800, поддерживает 130+ языков.

Лучше всего подходит: для создания профессионального аудио- и видео-контента, озвучивания игр, фильмов, ботов и интерактивных голосовых меню, записи аудиокниг и подкастов.

Поддержка русского языка: для синтеза речи на основе текста – есть, для клонирования голоса – скоро будет.

Особенности: все функции доступны по API.

VoiceMy

Условия использования: платный. Бесплатно можно клонировать сколько угодно голосов, обучить 1 модель и озвучить 1000 символов в месяц.

Функциональность: озвучивает текст, клонирует голос, обучает голосовые модели.

Лучше всего подходит: для хобби-проектов.

Поддержка русского языка: есть. Однако имеющиеся в библиотеке русскоязычные модели генерируют не самую реалистичную речь.

Особенности: можно обучать голосовые модели на основе, например, песен. Модели, обученные другими пользователями сервиса, доступны в библиотеке.

Recast AI

Условия использования: бесплатный для озвучивания публикаций с топ-сайтов. На платном тарифе нет рекламы, доступно прослушивание в офлайне, а озвучивать можно что угодно, включая PDF.

Функциональность: превращает лонгриды в сжатые интересные подкасты.

Лучше всего подходит: для озвучивания и суммаризации лонгридов на английском языке.

Поддержка русского языка: пока нет.

Особенности: есть приложения для Android, iOS и плагин для браузерa Chrome. Созданныеми аудио можно поделиться с помощью ссылки.

Похожий сервис: Article Audio – читает статьи по ссылкам, озвучивает TXT и PDF документы. Поддерживает русский язык.

***

А какими голосовыми движками и нейронками пользуетесь вы? Поделитесь с нами в комментариях!

🔈16+ лучших нейронок для синтеза речи

RHVoice

ElevenLabs

Free Text To Speech Online

Mimic

Murf

Speechify

Mozilla TTS

Deepgram

Respeecher

Tortoise TTS

Wondercraft AI

Coqui

Fluxon

PlayHT

VoiceMy

Recast AI

МЕРОПРИЯТИЯ

Курс "Разработка ИИ-агентов"

Комментарии

ЛУЧШИЕ СТАТЬИ ПО ТЕМЕ

Python + Visual Studio Code = успешная разработка

6 сервисов для работы с блок-схемами

15 прекрасных плагинов для Sublime Text

Курс "Разработка ИИ-агентов"

Python + Visual Studio Code = успешная разработка

6 сервисов для работы с блок-схемами

15 прекрасных плагинов для Sublime Text

Подтверждение

Авторизация

Письмо отправлено

Во время авторизации произошла ошибка

Что не так с этим материалом?

Что не так с этим комментарием?

Что не так с этим тестом?

Что не так с этой вакансией?

Что не так с этим мероприятием?

Какой баг вы нашли?

Заполните, пожалуйста, форму, чтобы мы могли с Вами связаться