Синтез речи мужской голос

Синтез речи мужской голос

Все чаще в повседневной жизни стали использовать синтезаторы речи. Синтезаторы речи, как становится видно уже по одному названию, осуществляют синтез речи, то есть форматируют письменный текст в устный.

Благодаря этому можно учить новые иностранные слова с правильным произношением, читать книги не отвлекаясь от своих дел или, например, находясь в транспорте. Изначально разработкой таких программ занимались организации, специализирующиеся на технике для людей с проблемами зрения.

Сейчас же, любой пользователь может скачать одну из программ, установить ее на свой компьютер или телефон и синтезировать речь, в том числе и русскую.

Для этого было разработано множество различных программ, приложенный и даже целых систем. К сожалению, не все из них предназначены для русскоязычной аудитории.

Список синтезаторов речи:

1. Acapela

Acapela — один из самых распространенных речевых синтезаторов во всем мире. Программа распознает и озвучивает тексты более, чем на тридцати языках. Русский язык поддерживается двумя голосами: мужской голос — Николай, женский — Алена.
Женский голос появился значительно позднее мужского и является более усовершенствованным.

Прослушать, как звучат голоса, можно на официальном сайте программы. Достаточно лишь выбрать язык и голос, и набрать свой небольшой текст.

Кстати, для мужского голоса был разработан отдельный словарь ударений, что позволяет достичь еще большей четкости произношения.

Установка программы проходит без проблем. Разработаны версии для операционных систем Windows, Linux, Mac, а также для мобильных ОС Android u IOS.

Программа платная, скачать ее можно с официального сайта Acapela.

2. Vokalizer

Вторым в нашем списке, но не по популярности является движок Милена от разработчика программы Vocalizer компании Nuance.
Голос звучит очень естественно, речь чистая. Есть возможность установить различные словари, а также подкорректировать громкость, скорость и ударение, что не маловажно.
Как и в случае с Акапелой, программа имеет различные версии для мобильных, автомобильных и компьютерных приложений. Прекрасно подходит для чтения книг.

Скачать все версии Vokalizer и русскоязычный движок Милена можно на официальном сайте производителя программы.

3. RHVoice

Синтезатор речи RHVoice был разработан Ольгой Яковлевой. Программа озвучивает русские тексты тремя голосами: Елена, Ирина и Александр. Подробнее об установке и применении, а также прослушать голоса Вы сможете в прошлой статье

Код синтезатора открыт для всех, программы же абсолютно бесплатны.
RHVoice выпущена в двух вариантах: как отдельная программа, так и как приложение к NVDA.
Все версии можно скачать с официального сайта разработчика.

4. ESpeak

Первая версия бесплатного синтезатора речи eSpeak была выпущена в 2006 году. С тех пор компания-разработчик постоянно выпускает все более усовершенствованные версии. Последняя версия была представлена в конце весны две тысячи тринадцатого года.

eSpeak можно установить под следующие операционные системы:

Возможна также компиляция кода для Windows Mobile, но делать ее придется самостоятельно.
А вот с мобильной ОС Android программа работает без проблем, хотя русские словари еще не до конца разработаны. Русскоязычных голосов много, можно выбрать на свой вкус.

Для разработчиков будет интересно узнать, что C++ код программы доступен в сети. Скачать программу, а также посмотреть ее код можно на официальном сайте.

5. Festival

Festival — это целая система распознавания и синтеза речи, которая была разработана в эдинбургском университете.
Программы и все модули абсолютно бесплатно и распространяются по системе open source. Скачать их и ознакомиться с демо-версиями можно на официальном сайте университета Эдинбурга.

Русский голос представлен в одном варианте, но звучание довольно хорошее и ясное, без акцента и с правильной расстановкой ударений.
К сожалению, программа пока может быть установлена только в среде API, Linux. Также есть модуль для работы в Mac OS, но русский язык пока поддерживается не очень хорошо.

Вместо послесловия

Стоит отметить, что любой из вышеприведённых синтезаторов отлично исполнен, но выбор программы индивидуален. Всё объясняется различным произношением голосов. Смею посоветовать второй вариант с голосом Милена. ОЧень выразительный голос, насыщенное звучание и приятная во всех смыслах интонация голоса!

Проверить, как правильно звучит слово, прочитать e-mail за рулём или озвучить текст робота в фильме – типичные ситуации, в которых вам может понадобиться синтезатор речи. Многие платные и бесплатные программы осуществляют перевод текста в речь на всех платформах, но не все они подходят русскоязычным пользователям. Озвучка текста на русском языке поддерживается далеко не всеми зарубежными ПО и онлайн-ресурсами. Да и их разработчики не всегда могут запрограммировать орфоэпические и интонационные нюансы.

Читайте также:  Стиральный порошок зифа отзывы

Перевод текста в речь на русском языке: лучшие программы

В этой подборке – только проверенные программы для озвучки, которые зачитают ваш текст без ошибок. В некоторых из них озвучивание текста доступно только в режиме онлайн, но есть и те, в которых предусмотрена функция экспорта файла для дальнейшего использования. Как правило, платные программы обладают расширенными возможностями настройки, а начитанный текст на выходе звучит более естественно.

Мобильные синтезаторы

Синтезатор речи Google

Собственное мультифункциональное приложение Google для перевода текста в речь. Именно оно отвечает за озвучивание текста в переводчике и чтение аудиокниг в Google Play, а также во многих других программах Play Маркета.

SpeechText

Это приложение в первую очередь для тех, кто хочет узнать правильное произношение иностранных слов. Не лучший вариант ввиду ограниченности функционала. Но в качестве подспорья при изучении языка его вполне хватает.

Болтун

Удобное приложение для устройств на Андроиде. Может озвучить текст SMS, электронное письмо, статью в браузере – любые тексты, которые вы скопируете в буфер обмена или введете прямо в приложение.

Voice Aloud Reader

Еще одно приложение, которое можно скачать в Google Play. Программа работает с загруженными текстовыми файлами и сохраненными текстами. Русский язык поддерживается. Можно выбирать интонацию и скорость чтения.

Онлайн-синтезаторы

Acapela

Один из самых известных синтезаторов речи. Разговаривает на 30 языках. Текст на русском языке вам могут зачитать мужским голосом Николай, а женским – Алёна. На бесплатное использование есть ограничение: в браузерной версии можно воспроизвести не больше 300 символов. Для использования полного функционала необходимо скачать платную программу – она доступна на Windows, Linux, Mac, а также на мобильных OC Android и IOS.

Text-to-Speech

Синтезатор речи с продвинутыми настройками: можно задавать скорость речи, размер шрифта и машинный перевод. Доступна даже экранная клавиатура для людей с ограниченными возможностями. На русском текст может зачитать здесь только женский голос.

Oddcast

На этом портале вам тоже не дадут озвучить более 300 символов разом. Зато русский язык поддерживается тремя голосами: одним мужским (Дмитрием) и двумя женскими (Милиной и Ольгой). Но главная фишка портала в том, что текст вам зачитывают анимированные дикторы. За это можно простить программе даже не самый удобный интерфейс.

Linguatec

Как и в случае с Acapela, больше определенного количества символов (здесь – 250) бесплатная версия вам озвучить не разрешит. Но зато с этой задачей она справляется очень неплохо. Здесь так же доступны два голоса – мужской (Юрий) и женский (Милена).

Ispeech

Простейший бесплатный инструмент для озвучивания коротких текстов размером не больше твита – максимум 150 символов. Зато полученный результат можно сохранить на компьютере. Русский язык поддерживается.

PilliApp

Программа не разговаривает больше 60 секунд, поэтому разработчики рекомендуют делить длинный текст на несколько строк. За русский язык отвечают голоса Юрия и Елены. Сайт программы явно переведен в автоматическом режиме, поэтому не удивляйтесь легкой странности текста на главной странице.

Отечественный онлайн-софт с возможностью расширенных настроек: можно отрегулировать скорость чтения, высоту тона, громкость и чтение знаков препинания. Выбор невелик – только Александр или Елена. Зато можно не копировать текст в окошко, а сразу загрузить в программу файл Microsoft Word. Минус этого сервиса в том, что мгновенно озвучить текст не получится: придется подождать в очереди на конвертацию.

ПК синтезаторы

Robot Talk

Бесплатное приложение магазина Windows. В программе всего 5 голосов: 3 мужских и 2 женских. Можно изменять тембр голоса и скорость речи. Полученный на выходе аудиофайл можно сохранить.

Балаболка

Умная и непривередливая программа, которая читает тексты практически любых форматов – DOC, PDF, PPTX, XLS и многих других. Для озвучки используются движки синтезаторов речи, которые уже присутствуют в вашем компьютере. Помимо распознавания текста в речь, софт предлагает проверку орфографии. По окончании работы аудиофайл можно экспортировать.

Говорилка

Словари произношений в этой программе постоянно пополняются, поэтому орфоэпических ошибок можно не бояться. Считывает текстовые файлы и прокручивает текст на экране, как телевизионный суфлер. Ограничений по объему текстов нет, поэтому это отличный вариант для тех, кто предпочитает аудиокниги электронным: достаточно загрузить книгу в программу – и можно слушать.

Читайте также:  Сколько диагоналей у выпуклого семиугольника

2nd Speech Center

Предельно понятный интерфейс и все та же возможность экспорта файла в MP3 и WAV. Программа поддерживает файлы в формате TXT, DOC, PDF, EML, RTF, HTM, HTML. Можно регулировать скорость получившегося текста – удобно, чтобы послушать учебные материалы на иностранном языке.

Альтернативные синтезаторы

Яндекс Переводчик

Как мы уже знаем благодаря боту «Алиса», у софта «Яндекса» все хорошо с распознаванием речи. Преобразование текста в речь в интерфейсе их переводчика тоже работает на ура. Никаких дополнительных настроек и возможностей экспорта не предусмотрено, но это стандартная практика для приложений-переводчиков.

Google Переводчик

Аналогично своему российскому коллеге, этот переводческий инструмент выполняет базовые задачи по озвучке текста. Подходит для сверки ударений. Мобильное приложение этого сервиса нередко выручает в путешествиях: достаточно напечатать или сказать в динамик нужную фразу, чтобы софт тут же озвучил ее перевод вашему иностранному собеседнику.

Как обработать аудиофайлы

С любой аудиодорожкой, даже если это сохраненный файл из синтезатора речи, можно сделать много крутых вещей: улучшить звук, ускорить его или замедлить, проиграть обратно, убрать шумы, добавить аудиоэффекты или совместить с музыкальным фоном. И, конечно, можно наложить аудиотрек на видео для озвучки клипа. Большой простор для творчества со звуком и видеозаписями дает программа Movavi Video Suite. В ней можно не только работать с готовыми аудиофайлами, но и записать собственный аудиотрек или закадровый комментарий для видео, а также захватить звук с экрана компьютера и потом обработать его, если нужно. Movavi Video Suite включает также возможность конвертировать любые медиаформаты.

Хотя нейронные сети стали использоваться для синтеза речи не так давно (например), они уже успели обогнать классические подходы и с каждым годам испытывают на себе всё новые и новый задачи.

Например, пару месяцев назад появилась реализация синтеза речи с голосовым клонированием Real-Time-Voice-Cloning. Давайте попробуем разобраться из чего она состоит и реализуем свою многоязычную (русско-английскую) фонемную модель.

Строение

Наша модель будет состоять из четырёх нейронных сетей. Первая будет преобразовывать текст в фонемы (g2p), вторая — преобразовывать речь, которую мы хотим клонировать, в вектор признаков (чисел). Третья — будет на основе выходов первых двух синтезировать Mel спектрограммы. И, наконец, четвертая будет из спектрограмм получать звук.

Наборы данных

Для этой модели нужно много речи. Ниже базы, которые в этом помогут.

Имя Язык Ссылка Комментарии Моя ссылка Комментарии
Словарь фонем En, Ru En,Ru link Совместил русский и английский фонемный словарь
LibriSpeech En link 300 голосов, 360ч чистой речи
VoxCeleb En link 7000 голосов, много часов плохого звука
M-AILABS Ru link 3 голоса, 46ч чистой речи
open_tts, open_stt Ru open_tts, open_stt много голосов, много часов плохого звука link Почистил 4 часа речи одного спикера. Поправил аннотацию, разбил на отрезки до 7 секунд
Voxforge+audiobook Ru link много голосов, 25ч разного качества link Выбрал хорошие файлы. Разбил на отрезки. Добавил аудиокниг из интернета. Получилось 200 спикеров по паре минут на каждого
RUSLAN Ru link Один голос, 40ч чистой речи link Перекодировал в 16кГц
Mozilla Ru link 50 голосов, 30ч нормального качества link Перекодировал в 16кГц, Раскидал разных пользователей по папкам
Russian Single Ru link Один голос, 9ч чистой речи link

Обработка текста

Первой задачей будет обработка текста. Представим текст в том виде, в котором он будет в дальнейшем озвучен. Числа представим прописью, а сокращения раскроем. Подробнее можно почитать в статье посвященной синтезу. Это тяжелая задача, поэтому предположим, что к нам поступает уже обработанный текст (в базах выше он обработан).

Следующим вопросом, которым следуют задаться, это использовать ли графемную, или фонемную запись. Для одноголосного и одноязычного голоса подойдет и буквенная модель. Если хотите работать с многоголосой многоязычной моделью, то советую использовать транскрипцию (Гугл тоже).

Для русского языка существует реализация под названием russian_g2p. Она построена на правилах русского языка и хорошо справляется с задачей, но имеет минусы. Не для всех слов расставляет ударения, а также не подходит для многоязычной модели. Поэтому возьмём созданный ей словарь, добавим словарь для английского языка и скормим нейронной сети (например этим 1, 2)

Прежде чем обучать сеть, стоит подумать, какие звуки из разных языков звучат похоже, и можно им выделить один символ, а для каких нельзя. Чем больше будет звуков, тем сложнее модели учиться, а если их будет слишком мало, то у модели появиться акцент. Не забудьте ударным гласным выделять отдельные символы. Для английского языка вторичное ударение играет малую роль, и я бы его не выделял.

Читайте также:  Компьютер в машину своими руками

Кодирование спикеров

Сеть схожа с задачей идентификации пользователя по голосу. На выходе у разных пользователей получаются разные вектора с числами. Предлагаю использовать реализацию самого CorentinJ, которая основана на статье. Модель представляет собой трехслойный LSTM с 768 узлами, за которыми следует полносвязный слой из 256 нейронов, дающие вектор из 256 чисел.

Опыт показал, что сеть, обученная на английской речи, хорошо справляется и с русской. Это сильно упрощает жизнь, так как для обучения требуется очень много данных. Рекомендую взять уже обученную модель и дообучить на английской речи из VoxCeleb и LibriSpeech, а также всей русской речи, что найдёте. Для кодера не нужна текстовая аннотация фрагментов речи.

Тренировка

Синтез

Перейдём к синтезу. Известные мне модели не получают звук напрямую из текста, так как, это сложно (слишком много данных). Сначала из текста получается звук в спектральной форме, а уже потом четвертая сеть будет переводить в привычный голос. Поэтому сначала поймём, как спектральное вид связанна с голосом. Проще разобраться в обратной задаче, как из звука получить спектрограмму.

Звук разбивается на отрезки длинной 25 мс с шагом 10 мс (по умолчанию в большинстве моделей). Далее с помощью преобразования Фурье для каждого кусочка вычисляется спектр (гармонические колебания, сумма которых даёт исходный сигнал) и представляется в виде графика, где вертикальная полоса — это спектр одного отрезка (по частоте), а по горизонтальной — последовательность отрезков (по времени). Этот график называется спектрограммой. Если же частоту закодировать нелинейно (нижние частоты качественнее, чем верхние), то изменится масштаб по вертикали (нужно для уменьшения данных) то такой график называют Mel спектрограммой. Так устроен человеческий слух, что небольшое отклонение на нижних частотах мы слышим лучше, чем на верхних, поэтому качество звука не пострадает

Существует несколько хороших реализаций синтеза спектрограмм, такие как Tacotron 2 и Deepvoice 3. У каждой из этих моделей есть свои реализации, например 1, 2, 3, 4. Будем использовать(как и CorentinJ) модель Tacotron от Rayhane-mamah.

Tacotron основан на сети seq2seq с механизмом внимания. Ознакомитесь с подробностями в статье.

Тренировка

Не забудьте отредактировать utils/symbols.py, если будете синтезировать не только английскую речь, hparams.pу, а так же preprocess.py.

Для синтеза нужно много чистого, хорошо размеченного звука разных спикеров. Здесь чужой язык не поможет.

  1. Запустите python synthesizer_preprocess_audio.py для создания обработанного звука и спектрограмм
  2. Запустите python synthesizer_preprocess_embeds.py для кодирования звука (получения признаков голоса)
  3. Запустите python synthesizer_train.py my_run для тренировки синтезатора

Вокодер

Теперь осталось только преобразовать спектрограммы в звук. Для этого служит последняя сеть — вокодер. Возникает вопрос, если спектрограммы получаются из звука с помощью преобразования Фурье, нельзя ли с помощью обратного преобразования получить снова звук? Ответ и да, и нет. Гармонические колебания, из которых состоит исходный сигнал, содержат как амплитуду, так и фазу, а наши спектрограммы содержат информацию только об амплитуде (ради сокращения параметров и работаем со спекрограммами), поэтому если мы сделаем обратное преобразование Фурье, то получим плохой звук.

Для решения этой проблемы придумали быстрый алгоритм Гриффина-Лима. Он делает обратное преобразование Фурье спектрограммы, получая "плохой" звук. Далее делает прямое преобразования этого звука и получают спектр, в котором уже содержится немножко информации о фазе, причём амплитуда в процессе не меняется. Далее берётся еще раз обратное преобразование и получается уже более чистый звук. К сожалению, качество сгенерированной таким алгоритмом речи оставляет желать лучшего.

На его смену пришли нейронные вокодеры, такие как WaveNet, WaveRNN, WaveGlow и другие. CorentinJ использовал модель WaveRNN за авторством fatchord

Для предобработки данных используется два подхода. Либо получить спектрограммы из звука (с помощью преобразования Фурье), или из текста (с помощью модели синтеза). Google рекомендует второй подход.

Тренировка

Итого

Мы получили модель многоязычного синтеза речи, умеющей клонировать голос.
Запустите toolbox: python demo_toolbox.py -d
Примеры можно послушать тут

Советы и выводы

Можете синтезировать свой голос онлайн с помощью colab, или посмотреть мою реализацию на github и скачать мои веса.

Ссылка на основную публикацию
Сетевой город 71 щекино школа 12
Запрошенная Вами страница не найдена. Возможно, Вы перешли по устаревшей ссылке или неверно ввели адрес. 2019 Электронное образование Министерство по...
Самый лучший музыкальный центр по звуку
На первый взгляд, сегодня мало кому в голову придет купить музыкальный центр себе домой, когда прослушивать музыку можно, просто подключив...
Самый лучший плеер для виндовс 7
Чтобы просмотр фильмов или прослушивание музыки за компьютером было действительно комфортным, необходимо скачать по-настоящему качественный проигрыватель. Ниже представлена подборка из...
Сетевой драйвер для ноутбука асер
Драйвера для ноутбуков и нетбуков Acer Поддерживаемые операционные системы: Windows 7 Для начала загрузки данного файла, найдите под пунктом номер...
Adblock detector