Что делают люди из Everland: Артём Плаксин основал лабораторию по созданию голосов

Команда проекта «Tiflo Host» о первой в России лаборатории по созданию новых голосов и первом её продукте – голосе «Артемий»

Команда проекта из Санкт-Петербурга «Tiflo Host» открыла лабораторию по созданию новых голосов для отечественного речевого синтезатора RHVoice. Первым продуктом лаборатории стал голос «Артемий», речевую базу которого записал известный блогер, дизайнер и путешественник Артемий Лебедев. 

По словам Артёма Плаксина, незрячего веб-разработчика, руководителя проекта «Tiflo Host», а также руководителя направления тестирования по доступности сайтов и приложений для людей с нарушением зрения в Everland, появление «Артемия» – это, без сомнения, знаковое событие: ведь до этого последний голос «Анна» для речевого синтезатора RHVoice был создан ещё в 2015 году. Кстати, этот женский голос считался самым качественным из всех имевшихся вариантов. Выбор озвучки у пользователей сейчас небольшой: существует всего 4 русских голоса, причём мужской из них – всего один. Поэтому голос «Артемий», созданный в лаборатории «Tiflo RHVoice», как считают разработчики, будет весьма востребован.

Пользу создания нового голоса трудно переоценить. Артём перечисляет плюсы этого: «У людей должен быть выбор. Тем более, выбор из качественных голосов. Один голос может больше подойти для книг, другой для постоянной работы, третий для каких-то иных задач. Один голос будет лучше звучать на телефоне, другой на компьютере. Мы даем людям выбор, делаем нечто новое, показываем, что создание новых голосов — это рядом, это не где-то в зарубежных компаниях или у Ольги Яковлевой, разработчика речевого синтезатора».

Создание голоса – это достаточно кропотливая работа. Сначала требуется записать речевую базу. В русском языке её стандартом является 2458 предложений, которые записывает диктор. Затем из начитанных фраз выбираются пары фонем, их сочетания в словах и предложениях, и на их основе формируется data-файл голоса.

Есть требования и к голосу диктора. Он не должен быть низким. Голос должен звучать ровно, без ярко выраженных особенностей и интонационных всплесков, в идеале быть богат обертонами. Запись голоса в таких проектах ведётся в условиях студии, так как только это обеспечивает качественное звучание материала. Синтез речи в реальном времени представляет собой параметрический синтез на движке HTS, и результат обработки может сильно отличаться от оригинала. Такой голос, конечно, имеет интонации, схожие с прототипом нотки, но не является его дубликатом.

Синтезатор речи RHVoice тоже был выбран неслучайно. По словам Артёма, сейчас это единственный синтезатор речи, для которого свободно можно создавать новые голоса. Остальные программы либо платные, либо их система синтеза не подразумевает создания новых речевых баз.

Команда проекта вместе с Артёмом Плаксиным благодарит Артемия Лебедева, который согласился записать речевую базу на безвозмездной основе и стать прототипом голоса «Артемий».

В планах у «Tiflo RHVoice» запись ещё, как минимум, шести мужских и женских новых голосов. В ближайшем будущем планируется начать поиск дикторов, которые готовы бесплатно поработать в этом проекте, как это делает вся команда Артёма. Разработчик делится: «С удовольствием записали бы базы для английского языка, татарского или любого другого из существующих в RHVoice, но у нас нет дикторов, владеющих этими языками. Поэтому, к сожалению, пока только русский язык». 

Если вы захотите принять участие в проекте и стать диктором, связаться с Артёмом Плаксиным можно по телефону +7 (952) 280-89-89 или написав на rhvoice@tiflo.org.

Почитать о требованиях к дикторам можно на сайте https://rhvoice.tiflo.org/recording/, а послушать и скачать голос «Артемий» отсюда: https://rhvoice.tiflo.org/voices/. На сайте доступны для скачивания надстройки для скринридера NVDA и установочный файл для SAPI5. В ближайшее время появится версия голоса для Android. 

Появление единственной в России лаборатории «Tiflo RHVoice» по созданию новых голосов для речевого синтезатора RHVoice лишь одно из направлений работы команды Артёма Плаксина, а сам проект «Tiflo Host» включает в себя несколько сервисов. Например, с помощью сервиса «Данные в данные» незрячие пользователи могут конвертировать графические изображения или PDF-документы, не имеющих текстового слоя, в форматы, которые распознаёт скринридер, программа считывания с экрана. С помощью сервиса «Tiflo Site» слабовидящие или незрячие пользователи могут освоить веб-программирование, научиться работать с популярным движком WordPress и даже создать собственный сайт. У людей с нарушением зрения есть и альтернатива Яндекс-Диску – «Tiflo Cloud», где можно хранить свои файлы. Команда Артёма Плаксина постоянно работает над созданием новых сервисов, которые облегчают незрячим пользователям выполнение различных задач и работу с сайтами.