«Яндекс» добавил возможность персональной настройки утреннего шоу голосового помощника «Алиса». Функция появилась в ассистенте в апреле этого года. «Алиса» по-прежнему умеет зачитывать по утрам актуальные новости. Больше настроек для моего Утреннего шоу: выбирайте комфортный порядок из подкастов на интересные темы, прогноза погоды, рассказа о навыках, музыки и новостей из выбранных источников. Запущу, как обычно, по фразе: «Алиса, доброе утро!» Радионяню смогут. Теперь навыки смогут отправлять короткий регулярный контент в утреннее шоу Алисы. Умные колонки с голосовым помощником "Алиса" научились проводить утренние шоу, которые подбираются под конкретных пользователей.
Слушать утреннее и вечернее шоу Алисы на Станции
Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — отметил Андрей Законов, руководитель продукта голосового помощника «Алиса». Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций.
Чтобы запустить программу, достаточно сказать: "Алиса, включи утреннее шоу!
И в этот же момент к слушателям придут новости, прогноз погоды, музыка и короткие подкасты - например, о том, способны ли животные обманывать или как влияет шоколад на здоровье. Еще до шоу Алиса выступала диджеем: она ставит и комментирует песни из персонального плейлиста дня на Яндекс. Музыке - в нем собраны треки, отобранные для пользователя.
Создатели подчеркивают, что Алиса прекрасно ориентируется в происходящем и говорит о том, что волнует людей.
После того как вы расставили продукты по местам - время принять душ. Был тяжелый день, пришло время немного расслабиться. Вы заходите в ванную комнату, свет включился самостоятельно. Попросили Алису Яндекс Станцию Мини которая расположена в ванной включить музыку.
Пока моетесь Вы заметили, что в ванной повысилась влажность и вентиляционная вытяжка в ванной заработала. Время отдыха и чиллить. Куранты на Яндекс Станциях пробили 11 часов. Голосовым управлением запустили телевизор я обычно включаю когда нахожусь на кухне и собираюсь спать и включаю китайскую светодиодную ленту. Пока телевизор запускается - можно пошарить экранчики с графиками.
Время просмотра фильмов, но экран слишком яркий? Голосовым управлением или с помощью телефона запустился сценарий "яркость для ночного режима". День закончился, голосом или возможно установленной кнопкой возле кровати - вы выключили все в квартире. Вам снятся электроовцы. Наступил следующий день.
Вас разбудил будильник установленный заранее на Яндекс Станции. Можно поставить и какую-то определенную музыку для пробуждения. Не хватает здесь настройки будильников через приложение Умный Дом Яндекса. Кажется, мы уже проснулись? Вы говорите "Алиса, доброе утро" Яндекс Станции 2.
Она вас также приветствует, и под музыку начинается новый день. Зачитывает новости моего маленького города. Здесь не хватает автоматизации для открытия штор и заварки кофе - но и этого хватит. Началась ежедневная рутина. Когда Вы сказали "доброе утро" - на кухне включился кондиционер автоматизации нет, если температура за окном минус 35 градусов, придется ручками заранее отключать работу кондиционера в данном моём сценарии.
Вы направились на кухню, время готовить. На балконе в закрытом шкафу лежит спрятанный пакетик листиков для заварки чая. Как только Вы открыли дверь балкона - кондиционер автоматически выключился. Пришлось запускать голосом. Время отправляться на работу.
Вы приняли душ под энергичную музыку которую включила умная станция по потоку рекомендаций. Геля для душа осталось не так много. Вы говорите «Алиса, добавь в список покупок: гель для душа и зубную пасту». Когда будете возвращаться домой после работы — не забудьте открыть список покупок на телефоне. Вытяжка работает исправна.
Закончив водные процедуры - время идти в коридор и одеваться. Как только вы подошли к шкафу — свет в коридоре включился. Вы собрались уходить, но заметили невыключенный свет в некоторых комнат. Возле входной двери нас ждала умная кнопка. Умные выключатели освещения для круглых подрозетников подключены через zigbee к УДЯ.
Созданные мною сценарии в приложении УДЯ позволили связать все это между собой.
Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование. Победил кластер с очень мягкой и приятной интонацией.
Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю. Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. В принципе, этого можно было ожидать: уверен, многие предпочтут более ласковый разговор по телефону то есть с потерей в качестве живому, но холодному общению. К примеру, так звучал резкий голос: А так — мягкий: Результаты турниров позволили нам выделить во всем обучающем датасете данные, которые относятся к стилю-победителю, и использовать для обучения только их.
Благодаря этому Алиса по умолчанию стала говорить более мягким и дружелюбным голосом. Этот пример показывает, что с точки зрения восприятия важно работать не только над качеством синтеза, но и над стилем речи. После этого оставалось только обогатить Алису новыми эмоциями. Бодрая или спокойная: управляем эмоциями Алисы Когда вы включаете утреннее шоу Алисы или запускаете автоматический перевод лекции на YouTube, то слышите разные голоса — бодрый в первом случае и более флегматичный в другом. Эту разницу сложно описать словами, но она интуитивно понятна — люди хорошо умеют распознавать эмоции и произносить один и тот же текст с разной эмоциональной окраской. Мы обучили этому навыку Алису с помощью той же разметки подсказок, которую применили для стилей.
У языка есть интересное свойство — просодия , или набор элементов, которые не выражаются словами. Это особенности произношения, интенсивность, придыхание и так далее. Один текст можно произнести со множеством смыслов. Как и в случае со стилями речи, можно, например, выделить кластеры «веселая Алиса», «злая Алиса» и так далее. Поскольку стилевой механизм отделяет просодию «как говорим» от артикуляции «что говорим» , то новую эмоцию можно получить буквально из пары часов данных. По сути, нейросети нужно только выучить стиль, а информацию о том, как читать сочетания фонем, она возьмёт из остального корпуса.
Прямо сейчас доступны три эмоции. Например, часть пользователей утреннего шоу Алисы слышат бодрую эмоцию. Кроме того, её можно услышать, спросив Алису «Кем ты работаешь? Флегматичная эмоция пригодилась для перевода видео — оказалось, что голос по умолчанию слишком игривый для этой задачи. Наконец, радостная эмоция нужна для ответов Алисы на специфические запросы вроде «Давай дружить» и «Орёл или решка? Ещё есть негативная эмоция, которую пока не знаем, как использовать — сложно представить ситуацию, когда людям понравится, что на них ругается робот.
Первый корпус эмоций мы записали ещё при WaveGlow, но результат нас не устроил и выкатывать его не стали. С переходом на HiFi-GAN стало понятно, что он хорошо работает с эмоциями, это позволило запустить полноценный эмоциональный синтез. Наконец, мы решили внедрить шёпот. Когда люди обращаются к Алисе шёпотом, она должна и отвечать шёпотом — это делает её человечнее. При этом шёпот — не просто тихая речь, там слова произносятся без использования голосовых связок. Спектр звука получается совсем другим.
С одной стороны, это упрощает детекцию шёпота: по «картинке» мел-спектрограммы можно понять, где заканчивается обычная речь и начинается шепот. С другой стороны, это усложняет синтез шёпота: привычные механизмы обработки и подготовки речи перестают работать. Поэтому шёпотный синтез нельзя получить детерминированным преобразованием сигнала из речи. Так выглядят мел-спектрограммы обычной речи и шёпота при произнесении одной и той же фразы: Так звучит обычная речь: А так — шёпот: Сначала мы научили Алису понимать шёпот. Для этого обучили нейросеть различать спектры звука для обычного голоса и шёпота. Система смотрит на спектр звука и решает, когда говорят шёпотом, а когда — голосом.
В процессе обучения оказалось, что спектры шёпота и речи курильщиков похожи, так что пришлось научить нейросеть их различать. Для этого собрали больше пограничных данных с речью курильщиков и простуженных людей и донастроили нейросеть на них. Чтобы научить Алису говорить шёпотом, мы записали несколько часов шёпота речи в исполнении Татьяны Шитовой. Сложности начались уже на предобработке данных: наш VAD детектор тишины в речи сломался на шёпотных гласных — трудно отличить сказанное шёпотом «а! Починить его удалось, только совместив признаки энергии сигнала и данные от распознавания речи, при этом под шёпот конструкцию пришлось калибровать отдельно. Затем записанные данные добавили в обучающий корпус акустической модели.
Мы решили рассматривать шёпот как еще один «стиль» речи или, в терминах нашего синтеза, «эмоцию». Добавив данные в трейнсет, мы дали акустической модели на вход дополнительную информацию — шёпот или эмоцию она сейчас проигрывает. По этому входу модель научилась по команде пользователя переключаться между генерацией речи и шёпота. Сгенерированный шёпот по качеству не отличался от обычной речи. Оказалось, что ряд ошибок интонации в шёпотной речи были значительно менее ярко выражены. Этот голос будет полезен при общении с Алисой ночью, чтобы не мешать близким.
Можно задавать вопросы тихим голосом и Алиса будет отвечать шёпотом. Кроме того, такой стиль ещё и звучит очень приятно — поклонники ASMR оценят. Послушайте, как шепчет Алиса: На этом мы не останавливаемся — в планах дальнейшее развитие голосового синтеза, добавление новых стилей и эмоций. Обязательно продолжим рассказывать о том, как Алиса учится говорить по-человечески.
Команды и сценарии для Алисы: покоряем умного помощника
Новые спортивные каналы Фанаты спорта, ликуйте! Можно даже смотреть прямые трансляции Российской Премьер-Лиги, Лиги чемпионов и не только. Управляем голосом любым видео на «ТВ Станции» Управлять перематывать, переключать, включать субтитры и т. Просто дайте Алисе нужную команду и она все сделает. Персонализация утреннего шоу Порядок контента и его жанр можете выбрать и настроить под себя. Здесь можно выбрать мероприятия, которые хотели бы видеть у себя в рекомендациях.
Если же мы просто напишем «новости» без предварительной настройки, то голосовой помощник нам выдаст такое сообщение: Дополню, что настроить Алису можно не только в приложении Яндекса с 12 сентября оно называется Яндекс. Старт , но и через Яндекс. Браузер на телефоне или компьютере. После просьбы «Настроить новости» Алиса скажет: Выберите новости, которые хотите слушать в ответ на команду «Алиса, расскажи новости». Отмечаем соответствующие кружочки и нажимаем «Сохранить». На телефоне это выглядит так: А на ноутбуке или компьютере вот так: Другими словами, настроить новости Алисы можно как с телефона, так и ноутбука. Главное, чтобы был установлен Яндекс.
Алиса запустила утреннее шоу с персональными рекомендациями 17 апреля 2020 1 мин В умных колонках с Алисой появилось персональное утреннее шоу: теперь можно слушать полезную информацию и музыку, подобранную специально для слушателя. Слушателей ждут новости, прогноз погоды, музыка и короткие подкасты. Алиса выступает диджеем: ставит и комментирует песни из персонального плейлиста дня на Яндекс.
А ещё, в 11 часов ночи звуковое уведомление даёт понять, что уже нельзя шуметь. Графики и датчики климата Да, у меня в каждой комнате датчики климата. Простая автоматизация яркости телевизора Ещё один из сценариев для использования Умного Пульта Яндекса. Ранее: Приходилось вручную включать яркость для ночного режима. Сейчас: Простая автоматизация нажатия кнопок помогает быстро включить нужную яркость. Есть ещё сценарий для восстановления яркости. Сценарий: Время ночного просмотра телевизора Ранее: Включал телевизор через пульт. Бегал выключать свет, который не выключил. Сейчас: Одна автоматизация: голосовым запуском или через приложение. В ближайшее время докуплю ещё кнопку для запуска данного сценария — одно нажатие. Ещё можно найти эмбилайт ленту для вашего андроид тв. Сценарий: Время спать Ранее: Приходилось по отдельности выключать телевизор, светодиодную ленту, обесточить какие-то розетки и, конечно, выключить свет в спальне. В ближайшее время докуплю ещё кнопку для запуска данного сценария - долгое нажатие. УДЯ НЕ запоминает состояние телевизора. Можно и без умной розетки и wake on lan режима управлять. Тогда из этого моего сценария убрать телевизор. Сейчас: Возле входной двери установлена умная кнопка. После её зажатия происходит сценарий: выключается всё освещение, которое забывал выключить, выключается кондиционер, розетки обесточиваются если установлена умная розетка или умное реле на розетку. Сценарий: Помогаем кондиционеру не работать просто так Ранее: я забывал выключить кондиционер, когда открывалась дверь на балконе. Сейчас: Я также забываю выключать кондиционер, когда выхожу на балкон. С данным сценарием кондиционер отключается автоматически. Список покупок Ранее: На моём телефоне установлено приложение Tick-Tick, это простая гибка тудушка. Через неё создавал список покупок. Но таким голосовым управлением добавляется по одной задаче. Сейчас: В каждой комнате установлен Яндекс со своими мини станциями и создавать списки покупок голосом стало удобно. Например, Вы принимаете душ или делая дела по дому обнаружили отсутствие зубной пасты. Голосовой фразой "Алиса, добавь зубную пасту в список покупок" - зубная паста добавляется в общий список покупок. Не забывайте пуши использовать для других сценариев. Если влажность в доме повысилась, открылась дверь или что-то ещё. Сценарий: После работы направляемся домой Наконец-то можно подготовить квартиру к вашему приходу светодиодной гирлянды на балконе у меня нет. Сценарий: Доброе утро Вы проснулись. Голосовым управлением "Алиса, доброе утро" или нажатием кнопки начинается утренний сценарий. Яндекс Станция включает Шоу Алисы погода, новости, музыка и т. Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером. К данному сценарию можно подключить: кофеварку через навык xiaomi от Яндекса , но у меня дома рожковая кофеварка. К данному сценарию можно добавить: Рассказать список личных дел на сегодня. Я этими делами не пользуюсь. Утреннее шоу Алисы В утреннем шоу Алиса расскажет о погоде, настраиваемая подборка новостей, короткие подкасты и треки из плейлиста дня. Дополнительно можно подключить навыки из представленной подборки.
Как взглянуть на «Алису» по-новому? 5 необычных навыков для «Яндекс.Станции»
В конце 2020 года утреннее шоу Алисы стало персонализированным. Какие новости нужно выбирать, чтобы быть в курсе последних событий, но не утомляться излишним потоком информации? «Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости в Алисе Можно дать ей обычную команду «Алиса, настрой новости». Утреннее шоу Алисы — как настроить и использовать Утреннее шоу Алисы позволяет ознакомиться с новейшими новостями, прослушать интересные подкаcты и. Для того чтобы настроить новости на колонке с Алисой Яндекс. Шоу и новости доступны в «и», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса». Умные колонки с голосовым помощником "Алиса" научились проводить утренние шоу, которые подбираются под конкретных пользователей.
Вышло большое обновление Алисы. Смотри, что теперь умеет твоя Яндекс Станция
В яблочко! Еще больше статей о голосовых ассистентах и умных колонках в нашем Яндекс. Не забудьте подписаться! Краткий пересказ книги Читать полезно, но иногда жизненно необходимо быстро узнать краткое содержание Если бы Алиса существовала в мои школьные годы, то я бы сэкономил кучу времени! Вы знали, что голосовой ассистент имеет навык «Умный пересказ»?
В ней доступны две категории: Лучшее и книги школьной программы. Для этого вам необходимо сказать «Алиса, запусти умный пересказ» и далее выбрать категорию. Я, например, с удовольствием ознакомился с содержанием нескольких книг из школьной программы, которые читал очень давно. Зачем нужны две Яндекс.
Кажется, я понял Как отправить сообщение на электронную почту Иногда вставать с рабочего места бывает лень — в некоторых делах мне помогает Яндекс. Точнее, навык «Говорящая почта». Это удобный способ отправить сообщение в прямом смысле без рук. Для этого скажите колонке «Алиса, запусти навык Говорящая почта»: запомните свой идентификатор и отправляйте сообщение другому пользователю.
Послушать войс можно на смартфоне, компьютере или колонке. Еще вы можете познакомиться с кем-либо, отправив голосовое сообщение на специальный номер — об этом Алиса подробно рассказывает при запуске навыка.
Утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — отметил Андрей Законов, руководитель продукта голосового помощника «Алиса».
Навык «Утреннее шоу» Алисы идеально подходит для людей, которые хотят быть в курсе всех новостей и интересных мероприятий. Вы можете активировать навык голосом и получать последние новости, прогноз погоды, мероприятия в вашем городе и музыкальные и книжные рекомендации. Кроме того, Алиса предлагает множество других навыков, которые вы можете использовать вместе с Утренним шоу.
Или при запуске на смартфоне условного сценария «Возвращение с работы» вы запускаете цепочку команд: «Включить свет», «Запустить музыку», «Опустить шторы» и прочее. Приложение можно использовать для создания нескольких видов сценариев. По ключевой фразеПользователь произносит определенную фразу — и сценарий запускается. Например, «Алиса, включи свет в гостиной». По расписаниюСценарий запускается в определенное время или по определенным дням недели. Например, «Включить кофеварку в 7 утра». По событиюСценарий запускается при срабатывании определенного датчика или устройства. Например, «Включить свет в коридоре, если датчик движения обнаружит движение». По уведомлениюСценарий запускается, если на телефон пользователя приходит уведомление от системы. Например, «Включить камеру, если на датчик движения поступил сигнал». По звукуСценарий запускается, если система распознает определенный звук.
«Яндекс» научил «Алису» вести персональное утреннее шоу
В умных колонках с Алисой появилось персональное утреннее шоу: теперь можно слушать полезную информацию и музыку, подобранную специально для слушателя. Для этого достаточно открыть приложение Яндекс и сказать: «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей». Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Теперь голосовой помощник может запускать новостные блоки с девяти станций, включая «Хит ФМ» и «Коммерсантъ FM». Утренние шоу впервые появились в апреле этого года.
Вышло апрельское обновление Алисы и умных устройств Яндекса
Персонализация «Утреннего шоу» Пользователи могут настраивать порядок и тип контента, который будет воспроизводиться в «Утреннем шоу». Афиша мероприятий на главном экране «Станция Дуо Макс» научилась отображать анонсы мероприятий, проходящих в городе пользователя. Радионяня для каждого Режим радионяни на «Яндекс Станции» теперь доступен для каждого члена семьи. Сообщения между «Станциями» Функция отправки сообщений между устройствами улучшена тем, что теперь «Алиса» указывает, откуда именно пришло сообщение — с какой комнаты или «Дома». Звонки без постороннего шума Новая функция подавления посторонних звуков доступна для некоторых моделей «Станций», что улучшает качество голосовой связи между пользователями. Для других моделей улучшение обещают добавить позже.
Вы голосом попросили Алису Яндекс Станцию Мини которая расположена на кухне включить кондиционер. Она запускает кондиционер. Вы также могли этого избежать - если бы заранее установили сценарий температура в комнате выше 26, включается кондиционер на 20 минут.
После того как вы расставили продукты по местам - время принять душ. Был тяжелый день, пришло время немного расслабиться. Вы заходите в ванную комнату, свет включился самостоятельно. Попросили Алису Яндекс Станцию Мини которая расположена в ванной включить музыку. Пока моетесь Вы заметили, что в ванной повысилась влажность и вентиляционная вытяжка в ванной заработала. Время отдыха и чиллить. Куранты на Яндекс Станциях пробили 11 часов. Голосовым управлением запустили телевизор я обычно включаю когда нахожусь на кухне и собираюсь спать и включаю китайскую светодиодную ленту.
Пока телевизор запускается - можно пошарить экранчики с графиками. Время просмотра фильмов, но экран слишком яркий? Голосовым управлением или с помощью телефона запустился сценарий "яркость для ночного режима". День закончился, голосом или возможно установленной кнопкой возле кровати - вы выключили все в квартире. Вам снятся электроовцы. Наступил следующий день. Вас разбудил будильник установленный заранее на Яндекс Станции. Можно поставить и какую-то определенную музыку для пробуждения.
Не хватает здесь настройки будильников через приложение Умный Дом Яндекса. Кажется, мы уже проснулись? Вы говорите "Алиса, доброе утро" Яндекс Станции 2. Она вас также приветствует, и под музыку начинается новый день. Зачитывает новости моего маленького города. Здесь не хватает автоматизации для открытия штор и заварки кофе - но и этого хватит. Началась ежедневная рутина. Когда Вы сказали "доброе утро" - на кухне включился кондиционер автоматизации нет, если температура за окном минус 35 градусов, придется ручками заранее отключать работу кондиционера в данном моём сценарии.
Вы направились на кухню, время готовить. На балконе в закрытом шкафу лежит спрятанный пакетик листиков для заварки чая. Как только Вы открыли дверь балкона - кондиционер автоматически выключился. Пришлось запускать голосом. Время отправляться на работу. Вы приняли душ под энергичную музыку которую включила умная станция по потоку рекомендаций. Геля для душа осталось не так много. Вы говорите «Алиса, добавь в список покупок: гель для душа и зубную пасту».
Когда будете возвращаться домой после работы — не забудьте открыть список покупок на телефоне. Вытяжка работает исправна. Закончив водные процедуры - время идти в коридор и одеваться. Как только вы подошли к шкафу — свет в коридоре включился. Вы собрались уходить, но заметили невыключенный свет в некоторых комнат.
В утреннее шоу не попадут истории старше семи дней. Разработчик навыка сможет указать дату, до которой история актуальна. Длительность истории не должна превышать одной минуты. Чтобы подключить навык к утреннему шоу Алисы, оставьте заявку через форму: А теперь — подробнее о работе функциональности.
Алиса, дай мне мероприятия в моем городе Алиса предлагает множество других навыков, которые вы можете использовать вместе с Утренним шоу. Вы можете использовать навыки Алисы для покупки товаров или выполнения задач по дому, управления умными устройствами и воспроизведения музыки. Вы также можете использовать навыки Алисы для игры в игры и для доступа к другим приложениям.
Команды и сценарии для Алисы: покоряем умного помощника
Больше настроек для моего Утреннего шоу: выбирайте комфортный порядок из подкастов на интересные темы, прогноза погоды, рассказа о навыках, музыки и новостей из выбранных источников. Запущу, как обычно, по фразе: «Алиса, доброе утро!» Радионяню смогут. Больше настроек для моего Утреннего шоу: выбирайте комфортный порядок из подкастов на интересные темы, прогноза погоды, рассказа о навыках, музыки и новостей из выбранных источников. Запущу, как обычно, по фразе: «Алиса, доброе утро!» Радионяню смогут. Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Утренние шоу впервые появились в апреле этого года. Утреннее шоу Алисы теперь можно настроить на свой вкус. Для настройки новостей на умной колонке необходимо выполнить несколько простых шагов.
«Яндекс» научил «Алису» вести персональное утреннее шоу
Например, это могут быть новостные сюжеты, информация об экономике, новые сведения о науке и так далее. Для настройки своего собственного утреннего шоу Алисы можно использовать официальное мобильное приложения Яндекс. Обратите внимание: В приложении Яндекс нужно авторизоваться с того аккаунта, к которому привязана Яндекс Станция. Здесь можно настроить информацию, которая будет попадать в утреннее шоу. Отметим, что настроить можно 3 типа информации: Новости. Новостной блок длится до 3 минут в рамках шоу. Тематический блок длится до 3 минут в рамках шоу.
Это несколько месяцев непрерывной работы с актрисой Татьяной Шитовой в студии. При этом нужно не просто «прочитать текст по листочку». Чем более нейтрально будет звучать голос, тем лучше.
Обычно от актёров ждут эмоциональности, проявления темперамента в своей речи. У нас ровно обратная задача, потому что нужны универсальные «кубики» для создания произвольных фраз. Вот характерный пример работы синтеза: В этом главный недостаток метода unit selection: несмотря на все усилия, фрагменты речи не будут идеально соответствовать друг другу по эмоциям и стилю. Из-за этого сгенерированная речь Алисы постоянно «переключалась» между ними. На коротких фразах это не всегда заметно, но если хотите услышать произвольный ответ длиной хотя бы в пару предложений например, быстрый ответ из поиска , то недостатки подхода становятся очевидны. В общем, unit selection перестал нас устраивать и нужно было развиваться дальше. Иногда они возвращаются: опять параметрический синтез В результате мы вернулись к архитектуре из двух последовательных блоков: акустическая модель и вокодер. Правда, на более низком уровне обновилось примерно всё. Акустическая модель В отличие от старой параметрики, новую модель мы построили на основе seq2seq-подхода с механизмом внимания.
Помните проблему с потерей контекста в нашей ранней параметрике? Если нет нормального контекста, то нет и нормальной интонации в речи. Решение пришло из машинного перевода. Дело в том, что в машинном переводе как раз возникает проблема глобального контекста — смысл слов в разных языках может задаваться разным порядком или вообще разными структурами, поэтому порой для корректного перевода предложения нужно увидеть его целиком. Для решения этой задачи исследователи предложили механизм внимания — идея в том, чтобы рассмотреть всё предложение разом, но сфокусироваться через softmax-слой на небольшом числе «важных» токенов. При генерации каждого нового выходного токена нейросеть смотрит на обработанные токены фонемы для речевого синтеза или символы языка для перевода входа и «решает», насколько каждый из них важен на этом шаге. Оценив важность, сеть учитывает её при агрегировании результатов и получает информацию для генерации очередного токена выхода. Таким образом нейросеть может заглянуть в любой элемент входа на любом шаге и при этом не перегружается информацией, поскольку фокусируется на небольшом количестве входных токенов. Для синтеза важна подобная глобальность, так как интонация сама по себе глобальна и нужно «видеть» всё предложение, чтобы правильно его проинтонировать.
На тот момент для синтеза была хорошая seq2seq-архитектура Tacotron 2 — она и легла в основу нашей акустической модели. Мел-спектрограмма Параметрическое пространство можно сжать разными способами. Более сжатые представления лучше работают с примитивными акустическими моделями и вокодерами — там меньше возможностей для ошибок. Более полные представления позволяют лучше восстановить wav, но их генерация — сложная задача для акустической модели. Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности. С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма. Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах , а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия».
Строение улитки уха из Википедии Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты. Вспомните строение улитки в ухе: это просто канал, закрученный по спирали. Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов. Низкочастотный же звук проходит вглубь. Поэтому люди хорошо различают низкочастотные звуки, но высокочастотные сливаются. Мел-спектрограмма как раз позволяет представить звук, акцентируясь на той части спектра, которая значимо различается слухом. Это полезно, потому что мы генерируем звук именно для человека, а не для машины. Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»: У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент.
Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением. А так звучит результат синтеза: 3. Новый вокодер Вероятно, вы уже догадались, что мы перешли к использованию нового нейросетевого вокодера. Именно он в реальном времени превращает мел-спектрограмму в голос. Наиболее близкий аналог нашего первого решения на основе нейросетей, которое вышло в 2018 году — модель WaveGlow. Архитектура WaveGlow основана на генеративных потоках — довольно изящном методе создания генеративных сетей, впервые предложенном в статье про генерацию лиц. Сеть обучается конвертировать случайный шум и мел-спектрограмму на входе в осмысленный wav-сэмпл. За счёт случайного шума на входе обеспечивается выбор случайной wav-ки — одной из множества соответствующих мел-спектрограмме. Как я объяснил выше, в домене речи такой случайный выбор будет лучше детерминированного среднего по всем возможным wav-кам.
В отличие от WaveNet, WaveGlow не авторегрессионен, то есть не требует для генерации нового wav-сэмпла знания предыдущих. Его параллельная свёрточная архитектура хорошо ложится на вычислительную модель видеокарты, позволяя за одну секунду работы генерировать несколько сотен секунд звука. Главное отличие, за счёт которого HiFi-GAN обеспечивает гораздо лучшее качество, заключается в наборе подсетей-дискриминаторов. Они валидируют натуральность звука, смотря на сэмплы с различными периодами и на различном масштабе. Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза. Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже. Схема HiFi-GAN из статьи авторов модели Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса. Параллельно мы работали над улучшением отдельных элементов синтеза: Летом 2019 года выкатили разрешатор омографов homograph resolver — он научил Алису правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки» и так далее. Здесь мы нашли остроумное решение.
Активируйте функцию «Радионяни» на «Яндекс Станции», чтобы слушать звуки из детской прямо на своем смартфоне, где бы вы ни находились. Пригласите в «Дом с Алисой» всех, кто сможет включать этот режим — для этого в приложении выберите нужную «Станцию» и зайдите в раздел «Радионяня». Точное место отправителя сообщения Теперь Алиса перед тем, как прочитать текст сообщения, которые родные отправили на вашу «Станцию», будет озвучивать и место, откуда пришло сообщение: из какой комнаты или «Дома». Звонки без постороннего шума С помощью «Станций» можно не только отправлять сообщения, но и звонить. Теперь Алиса будет подавлять лишний шум, чтобы вашему разговору ничего не мешало. У других станций заглушка шума появится чуть позже.
Если во время прослушивания нужно перейти к новой рубрике, достаточно сказать Алисе «Дальше» — и она тут же перейдёт к следующему блоку. Радионяня для каждого в семье Теперь каждый пользователь может включить режим радионяни на Яндекс Станции и получать звуки из детской прямо на телефон. Нужно только пригласить близких в свой Дом и указать, кто может включать режим радионяни. Сообщения между Станциями Когда нужно передать близким или друзьям что-то важное, можно отправлять сообщение прямо на умную колонку со своей Станции. Но сейчас, прежде чем начать читать текст, Алиса ещё и оповестит получателя, из какой именно комнаты или Дома пришло сообщение.