Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Утренние шоу впервые появились в апреле этого года. Яндекс Станция включает Шоу Алисы (погода, новости, музыка и т.п.). Об этом я рассказываю ниже. Для утреннего сценария использую автоматизацию охлаждения кухни кондиционером.
Умные колонки с "Алисой" научились вести персонализированные утренние шоу
О сервисе Прессе Авторские права Связаться с нами Авторам Рекламодателям Разработчикам. Чтобы выбрать источник новостей, откуда Алиса будет зачитывать информацию, воспользуйтесь одним из следующих способов: скажите голосовой помощнице в приложении Яндекс фразу «Алиса, настрой новости» — выберите источник вручную в приложении Яндекс. Чтобы настроить «Новости колонка Алиса», вам нужно открыть мобильное приложение или сайт Яндекс. Что сказать: «Алиса, запусти утреннее шоу», «Алиса, включи утреннее шоу». Эти программы помогают узнать нужную информацию в начале дня или рассказать о том, что вы могли пропустить.
Новый формат контента в утреннем шоу Алисы: истории от навыков
Станции, Станции Мини и других умных колонках с Алисой. Еще по теме.
Разобраться с акцентами, диалектами, сленгами и англицизмами алгоритмам позволяет накопленная Яндексом база из миллиарда произнесённых в разных условиях фраз [11] [12]. На следующем этапе наделить запрос смыслом и подобрать правильный ответ позволяет технология Turing, своим названием отсылающая к Алану Тьюрингу и его тесту. Благодаря ей «Алиса» может не только давать ответы на конкретные вопросы, но и общаться с пользователем на отвлечённые темы.
Для этого текст запроса дробится на токены, как правило, это отдельные слова, которые в дальнейшем отдельно анализируются. Для максимально точного ответа Алиса учитывает историю взаимодействия с ней, интонацию запроса, предыдущие фразы и геопозицию. Это объясняет тот факт, что на один вопрос разные пользователи могут получить разные ответы [11] [12]. Первоначально нейросеть Алисы обучали на массиве текстов из классики русской литературы , включая произведения Льва Толстого , Фёдора Достоевского , Николая Гоголя , а затем — на массивах живых текстов из Интернета [13]. Как рассказывал глава управления машинного обучения Яндекса Михаил Биленко в интервью изданию Meduza , в ходе ранних тестов в манере общения Алисы появилась дерзость, которая удивляла и забавляла пользователей.
Чтобы дерзость не перешла в хамство и чтобы ограничить рассуждения Алисы на темы, связанные с насилием, ненавистью или политикой, в голосового помощника была внедрена система фильтров и стоп-слов [14]. Последний этап — озвучивание ответа — реализуется с помощью технологии Text-to-speech. Основой служат записанные в студии 260 тысяч слов и фраз, которые затем были «порезаны» на фонемы. Из этой аудиобазы нейросеть собирает ответ, после чего интонационные перепады в готовой фразе сглаживаются нейросетью, что приближает речь «Алисы» к человеческой [11] [12] [15]. Навыки Помимо сервисов Яндекса, в Алису могут быть интегрированы сторонние сервисы.
В 2018 году компания расширила возможности Алисы через систему навыков, использующих платформу голосового помощника для взаимодействия с пользователем. Навыки — это чат-боты и другие интернет-сервисы, активирующиеся по ключевой фразе и работающие в интерфейсе «Алисы». В марте 2018 Яндекс открыл для сторонних разработчиков платформу Яндекс. Диалоги , предназначенную для публикации новых навыков и их подключения к Алисе. Уже к апрелю 2018 года на платформе Яндекс.
Диалогов были опубликованы более 3 тысяч навыков, более 100 прошли модерацию [17]. Благодаря навыкам Алису обучили работе диктором: голосовая помощница Яндекса приняла участие в апрельской акции по проверке грамотности « Тотальный диктант » и прочитала диктант в Новосибирском государственном университете [18]. В конце мая на Yet Another Conference 2018 Яндекс сообщил, что благодаря навыкам Алиса научилась понимать, что изображено на фотографии, и распознает марку машины, породу кошки или собаки, незнакомое здание или памятник, способна назвать знаменитость или произведение искусства. Для товаров Алиса найдёт похожие варианты на Яндекс. Маркете или в поиске Яндекса [19].
В ноябре 2018 Яндекс обучил Алису заказывать товары на своём новом маркетплейсе «Беру» [20]. В октябре 2018, когда Алисе исполнился год, Яндекс запустил программу «Премия Алисы».
Произнеся команду "Алиса, включи утреннее шоу! Так, например "Алиса" ставит и комментирует песни из персонального плейлиста дня на "Яндекс. Музыке", где собраны треки, отобранные для пользователя. Также "Яндекс" обучил своего голосового помощника ориентироваться в происходящем и говорить о том, что волнует людей.
Навык «Утреннее шоу» Алисы идеально подходит для людей, которые хотят быть в курсе всех новостей и интересных мероприятий. Вы можете активировать навык голосом и получать последние новости, прогноз погоды, мероприятия в вашем городе и музыкальные и книжные рекомендации. Кроме того, Алиса предлагает множество других навыков, которые вы можете использовать вместе с Утренним шоу.
Утреннее шоу «Алисы» стало персональным
Как и WaveGlow, HiFi-GAN не имеет авторегрессионной зависимости и хорошо параллелится, при этом новая сеть намного легковеснее, что позволило при реализации ещё больше повысить скорость синтеза. Кроме того, оказалось, что HiFi-GAN лучше работает на экспрессивной речи, что в дальнейшем позволило запустить эмоциональный синтез — об этом подробно расскажу чуть позже. Схема HiFi-GAN из статьи авторов модели Комбинация этих трёх компонентов позволила вернуться к параметрическому синтезу голоса, который звучал плавно и качественно, требовал меньше данных и давал больше возможностей в кастомизации и изменении стиля голоса. Параллельно мы работали над улучшением отдельных элементов синтеза: Летом 2019 года выкатили разрешатор омографов homograph resolver — он научил Алису правильно ставить ударения в парах «зАмок» и «замОк», «белкИ» и «бЕлки» и так далее. Здесь мы нашли остроумное решение. В русском языке эти слова пишутся одинаково, но в английском написание отличается, например, castle и lock, proteins и squirrels. Из этого представления легко выделить информацию о том, как произносить омограф, ведь перевод должен различать формы для корректного подбора английского варианта. Буквально на 20 примерах можно выучить классификатор для нового омографа, чтобы по эмбеддингу перевода понимать, какую форму нужно произнести. Летом 2020 года допилили паузер для расстановки пауз внутри предложения.
Язык — хитрая штука. Не все знаки препинания в речи выражаются паузами Например, после вводного слова «конечно» на письме мы ставим запятую, но в речи обычно не делаем паузу. А там, где знаков препинания нет, мы часто делаем паузы. Если эту информацию не передавать в акустическую модель, то она пытается её выводить и не всегда успешно. Первая модель Алисы из-за этого могла начать вздыхать в случайных местах длинного предложения. Для этого мы взяли датасет, разметили его детектором активности голоса, сгруппировали паузы по длительности, ввели класс длины паузы, на каждое слово навесили тэг и на этом корпусе обучили ещё одну голову внимания из тех же нейросетевых эмбеддингов, что использовались для детекции омографов. Осенью 2020 года мы перевели на трансформеры нормализацию — в синтезе она нужна, чтобы решать сложные случаи, когда символы читаются не «буквально», а по неким правилам. Например, «101» нужно читать не как «один-ноль-один», а как «сто один», а в адресе yandex.
Обычно нормализацию делают через комбинацию взвешенных трансдьюсеров FST — правила напоминают последовательность замен по регулярным выражениям, где выбирается замена, имеющая наибольший вес. Мы долго писали правила вручную, но это отнимало много сил, было очень сложно и не масштабируемо. Тогда решили перейти на трансформерную сеть, «задистиллировав» знания наших FST в нейронку. Теперь новые «правила раскрытия» можно добавлять через доливание синтетики и данных, размеченных пользователями Толоки, а сеть показывает лучшее качество, чем FST, потому что учитывает глобальный контекст. Итак, мы научили Алису говорить с правильными интонациями, но это не сделало ее человеком — ведь в нашей речи есть еще стиль и эмоции. Работа продолжалась. С чувством, толком, расстановкой: стили голоса Алисы Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение.
Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре. Казалось, что у неё менялось настроение в каждом предложении. Вот пример записи с явными перебоями в стилях: Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку». Суть в том, что через очень lossy-пространство всего 16 чисел на всё предложение разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении. За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки. На инференсе мы генерируем стилевую подсказку, похожую на те, что были в обучающем сете. Это можно делать, взяв готовый стиль из обучающего примера или обучив специальную подсеть генерировать стили по тексту. Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса.
Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование. Победил кластер с очень мягкой и приятной интонацией. Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю. Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах.
Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. В принципе, этого можно было ожидать: уверен, многие предпочтут более ласковый разговор по телефону то есть с потерей в качестве живому, но холодному общению. К примеру, так звучал резкий голос: А так — мягкий: Результаты турниров позволили нам выделить во всем обучающем датасете данные, которые относятся к стилю-победителю, и использовать для обучения только их. Благодаря этому Алиса по умолчанию стала говорить более мягким и дружелюбным голосом. Этот пример показывает, что с точки зрения восприятия важно работать не только над качеством синтеза, но и над стилем речи. После этого оставалось только обогатить Алису новыми эмоциями. Бодрая или спокойная: управляем эмоциями Алисы Когда вы включаете утреннее шоу Алисы или запускаете автоматический перевод лекции на YouTube, то слышите разные голоса — бодрый в первом случае и более флегматичный в другом. Эту разницу сложно описать словами, но она интуитивно понятна — люди хорошо умеют распознавать эмоции и произносить один и тот же текст с разной эмоциональной окраской.
Мы обучили этому навыку Алису с помощью той же разметки подсказок, которую применили для стилей. У языка есть интересное свойство — просодия , или набор элементов, которые не выражаются словами. Это особенности произношения, интенсивность, придыхание и так далее. Один текст можно произнести со множеством смыслов. Как и в случае со стилями речи, можно, например, выделить кластеры «веселая Алиса», «злая Алиса» и так далее. Поскольку стилевой механизм отделяет просодию «как говорим» от артикуляции «что говорим» , то новую эмоцию можно получить буквально из пары часов данных. По сути, нейросети нужно только выучить стиль, а информацию о том, как читать сочетания фонем, она возьмёт из остального корпуса. Прямо сейчас доступны три эмоции.
Хотите начать заново — скажите "Меню". Возникли проблемы? Следите за событиями Севастополя в режиме онлайн.
Происшествия, новости культуры, спорта, политики и экономики Лента новостей Благовещенска Лента новостей Благовещенска — последние новости Благовещенска оперативно. Происшествия, новости культуры, спорта, политики и экономики Лента новостей Горного Алтая Лента новостей Горного Алтая — последние новости Горного Алтая оперативно.
Общение с ассистентом возможно голосом и вводом запросов с клавиатуры. Алиса отвечает или прямо в диалоговом интерфейсе, либо же показывает поисковую выдачу по запросу или нужное приложение. Анализ запроса и формирование ответа Распознать голосовой запрос Алисе помогает технология SpeechKit. На этом этапе происходит отделение голоса от фоновых шумов. Разобраться с акцентами, диалектами, сленгами и англицизмами алгоритмам позволяет накопленная Яндексом база из миллиарда произнесённых в разных условиях фраз [11] [12]. На следующем этапе наделить запрос смыслом и подобрать правильный ответ позволяет технология Turing, своим названием отсылающая к Алану Тьюрингу и его тесту. Благодаря ей «Алиса» может не только давать ответы на конкретные вопросы, но и общаться с пользователем на отвлечённые темы. Для этого текст запроса дробится на токены, как правило, это отдельные слова, которые в дальнейшем отдельно анализируются.
Для максимально точного ответа Алиса учитывает историю взаимодействия с ней, интонацию запроса, предыдущие фразы и геопозицию. Это объясняет тот факт, что на один вопрос разные пользователи могут получить разные ответы [11] [12]. Первоначально нейросеть Алисы обучали на массиве текстов из классики русской литературы , включая произведения Льва Толстого , Фёдора Достоевского , Николая Гоголя , а затем — на массивах живых текстов из Интернета [13]. Как рассказывал глава управления машинного обучения Яндекса Михаил Биленко в интервью изданию Meduza , в ходе ранних тестов в манере общения Алисы появилась дерзость, которая удивляла и забавляла пользователей. Чтобы дерзость не перешла в хамство и чтобы ограничить рассуждения Алисы на темы, связанные с насилием, ненавистью или политикой, в голосового помощника была внедрена система фильтров и стоп-слов [14]. Последний этап — озвучивание ответа — реализуется с помощью технологии Text-to-speech. Основой служат записанные в студии 260 тысяч слов и фраз, которые затем были «порезаны» на фонемы. Из этой аудиобазы нейросеть собирает ответ, после чего интонационные перепады в готовой фразе сглаживаются нейросетью, что приближает речь «Алисы» к человеческой [11] [12] [15]. Навыки Помимо сервисов Яндекса, в Алису могут быть интегрированы сторонние сервисы. В 2018 году компания расширила возможности Алисы через систему навыков, использующих платформу голосового помощника для взаимодействия с пользователем.
Навыки — это чат-боты и другие интернет-сервисы, активирующиеся по ключевой фразе и работающие в интерфейсе «Алисы». В марте 2018 Яндекс открыл для сторонних разработчиков платформу Яндекс. Диалоги , предназначенную для публикации новых навыков и их подключения к Алисе. Уже к апрелю 2018 года на платформе Яндекс. Диалогов были опубликованы более 3 тысяч навыков, более 100 прошли модерацию [17]. Благодаря навыкам Алису обучили работе диктором: голосовая помощница Яндекса приняла участие в апрельской акции по проверке грамотности « Тотальный диктант » и прочитала диктант в Новосибирском государственном университете [18]. В конце мая на Yet Another Conference 2018 Яндекс сообщил, что благодаря навыкам Алиса научилась понимать, что изображено на фотографии, и распознает марку машины, породу кошки или собаки, незнакомое здание или памятник, способна назвать знаменитость или произведение искусства.
Чтобы узнать о предстоящем событии больше, надо нажать на кнопку «Подробнее», и «Алиса» покажет все детали во встроенном «Браузере».
Радионяня для каждого в семье Теперь на «Яндекс Станции» можно включить режим радионяни и получать звуки из детской прямо на телефон. Для этого надо пригласить близких в свой «Дом» и указать, кто может включать режим радионяни. Но сейчас, прежде чем начать читать текст, «Алиса» ещё и оповестит их, из какой именно комнаты или «Дома» пришло сообщение. Звонки без постороннего шума Пользователи «Станций» могут и звонить друг другу, поэтому теперь посторонние звуки на фоне не будут мешать разговору — всё благодаря автоматическому подавлению внешних шумов.
Слушать утреннее и вечернее шоу Алисы на Станции
Новый формат контента в утреннем шоу Алисы: истории от навыков | «Яндекс» добавил возможность персональной настройки утреннего шоу голосового помощника «Алиса». Функция появилась в ассистенте в апреле этого года. «Алиса» по-прежнему умеет зачитывать по утрам актуальные новости. |
Место под большое лого и рекламу навыков | Тогда, услышав запрос «Расскажи новости», Алиса будет всегда включать новости нужного издания. Кроме этого, их можно добавить в утреннее шоу Алисы. |
Утреннее шоу Алисы стало персональным 😎
Умные колонки с "Алисой" научились вести персонализированные утренние шоу | Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро. |
Умные колонки с "Алисой" научились вести персонализированные утренние шоу - ТАСС | Чтобы настроить «Новости колонка Алиса», вам нужно открыть мобильное приложение или сайт Яндекс. |
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро | «Алиса» научилась персонализировать «Утреннее шоу» и включать новости радиостанций Вслед за появлением интерактивных рецептов голосовой помощник «Алиса». |
8 новых фишек «Яндекс Станций» и «Яндекс ТВ Станций», которые появились в апреле
Выбрать тематику новостей и подкастов можно в приложении «Яндекс», сказав «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей». Утреннее шоу Алисы теперь можно настроить на свой вкус. Для этого пользователь может сам выбрать тематику новостей и подкастов. Больше настроек для моего Утреннего шоу: выбирайте комфортный порядок из подкастов на интересные темы, прогноза погоды, рассказа о навыках, музыки и новостей из выбранных источников. Запущу, как обычно, по фразе: «Алиса, доброе утро!» Радионяню смогут. Мы расскажем, что такое сценарии для Алисы, чем они отличаются от команд и какие хорошие команды уже придумали пользователи. Навык «Утреннее шоу» Алисы идеально подходит для людей, которые хотят быть в курсе всех новостей и интересных мероприятий.
Место под большое лого и рекламу навыков
Запрашивать можно текст как зарубежных, так и отечественных песен. Кстати, кнопка «Т» рядом с треком сразу подскажет, что у Алисы есть текст для этой песни. Новые спортивные каналы Фанаты спорта, ликуйте! Можно даже смотреть прямые трансляции Российской Премьер-Лиги, Лиги чемпионов и не только. Управляем голосом любым видео на «ТВ Станции» Управлять перематывать, переключать, включать субтитры и т. Просто дайте Алисе нужную команду и она все сделает.
Она - и советчик, и исполнитель желаний, и информатор... Сейчас же в умных колонках с Алисой появилось ее персональное утреннее шоу. Люди могут слушать полезную информацию, музыку и интересные истории, подобранные специально для них. Чтобы запустить программу, достаточно сказать: "Алиса, включи утреннее шоу! И в этот же момент к слушателям придут новости, прогноз погоды, музыка и короткие подкасты - например, о том, способны ли животные обманывать или как влияет шоколад на здоровье.
Приложение «Яндекс Музыка» автоматически синхронизирует текст с исполняемой песней. Эта функция доступна как для российских, так и для зарубежных треков. Доступность функции, можно понять по кнопке «Т» в музыкальном плеере. Новые спортивные каналы по подписке Подписчики «Яндекс Плюса» получили доступ к новым спортивным каналам, таким как «Матч Премьер» и «Матч! Футбол», что позволит наслаждаться прямыми трансляциями важнейших спортивных событий. Расширенные возможности видео Видео, найденные через поиск, теперь можно сразу же воспроизводить на «ТВ Станции».
После просьбы «Настроить новости» Алиса скажет: Выберите новости, которые хотите слушать в ответ на команду «Алиса, расскажи новости». Отмечаем соответствующие кружочки и нажимаем «Сохранить». На телефоне это выглядит так: А на ноутбуке или компьютере вот так: Другими словами, настроить новости Алисы можно как с телефона, так и ноутбука. Главное, чтобы был установлен Яндекс. Браузер и в нём была включена синхронизация. Возможно, вам пригодится, особенно если вы интересуетесь, как отключить Дзен: Как вернуть Яндекс и убрать Дзен с главной страницы. А мы теперь посмотрим, как Алиса показывает новости из предварительно выбранных источников.
Больше нельзя установить iOS 13.4
- Вышло апрельское обновление «Алисы» и умных устройств «Яндекса» / Хабр
- Свежие материалы
- Новый формат контента в утреннем шоу Алисы: истории от навыков
- Слушать утреннее и вечернее шоу Алисы на Яндекс Станции — Справка
Утреннее шоу от Алисы на Яндекс Станции
Новые функции «Алисы» и «Яндекс Станций» за апрель 2024 года | Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Утренние шоу впервые появились в апреле этого года. |
Утреннее шоу — бодрящий навык Алисы | Шоу и новости доступны в «и», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса». |
Вышло апрельское обновление «Алисы» и умных устройств «Яндекса» / Хабр | «Алиса» научилась персонализировать «Утреннее шоу» и включать новости радиостанций. |
Голосовой помощник Алиса начала вести свое утреннее шоу | — Выбирайте, что и в каком порядке слушать в Утреннем шоу Алисы: подкасты на избранные темы, прогноз погоды, навыки, треки или новости из определённых источников. |
Утреннее шоу от Алисы на Яндекс Станции | Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. |
Что нового в апреле у Алисы и умных устройств
«Алиса» научилась персонализировать «Утреннее шоу» и включать новости радиостанций. «Утреннее шоу» — это развлекательная программа с «Алисой» в роли ведущей. Виртуальный помощник читает новости, включает музыку и зачитывает истории на разные темы. Утреннее шоу Алисы теперь можно настроить на свой вкус. Для настройки новостей на умной колонке необходимо выполнить несколько простых шагов.
Алиса запустила утреннее шоу с персональными рекомендациями
И здесь мы смогли переиспользовать нейросети нашей старой параметрики. Работало это следующим образом: На первом шаге мы использовали нейросетевую параметрику, чтобы синтезировать речь с нуля — подобному тому, как делали раньше. Напомню, что по качеству звучания результат нас не устраивал, но мог использоваться как референс по содержанию. На втором шаге другая нейросеть подбирала из базы фрагментов записанной речи такие, из которых можно было собрать фразу, достаточно близкую к сгенерированной параметрикой. Вариантов комбинаций фрагментов много, поэтому модель смотрела на два ключевых показателя. Первый — target-cost, точность соответствия найденного фрагмента гипотезе, то есть сгенерированному фрагменту. Второй показатель — join-cost, насколько два найденных соседних фрагмента соответствуют друг другу. По сути, нужно было выбрать вариант, для которого сумма target-cost и join-cost минимальна.
Эти параметры можно считать разными способами — для join-cost мы использовали нейросети на базе Deep Similarity Network, а для target-cost считали расстояние до сгенерированной параметрикой гипотезы. Сумму этих параметров, как и принято в unit selection, оптимизировали динамическим программированием. Кстати, подобный подход использовался и при создании Siri 2. Схема конкатенативного синтеза У такого подхода тоже есть плюсы и минусы. Среди достоинств — более естественное звучание голоса, ведь исходный материал не синтезирован, а записан вживую. Правда, есть и обратная сторона: чем меньше данных, тем более грубо будут звучать места склейки фрагментов. Для шаблонных фраз всё более-менее хорошо, но шаг влево или вправо — и вы замечаете склейку.
Поэтому нужно очень много исходного материала, а это требует многих часов записи голоса диктора. К примеру, в первые несколько лет работы над Алисой нам пришлось записать несколько десятков часов. Это несколько месяцев непрерывной работы с актрисой Татьяной Шитовой в студии. При этом нужно не просто «прочитать текст по листочку». Чем более нейтрально будет звучать голос, тем лучше. Обычно от актёров ждут эмоциональности, проявления темперамента в своей речи. У нас ровно обратная задача, потому что нужны универсальные «кубики» для создания произвольных фраз.
Вот характерный пример работы синтеза: В этом главный недостаток метода unit selection: несмотря на все усилия, фрагменты речи не будут идеально соответствовать друг другу по эмоциям и стилю. Из-за этого сгенерированная речь Алисы постоянно «переключалась» между ними. На коротких фразах это не всегда заметно, но если хотите услышать произвольный ответ длиной хотя бы в пару предложений например, быстрый ответ из поиска , то недостатки подхода становятся очевидны. В общем, unit selection перестал нас устраивать и нужно было развиваться дальше. Иногда они возвращаются: опять параметрический синтез В результате мы вернулись к архитектуре из двух последовательных блоков: акустическая модель и вокодер. Правда, на более низком уровне обновилось примерно всё. Акустическая модель В отличие от старой параметрики, новую модель мы построили на основе seq2seq-подхода с механизмом внимания.
Помните проблему с потерей контекста в нашей ранней параметрике? Если нет нормального контекста, то нет и нормальной интонации в речи. Решение пришло из машинного перевода. Дело в том, что в машинном переводе как раз возникает проблема глобального контекста — смысл слов в разных языках может задаваться разным порядком или вообще разными структурами, поэтому порой для корректного перевода предложения нужно увидеть его целиком. Для решения этой задачи исследователи предложили механизм внимания — идея в том, чтобы рассмотреть всё предложение разом, но сфокусироваться через softmax-слой на небольшом числе «важных» токенов. При генерации каждого нового выходного токена нейросеть смотрит на обработанные токены фонемы для речевого синтеза или символы языка для перевода входа и «решает», насколько каждый из них важен на этом шаге. Оценив важность, сеть учитывает её при агрегировании результатов и получает информацию для генерации очередного токена выхода.
Таким образом нейросеть может заглянуть в любой элемент входа на любом шаге и при этом не перегружается информацией, поскольку фокусируется на небольшом количестве входных токенов. Для синтеза важна подобная глобальность, так как интонация сама по себе глобальна и нужно «видеть» всё предложение, чтобы правильно его проинтонировать. На тот момент для синтеза была хорошая seq2seq-архитектура Tacotron 2 — она и легла в основу нашей акустической модели. Мел-спектрограмма Параметрическое пространство можно сжать разными способами. Более сжатые представления лучше работают с примитивными акустическими моделями и вокодерами — там меньше возможностей для ошибок. Более полные представления позволяют лучше восстановить wav, но их генерация — сложная задача для акустической модели. Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности.
С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма. Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах , а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия». Строение улитки уха из Википедии Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты. Вспомните строение улитки в ухе: это просто канал, закрученный по спирали. Высокочастотный звук не может «повернуть» по спирали, поэтому воспринимается достаточно короткой частью слуховых рецепторов.
Низкочастотный же звук проходит вглубь. Поэтому люди хорошо различают низкочастотные звуки, но высокочастотные сливаются. Мел-спектрограмма как раз позволяет представить звук, акцентируясь на той части спектра, которая значимо различается слухом. Это полезно, потому что мы генерируем звук именно для человека, а не для машины. Вот как выглядит мел-спектрограмма синтеза текста «Я — Алиса»: У мел-спектрограммы по одному измерению [X на рисунке выше] — время, по другому [Y] — частота, а значение [яркость на рисунке] — мощность сигнала на заданной частоте в определенный момент времени. Проще говоря, эта штуковина показывает, какое распределение по мощностям было у различных частот звука в конкретный момент. Мел-спектрограмма непрерывна, то есть с ней можно работать как с изображением.
Управляем голосом любым видео на «ТВ Станции» Управлять перематывать, переключать, включать субтитры и т. Просто дайте Алисе нужную команду и она все сделает. Персонализация утреннего шоу Порядок контента и его жанр можете выбрать и настроить под себя. Здесь можно выбрать мероприятия, которые хотели бы видеть у себя в рекомендациях. Радионяня mode on Теперь где бы вы ни были — в соседней комнате или отошли по делам, оставив ребенка с бабушкой, няней и т. Активируйте функцию «Радионяни» на «Яндекс Станции», чтобы слушать звуки из детской прямо на своем смартфоне, где бы вы ни находились.
Утреннее шоу доступно в Яндекс. Станции, Станции Мини и других умных колонках с Алисой. Еще по теме.
Её информер на главном экране может показывать информацию о погоде, пробках и т. Голосовой помощник может ответить на запрос и при заблокированном экране телефона [28]. Станцию Мини.
Станции за 9990 рублей колонка отличалась меньшей ценой 3990 рублей , а также с ней можно взаимодействовать с помощью жестов [29]. Портативная модель защищена от воды и работает до восьми часов без подзарядки. С помощью док-станции её можно сделать стационарной [30]. Станция Макс». Она сохранила корпус предыдущей модели, получила LED-экран, трехполосный звук совокупной мощностью 65 Вт и поддерживает видео в 4k [31]. Станцию Лайт.
В октябре 2021 года — Яндекс. Станция Мини 2-го поколения. На момент анонса Станции Лайт её родоначальная версия Станция Мини стоила уже 6990 рублей[ источник не указан 48 дней ]. Конструкторы навыков Для создания навыков для Алисы можно воспользоваться конструкторами навыков. Чтобы создать навык, необходимо задать его алгоритм в специальном визуальном конструкторе. Конструктор представляет собой дерево с множеством условных переходов ветвей.
Можно передать заявки от клиентов из Алисы в amoCRM, Битрикс24, Google-таблицы и на электронную почту [ источник не указан 48 дней ]. На других языках С марта 2019 года «Алиса» доступна на турецком языке в приложении « Яндекс. Навигатор » под названием Alisa с ударением на последний слог [32]. Озвучила «Алису» турецкая актриса дубляжа Селяй Ташдоген [33]. Прочее Пользователи положительно оценили способность Алисы поддерживать беседу, шутить и давать ответы на нетривиальные вопросы. С запуском голосового помощника в СМИ вышли многочисленные репортажи со скриншотами чатов, в которых в ответ на провокационные запросы Алиса повела себя неожиданным для пользователя образом: часто дерзила, дразнилась, спорила и отказывалась выполнять команды [34].
В беседе двух Алис одна другой посоветовала выброситься в окно [35]. Алиса продемонстрировала, что понимает вопрос про миелофон , а также умение рассказывать анекдоты о роботах и читать известные стихи, добавляя к ним технологические термины [34] [35] , понимает жаргон [9]. Алиса появлялась в русскоязычной версии мультфильма « Монстры на каникулах 3: Море зовёт »: в одном из эпизодов главный герой Дракула общался с голосовым помощником данный product placement используется в рамках исключительной договорённости Яндекса с Sony Pictures Entertainment , в прокате для других стран голосовой поисковик остался обезличен. Ещё раньше с ней общались герои российского фильма « Я худею » [36].
Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
Но для его работы необходимо иметь подписку на Яндекс Плюс. Можно сказать, что утреннее шоу от Алисы — это некая замена радиостанциям. Обратите внимание: В отличие от радиостанций, в утреннем шоу Алисы нет рекламы. Отметим, что включить утреннее шоу от Алисы можно не только утром.
Оно доступно в любое время дня. При этом для шоу всегда подбираются актуальные к текущему моменту новости если в настройках указано, что шоу должно включать в себя новости. И тогда вместо мелодии будильника будет воспроизводиться шоу.
Все объяснения буду сопровождать скриншотами, которые сделал и с телефона, и с ноутбука. Как настроить новости в Алисе Можно дать ей обычную команду «Алиса, настрой новости». Если же мы просто напишем «новости» без предварительной настройки, то голосовой помощник нам выдаст такое сообщение: Дополню, что настроить Алису можно не только в приложении Яндекса с 12 сентября оно называется Яндекс. Старт , но и через Яндекс. Браузер на телефоне или компьютере. После просьбы «Настроить новости» Алиса скажет: Выберите новости, которые хотите слушать в ответ на команду «Алиса, расскажи новости». Отмечаем соответствующие кружочки и нажимаем «Сохранить».
Сценарии позволяют автоматизировать выполнение определенных действий, а команды — нет. Сценарии могут включать в себя как команды для Алисы, так и команды для других устройств умного дома. Рассмотрим конкретные примеры сценариев для Алисы и включенные в них команды. Так, сценарий «Алиса, включи утро» может состоять из команд: включить свет на кухне; включить кофеварку; включить телевизор. Без сценария эти действия можно запустить самостоятельно, произнося команды для Алисы: «Алиса, включи свет на кухне», «Алиса, включи кофеварку», «Алиса, включи телевизор». Или при запуске на смартфоне условного сценария «Возвращение с работы» вы запускаете цепочку команд: «Включить свет», «Запустить музыку», «Опустить шторы» и прочее. Приложение можно использовать для создания нескольких видов сценариев. По ключевой фразеПользователь произносит определенную фразу — и сценарий запускается. Например, «Алиса, включи свет в гостиной». По расписаниюСценарий запускается в определенное время или по определенным дням недели.
Например, «Включить кофеварку в 7 утра».
А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — рассказал Андрей Законов, руководитель голосового помощника. Шоу и новости доступны в «Яндекс. Станции», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса». Чтобы выбрать тематику новостей и подкастов, нужно просто открыть приложение Яндекс и сказать: «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей».