О сервисе Прессе Авторские права Связаться с нами Авторам Рекламодателям Разработчикам. Множество полезных навыков для голосового помощника ждут вас в Каталоге навыков Алисы.
Ранний параметрический синтез: эпоха до Алисы
- Голосовой помощник Алиса начала вести свое утреннее шоу - Российская газета
- Шёпот и эмоции в Алисе: история развития голосового синтеза Яндекса
- Утреннее шоу — бодрящий навык Алисы
- Утреннее шоу «Алисы» стало персональным
Команды и сценарии для Алисы: покоряем умного помощника
А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет. Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — рассказал Андрей Законов, руководитель голосового помощника. Шоу и новости доступны в «Яндекс. Станции», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса».
Так, например "Алиса" ставит и комментирует песни из персонального плейлиста дня на "Яндекс. Музыке", где собраны треки, отобранные для пользователя. Также "Яндекс" обучил своего голосового помощника ориентироваться в происходящем и говорить о том, что волнует людей. Например, сейчас в паузах между новостями и песнями "Алиса" рассказывает, как с пользой и удовольствием провести время дома.
Например, сценарий срабатывает, когда в комнате слышно телевизор или музыку, не отличая от человеческого голоса. Так что, есть над чем работать. ТОП-10 реально полезных подарков на 8 марта для любимой, которые лучше купить вместо букета цветов Последнее обновление Алисы от Яндекс Обновление Алисы также включает в себя улучшенное утреннее шоу: теперь там не только новости и музыка, но и короткие подкасты, даты в истории, мудрости и комплименты. Настроить утреннее шоу с Алисой можно в пункте «Контент» — «Настройки шоу», где можно выбрать подходящие данные. Вот еще несколько новых фишек из апдейта. Кроссфейд и другие нововведения уже ждут вас в приложении Дом с Алисой Улучшили и воспроизведение аудиокниг в Алисе: можно не только слушать их на разных устройствах, но и быстро возвращаться в начало или переходить к нужной главе. Это касается и книг в подписке Букмейт : можно начать слушать по дороге с работы на Айфоне, а продолжить — дома на Яндекс Станции. Кроме того, теперь Яндекс Станция поддерживает кроссфейд — ранее такая фича была только в Яндекс Музыке на телефоне. Включив ее в настройках звука приложения Дом с Алисой, треки начнут переключаться плавнее, так как во время затухания одной песни начнет играть следующая. Не забыли обновить управление в Яндекс Станции Дуо Макс, которая вышла совсем недавно : теперь она поддерживает Быстрые команды, для которых не нужно звать Алису. А еще появилось полноценное голосовое управление на YouTube с перемоткой видео, а также настройка яркости дисплея голосом.
Персонализация «Утреннего шоу» Пользователи могут настраивать порядок и тип контента, который будет воспроизводиться в «Утреннем шоу». Афиша мероприятий на главном экране «Станция Дуо Макс» научилась отображать анонсы мероприятий, проходящих в городе пользователя. Радионяня для каждого Режим радионяни на «Яндекс Станции» теперь доступен для каждого члена семьи. Сообщения между «Станциями» Функция отправки сообщений между устройствами улучшена тем, что теперь «Алиса» указывает, откуда именно пришло сообщение — с какой комнаты или «Дома». Звонки без постороннего шума Новая функция подавления посторонних звуков доступна для некоторых моделей «Станций», что улучшает качество голосовой связи между пользователями. Для других моделей улучшение обещают добавить позже.
Свежие материалы
- Как проверить статус заказа ВкусВилл
- Утреннее шоу Алисы - YouTube
- Голосовой помощник Алиса начала вести свое утреннее шоу
- Примечание
- Рекомендации
- Утренняя Алиса. У голосового помощника Яндекса теперь своё шоу
Утреннее шоу «Алисы» стало персональным
Настроить Утреннее шоу Алиса. В последнее время я отказался от соцсетей и почти не читаю новостей о том, что происходит в мире, не считая спорта. Друзья Алисы и пользователи сервисов Яндекса, общаясь с Алисой, смогут узнавать актуальные новости из мира мотоциклов. «Алиса» научилась персонализировать «Утреннее шоу». Как настроить новости в Алисе Можно дать ей обычную команду «Алиса, настрой новости». Утреннее шоу Алисы — как настроить и использовать Утреннее шоу Алисы позволяет ознакомиться с новейшими новостями, прослушать интересные подкаcты и. Для того чтобы настроить новости на колонке с Алисой Яндекс. Утреннее шоу представляет собой некий “винегрет” из интересных публикаций и новостей с различных сайтов, навыков Алисы и музыки.
Ключевые особенности:
- «Алиса» начала проводить персональные утренние шоу в «умных» колонках — Сервисы на
- Артём Баусов
- Новый формат контента в утреннем шоу Алисы: истории от навыков
- Голосовой помощник Алиса начала вести свое утреннее шоу
- Как запустить Утреннее шоу Алисы | Как спросить, фишки навыка
- Умные колонки с "Алисой" научились вести персонализированные утренние шоу
Вышло большое обновление Алисы. Смотри, что теперь умеет твоя Яндекс Станция
Умная лампочка Яндекс с Алисой, цоколь E27, белая (YNDX-00501). Виртуальный ассистент Алиса поставит утреннее шоу: слушайте музыку, новости, подкасты и настраивайтесь на день. «Алиса» научилась персонализировать «Утреннее шоу». Настройка частоты получения новостей позволит вам сделать использование навыка Алисы более удобным и эффективным, подстроив его под ваш ритм жизни. Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Теперь голосовой помощник может запускать новостные блоки с девяти станций, включая «Хит ФМ» и «Коммерсантъ FM». Утренние шоу впервые появились в апреле этого года. Умная лампочка Яндекс с Алисой, цоколь E27, белая (YNDX-00501). Умная лампочка Яндекс с Алисой, цоколь E27, белая (YNDX-00501).
Новые функции «Алисы» и «Яндекс Станций» за апрель 2024 года
Кроме этого, в голосовом помощнике появились новости радиостанций. Утреннее шоу - это развлекательная программа, в которой Алиса выступает в роли ведущей. Она читает новости, включает музыку и развлекает слушателей веселыми историями. Для того чтобы она ставила наиболее подходящий контент, стоит указать свои предпочтения в настройках. Тем более что там есть выбор.
Если у навыка несколько актуальных историй, пользователю будет рассказана самая свежая. В утреннее шоу не попадут истории старше семи дней. Разработчик навыка сможет указать дату, до которой история актуальна.
Длительность истории не должна превышать одной минуты.
Имя и личность Особенностью Алисы стала личность, разработанная коллективом Яндекса вместе с журналистом и бывшим руководителем группы маркетинга компании Владимиром Гуриевым. Было решено, что голосовым ассистентом станет молодая ироничная девушка, готовая помочь владельцу смартфона [2]. Голосом Алисы стала актриса дубляжа Татьяна Шитова , озвучившая большинство героинь Скарлетт Йоханссон и голос операционной системы OS1, назвавшей себя Саманта, в российском дубляже фильма Спайка Джонза « Она » [8] [9]. Выбор имени голосового помощника проходил в несколько этапов. Для начала был сформирован список требований: в имени не должно было быть буквы эр , которую не выговаривают маленькие дети, также имя не должно было входить в расхожие фразы.
По этой причине было «забраковано» имя «Майя», которое могло ошибочно распознаваться в сочетаниях вроде «девятое мая». Также, чтобы снизить количество ложных срабатываний, имя не должно было входить в число наиболее распространённых. Сперва сотрудники «Яндекса» составили список имён, которые, по их мнению, подходили голосовому помощнику по характеру. На основе этого списка был составлен опрос для пользователей Яндекс. Толоки , участникам которого требовалось определить черты характера девушки по имени. В итоговом опросе с большим отрывом победило имя «Алиса».
В тестировании имени, которое проходило в течение пяти месяцев, приняли участие несколько десятков тысяч человек. Для семей, в которых есть другие Алисы, голосовому ассистенту добавили опциональную активацию по команде «Слушай, Яндекс» [2]. Технологии Алиса встроена в разные приложения Яндекса: поисковое приложение, Яндекс. Навигатор , Лончер и в мобильную и десктопную версии Яндекс. Браузера [2]. Общение с ассистентом возможно голосом и вводом запросов с клавиатуры.
Алиса отвечает или прямо в диалоговом интерфейсе, либо же показывает поисковую выдачу по запросу или нужное приложение. Анализ запроса и формирование ответа Распознать голосовой запрос Алисе помогает технология SpeechKit. На этом этапе происходит отделение голоса от фоновых шумов. Разобраться с акцентами, диалектами, сленгами и англицизмами алгоритмам позволяет накопленная Яндексом база из миллиарда произнесённых в разных условиях фраз [11] [12]. На следующем этапе наделить запрос смыслом и подобрать правильный ответ позволяет технология Turing, своим названием отсылающая к Алану Тьюрингу и его тесту. Благодаря ей «Алиса» может не только давать ответы на конкретные вопросы, но и общаться с пользователем на отвлечённые темы.
Для этого текст запроса дробится на токены, как правило, это отдельные слова, которые в дальнейшем отдельно анализируются. Для максимально точного ответа Алиса учитывает историю взаимодействия с ней, интонацию запроса, предыдущие фразы и геопозицию.
Например, появился проект WaveNet на базе свёрточной нейросети, которая могла обходиться и без отдельной акустической модели. На вход можно было загрузить простые лингвистические данные, а на выходе получить приличную речь. Первым импульсом было пойти именно таким путём, но нейросети были совсем сырые и медленные, поэтому мы не стали их рассматривать как основное решение, а исследовали эту задачу в фоновом режиме. На генерацию секунды речи уходило до пяти минут реального времени. Это очень долго: чтобы использовать синтез в реальном времени, нужно генерировать секунду звука быстрее, чем за секунду. Что же делать? Если нельзя синтезировать живую речь с нуля, нужно взять крошечные фрагменты речи человека и собрать из них любую произвольную фразу. Напомню, что в этом суть конкатенативного синтеза, который обычно ассоциируется с методом unit selection.
Пять лет назад он уже давал наилучшее качество при достаточном количестве данных в задачах, где была нужна качественная речь в реальном времени. И здесь мы смогли переиспользовать нейросети нашей старой параметрики. Работало это следующим образом: На первом шаге мы использовали нейросетевую параметрику, чтобы синтезировать речь с нуля — подобному тому, как делали раньше. Напомню, что по качеству звучания результат нас не устраивал, но мог использоваться как референс по содержанию. На втором шаге другая нейросеть подбирала из базы фрагментов записанной речи такие, из которых можно было собрать фразу, достаточно близкую к сгенерированной параметрикой. Вариантов комбинаций фрагментов много, поэтому модель смотрела на два ключевых показателя. Первый — target-cost, точность соответствия найденного фрагмента гипотезе, то есть сгенерированному фрагменту. Второй показатель — join-cost, насколько два найденных соседних фрагмента соответствуют друг другу. По сути, нужно было выбрать вариант, для которого сумма target-cost и join-cost минимальна. Эти параметры можно считать разными способами — для join-cost мы использовали нейросети на базе Deep Similarity Network, а для target-cost считали расстояние до сгенерированной параметрикой гипотезы.
Сумму этих параметров, как и принято в unit selection, оптимизировали динамическим программированием. Кстати, подобный подход использовался и при создании Siri 2. Схема конкатенативного синтеза У такого подхода тоже есть плюсы и минусы. Среди достоинств — более естественное звучание голоса, ведь исходный материал не синтезирован, а записан вживую. Правда, есть и обратная сторона: чем меньше данных, тем более грубо будут звучать места склейки фрагментов. Для шаблонных фраз всё более-менее хорошо, но шаг влево или вправо — и вы замечаете склейку. Поэтому нужно очень много исходного материала, а это требует многих часов записи голоса диктора. К примеру, в первые несколько лет работы над Алисой нам пришлось записать несколько десятков часов. Это несколько месяцев непрерывной работы с актрисой Татьяной Шитовой в студии. При этом нужно не просто «прочитать текст по листочку».
Чем более нейтрально будет звучать голос, тем лучше. Обычно от актёров ждут эмоциональности, проявления темперамента в своей речи. У нас ровно обратная задача, потому что нужны универсальные «кубики» для создания произвольных фраз. Вот характерный пример работы синтеза: В этом главный недостаток метода unit selection: несмотря на все усилия, фрагменты речи не будут идеально соответствовать друг другу по эмоциям и стилю. Из-за этого сгенерированная речь Алисы постоянно «переключалась» между ними. На коротких фразах это не всегда заметно, но если хотите услышать произвольный ответ длиной хотя бы в пару предложений например, быстрый ответ из поиска , то недостатки подхода становятся очевидны. В общем, unit selection перестал нас устраивать и нужно было развиваться дальше. Иногда они возвращаются: опять параметрический синтез В результате мы вернулись к архитектуре из двух последовательных блоков: акустическая модель и вокодер. Правда, на более низком уровне обновилось примерно всё. Акустическая модель В отличие от старой параметрики, новую модель мы построили на основе seq2seq-подхода с механизмом внимания.
Помните проблему с потерей контекста в нашей ранней параметрике? Если нет нормального контекста, то нет и нормальной интонации в речи. Решение пришло из машинного перевода. Дело в том, что в машинном переводе как раз возникает проблема глобального контекста — смысл слов в разных языках может задаваться разным порядком или вообще разными структурами, поэтому порой для корректного перевода предложения нужно увидеть его целиком. Для решения этой задачи исследователи предложили механизм внимания — идея в том, чтобы рассмотреть всё предложение разом, но сфокусироваться через softmax-слой на небольшом числе «важных» токенов. При генерации каждого нового выходного токена нейросеть смотрит на обработанные токены фонемы для речевого синтеза или символы языка для перевода входа и «решает», насколько каждый из них важен на этом шаге. Оценив важность, сеть учитывает её при агрегировании результатов и получает информацию для генерации очередного токена выхода. Таким образом нейросеть может заглянуть в любой элемент входа на любом шаге и при этом не перегружается информацией, поскольку фокусируется на небольшом количестве входных токенов. Для синтеза важна подобная глобальность, так как интонация сама по себе глобальна и нужно «видеть» всё предложение, чтобы правильно его проинтонировать. На тот момент для синтеза была хорошая seq2seq-архитектура Tacotron 2 — она и легла в основу нашей акустической модели.
Мел-спектрограмма Параметрическое пространство можно сжать разными способами. Более сжатые представления лучше работают с примитивными акустическими моделями и вокодерами — там меньше возможностей для ошибок. Более полные представления позволяют лучше восстановить wav, но их генерация — сложная задача для акустической модели. Кроме того, восстановление из таких представлений у детерминированных вокодеров не очень качественное из-за их нестабильности. С появлением нейросетевых вокодеров сложность промежуточного пространства стала расти и сейчас в индустрии одним из стандартов стала мел-спектрограмма. Она отличается от обычного распределения частоты звука по времени тем, что частоты переводятся в особую мел-частоту звука. Другими словами, мел-спектрограмма — это спектрограмма, в которой частота звука выражена в мелах , а не герцах. Мелы пришли из музыкальной акустики, а их название — это просто сокращение слова «мелодия». Строение улитки уха из Википедии Эта шкала не линейная и основана на том, что человеческое ухо по-разному воспринимает звук различной частоты.
Читает ли Алиса последние новости? Настраиваем её на телефоне и на компьютере
Покупайте, слушайте утреннее шоу алисы, оно 3 часа или почти 4 часа. Чтобы запустить программу, нужно сказать: «Алиса, включи утреннее шоу!». Паузы между новостями и песнями голосовой помощник заполняет актуальной информацией. О сервисе Прессе Авторские права Связаться с нами Авторам Рекламодателям Разработчикам. После работы можно послушать вечернее шоу — Алиса поделится новостями и погодой на следующий день и поставит расслабляющую музыку.
Умные колонки с "Алисой" научились вести персонализированные утренние шоу
Утреннее шоу Алисы теперь можно настроить на свой вкус. Для этого пользователь может сам выбрать тематику новостей и подкастов. К слову, Алиса теперь умеет вести "утренние шоу". Утреннее шоу Алисы теперь можно настроить на свой вкус, указав тематику новостей и подкастов. Чтобы запустить программу, нужно сказать: «Алиса, включи утреннее шоу!». Паузы между новостями и песнями голосовой помощник заполняет актуальной информацией.