Голосовой помощник «Алиса» для смарт-колонок «Яндекса» научился вести утренние шоу. В компании обещают персонализированные программы с полезной информацией, любимой музыкой, новостями и прочим интересным каждому пользователю контентом. Пользователи умных колонок с голосовым помощником «Алиса» теперь могут послушать новости технологий от портала Утреннее шоу. «Утреннее шоу» и новости радиостанций доступны во всех умных колонках с поддержкой «Алисы».
На колонках с Алисой появилась функция Утреннего шоу
Обновление Алисы также включает в себя улучшенное утреннее шоу: теперь там не только новости и музыка, но и короткие подкасты, даты в истории, мудрости и комплименты. — Выбирайте, что и в каком порядке слушать в Утреннем шоу Алисы: подкасты на избранные темы, прогноз погоды, навыки, треки или новости из определённых источников. Утреннее шоу Алисы теперь можно настроить на свой вкус. Для настройки новостей на умной колонке необходимо выполнить несколько простых шагов. Покупайте, слушайте утреннее шоу алисы, оно 3 часа или почти 4 часа. «Алиса, включи шоу» — для начала воспроизведения выбранного видео. «Утреннее шоу» и новости радиостанций доступны во всех умных колонках с поддержкой «Алисы».
Алиса запустила утреннее шоу с персональными рекомендациями
Утреннее шоу Алисы стало персональным 😎 | В конце 2020 года утреннее шоу Алисы стало персонализированным. Это означает, что вы можете настроить его в соответствии с вашими интересами, указав предпочтительные темы новостей и подкастов. |
8 новых фишек «Яндекс Станций» и «Яндекс ТВ Станций», которые появились в апреле | После работы можно послушать вечернее шоу — Алиса поделится новостями и погодой на следующий день и поставит расслабляющую музыку. |
Утреннее шоу Алисы – получайте новости и полезную информацию каждое утро
так назвали программу, при которой Алиса будет ставить различные треки из плейлиста пользователя на , дополняя их различными комментариями во время пауз, а также сообщая новости на интересующую. Навык «Утреннее шоу» Алисы идеально подходит для людей, которые хотят быть в курсе всех новостей и интересных мероприятий. Настройте Утреннее шоу для себя: выберите источники новостей, подкасты и даже гороскоп Зайдите в приложение Яндекс и выберите «Устройства»; Нажмите на вкладку «Настройки»; Выберите «Шоу Алисы». «Утреннее шоу» и новости радиостанций доступны во всех умных колонках с поддержкой «Алисы». Утреннее шоу Алисы — как настроить и использовать Утреннее шоу Алисы позволяет ознакомиться с новейшими новостями, прослушать интересные подкаcты и. Новости — подборка навыков Алисы, голосового помощника от Яндекса. Утреннее шоу — это развлекательная программа, где «Алиса» выступает в роли ведущей.
Слушать утреннее и вечернее шоу Алисы на Станции
Выбрать тематику новостей и подкастов можно в приложении «Яндекс», сказав «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей». Помимо чтения актуальных новостей по утрам, «Алиса» также научилась отслеживать эфиры радиостанций. Утренние шоу впервые появились в апреле этого года. Настроить Утреннее шоу Алиса. В последнее время я отказался от соцсетей и почти не читаю новостей о том, что происходит в мире, не считая спорта. Утреннее шоу представляет собой некий “винегрет” из интересных публикаций и новостей с различных сайтов, навыков Алисы и музыки. «Яндекс» добавил возможность персональной настройки утреннего шоу голосового помощника «Алиса». Функция появилась в ассистенте в апреле этого года. «Алиса» по-прежнему умеет зачитывать по утрам актуальные новости.
Как взглянуть на «Алису» по-новому? 5 необычных навыков для «Яндекс.Станции»
Ещё через год мы научились синтезировать голос — возможно, вы помните YaC 2014 и экспериментальный проект Яндекс. С тех пор прогресс не останавливается. Исторически речевой синтез бывает двух видов: конкатенативный и параметрический. В случае с первым, есть база кусочков звука, размеченных элементами речи — словами или фонемами. Мы собираем предложение из кусочков, конкатенируя то есть склеивая звуковые сегменты. Такой метод требует большой базы звука, он очень дорогой и негибкий, зато до пришествия нейросетей давал самое высокое качество. При параметрическом синтезе базы звука нет — мы рисуем его с нуля. Из-за большого прыжка в размерности end2end работает плохо даже сейчас. Лучше разделить это преобразование на два шага: сначала нарисовать звук в особом параметрическом отсюда название метода пространстве, а затем преобразовать параметрическое представление звука в wav-файл. В 2014 году нейросетевые методы речевого синтеза только зарождались.
Тогда качеством правил конкатенативный синтез, но нам в эру SpeechKit было необходимо легковесное решение для Навигатора , поэтому остановились на простом и дешёвом параметрическом синтезе. Он состоял из двух блоков: Первый — акустическая модель. Она получает лингвистические данные разбитые на фонемы слова и дополнительную разметку и переводит их в промежуточное состояние, которое описывает основные свойства речи — скорость и темп произнесения слов, интонационные признаки и артикуляцию — и спектральные характеристики звука. К примеру, в начале, до появления Алисы, в качестве модели мы обучали рекуррентную нейросеть RNN с предсказанием длительности. Она достаточно хорошо подходит для задач, где нужно просто последовательно проговаривать фонемы и не надо рисовать глобальную интонацию. Затем данные передаются на второй блок — вокодер — который и генерирует звук то есть создаёт условный wav по его параметрическому представлению. Вокодер определяет низкоуровневые свойства звука: sampling rate, громкость, фазу в сигнале. Наш вокодер в первой системе был детерминированным DSP-алгоритмом не обучался на данных — подобно декодеру mp3, он «разжимал» параметрическое представление звука до полноценного wav. Естественно, такое восстановление сопровождалось потерями — искусственный голос не всегда был похож на оригинал, могли появляться неприятные артефакты вроде хрипов для очень высоких или низких голосов.
Схема параметрического синтеза Это стандартная архитектура для любой ранней параметрики со своими достоинствами и недостатками. Главный плюс — для обучения модели нужно мало данных нам хватило 5-10 часов записей человеческой речи. Можно синтезировать любой произвольный текст, который даже будет плавно звучать. К сожалению, слишком плавно: недостатком раннего параметрического синтеза было то, что полученный голос звучал неестественно. Он был слишком гладким, лишённым интонаций и эмоций, звенел металлом. Люди так не говорят. Вот как звучал голос при раннем параметрическом синтезе: Причина неестественности синтезированного голоса кроется в самой архитектуре. У акустической модели мало информации о тексте в целом. Даже рекуррентная нейросеть, которая, казалось бы, умеет запоминать предыдущие состояния, очень быстро забывает их и фактически не учитывает полный текст.
При этом человек обычно произносит речь, понимая, что только что прозвучало и что будет дальше по тексту. Кроме того, человеческая речь мультимодальна — есть несколько способов произнести текст, каждый из которых описывается сигналом и звучит более-менее нормально. Но среднее между этими способами звучит неестественно. Проблема стандартных регрессионных методов глубокого обучения в том, что они ищут одну моду — «хорошее среднее» — и попадают в такие «провалы неестественности». В результате оказывается, что лучше случайно выбрать один из двух способов, чем попасть в среднее между ними. Впрочем, даже если акустическая модель и смогла бы разобраться в контексте и выдать обогащённое информацией промежуточное состояние, то с ним уже не мог справиться примитивный вокодер. Поэтому мы не остановились и стали искать более совершенные решения. Конкатенативный синтез: рождение Алисы В 2016 году мы решили создать Алису — сразу было понятно, что это более амбициозная задача, чем всё, чем занимались раньше. Дело в том, что в отличие от простых TTS-инструментов, голосовой помощник должен звучать человечно, иначе люди просто не станут с ним или с ней общаться.
Предыдущая архитектура совершенно не подходила. К счастью, был и другой подход. Точнее, даже два. Тогда как раз набирал обороты нейропараметрический подход, в котором задачу вокодера выполняла сложная нейросетевая модель. Например, появился проект WaveNet на базе свёрточной нейросети, которая могла обходиться и без отдельной акустической модели. На вход можно было загрузить простые лингвистические данные, а на выходе получить приличную речь. Первым импульсом было пойти именно таким путём, но нейросети были совсем сырые и медленные, поэтому мы не стали их рассматривать как основное решение, а исследовали эту задачу в фоновом режиме. На генерацию секунды речи уходило до пяти минут реального времени. Это очень долго: чтобы использовать синтез в реальном времени, нужно генерировать секунду звука быстрее, чем за секунду.
Что же делать? Если нельзя синтезировать живую речь с нуля, нужно взять крошечные фрагменты речи человека и собрать из них любую произвольную фразу. Напомню, что в этом суть конкатенативного синтеза, который обычно ассоциируется с методом unit selection. Пять лет назад он уже давал наилучшее качество при достаточном количестве данных в задачах, где была нужна качественная речь в реальном времени. И здесь мы смогли переиспользовать нейросети нашей старой параметрики. Работало это следующим образом: На первом шаге мы использовали нейросетевую параметрику, чтобы синтезировать речь с нуля — подобному тому, как делали раньше. Напомню, что по качеству звучания результат нас не устраивал, но мог использоваться как референс по содержанию. На втором шаге другая нейросеть подбирала из базы фрагментов записанной речи такие, из которых можно было собрать фразу, достаточно близкую к сгенерированной параметрикой. Вариантов комбинаций фрагментов много, поэтому модель смотрела на два ключевых показателя.
Первый — target-cost, точность соответствия найденного фрагмента гипотезе, то есть сгенерированному фрагменту. Второй показатель — join-cost, насколько два найденных соседних фрагмента соответствуют друг другу.
Думаю, новую возможность особенно оценят авторы подкастов, у которых появилась ещё одна площадка», — рассказал Андрей Законов, руководитель голосового помощника. Шоу и новости доступны в «Яндекс. Станции», «Станции Мини» и других умных колонках, где есть голосовой помощник «Алиса». Чтобы выбрать тематику новостей и подкастов, нужно просто открыть приложение Яндекс и сказать: «Алиса, открой настройки шоу» или «Алиса, открой настройки новостей».
Для товаров Алиса найдёт похожие варианты на Яндекс. Маркете или в поиске Яндекса [19]. В ноябре 2018 Яндекс обучил Алису заказывать товары на своём новом маркетплейсе «Беру» [20].
В октябре 2018, когда Алисе исполнился год, Яндекс запустил программу «Премия Алисы». В её рамках компания планировала ежемесячно награждать авторов лучших навыков и до конца года выплатить более миллиона рублей [21]. По данным компании, с марта по ноябрь 2018 года разработчики создали 33 тысячи навыков [12]. В начале ноября Яндекс дал возможность авторам навыков выбирать голос Алисы для озвучивания сообщений, добавив четыре новых варианта: Джейн, Эрмила, Захара и Эркана Явас [22]. В августе 2019 года Tele2 совместно с Яндекс запустила навык для Алисы, позволяющий абонентам любых операторов бесплатно найти потерянный дома или в офисе телефон. Пользователь может воспользоваться голосовой командой «Алиса, попроси Tele2 найти мой телефон» на любом гаджете, где есть Алиса, и Tele2 позвонит на номер, привязанный к устройству [23] [24]. Устройства с «Алисой» В середине апреля 2018 года газета « Коммерсантъ » опубликовала статью о находящейся в разработке аппаратной платформе Yandex. Список производителей, с которыми велись переговоры, компания не раскрывала [17]. Первой аппаратной разработкой на базе Yandex. Станция , которую компания представила в конце мая на конференции Yet another Conference 2018 в Москве [25].
В колонку встроено пять динамиков совокупной мощностью 50 Вт и семь микрофонов. Яндекс установил цену на «Станцию» в 9990 рублей [26]. В августе 2018 производитель носимой электроники Elari выпустил детские «умные» часы Elari KidPhone 3G со встроенной «Алисой». Часы стали первым устройством со встроенным голосовым помощником Яндекса, выпущенным сторонней компанией [27]. От Яндекс. Станции за 9990 рублей колонки отличаются втрое меньшей ценой 3290 рублей , менее мощным звуком у Irbis A только один динамик мощностью 2 Вт и два микрофона и меньшими размерами [26]. В его интерфейсе Алиса заняла центральное место. Её информер на главном экране может показывать информацию о погоде, пробках и т. Голосовой помощник может ответить на запрос и при заблокированном экране телефона [28]. Станцию Мини.
Станции за 9990 рублей колонка отличалась меньшей ценой 3990 рублей , а также с ней можно взаимодействовать с помощью жестов [29]. Портативная модель защищена от воды и работает до восьми часов без подзарядки.
Разработчик навыка сможет указать дату, до которой история актуальна. Длительность истории не должна превышать одной минуты. Чтобы подключить навык к утреннему шоу Алисы, оставьте заявку через форму: А теперь — подробнее о работе функциональности.
Диалогов: он содержит состояния, поверхность запуска и другие важные параметры.
Утреннее шоу «Алисы» стало персональным
- Алиса запустила утреннее шоу с персональными рекомендациями
- Что такое сценарии и чем они отличаются от команд?
- Новый формат контента в утреннем шоу Алисы: истории от навыков
- У "Алисы" от Яндекса появилась новая функция - теперь она ведет "утреннее шоу"
- Топовые фишки Яндекс.Станции, о которых вы могли не знать -
Что нового в апреле у Алисы и умных устройств
Мы хотим, чтобы Алиса была не только помощником, но и другом, с которым приятно проводить время. Поэтому мы учим её следить за новостями, развлекать пользователей и создавать приятную атмосферу в доме, и утреннее шоу — первый шаг в этом направлении. А для тех, кто сидит на самоизоляции, голосовой помощник даёт советы о том, как провести время с пользой. Работает это примерно так: сначала Алиса рассказывает сводку погоды, потом переходит к самым актуальным новостям, перемешивая их с музыкой.
Вытяжка работает исправна.
Закончив водные процедуры - время идти в коридор и одеваться. Как только вы подошли к шкафу — свет в коридоре включился. Вы собрались уходить, но заметили невыключенный свет в некоторых комнат. Возле входной двери нас ждала умная кнопка.
Умные выключатели освещения для круглых подрозетников подключены через zigbee к УДЯ. Созданные мною сценарии в приложении УДЯ позволили связать все это между собой. Сценарий: Как Яндекс управляет самым простым кондиционером? Для этого сценария используется Умный Пульт Яндекса я его приобрел за 600 рублей - вы сделали запрос и Пульт Яндекса отправил ИК сигнал на кондиционер.
Яндекс Пульт поддерживает множество производителей или можно самому обучить Яндекс Пульт. Ранее: На улице жара и вы направляетесь домой. Вы сможете включить кондиционер только когда вы придёте домой. Сейчас: На улице такая же жара и также направляетесь домой.
Заходите в приложение УДЯ и включаете кондиционер. Или, возможно, создали готовый сценарий как я ниже. Ну или просто ручное управление через приложение или голосом. Сценарий: Контролируем протечку воды в ванной и на кухне Ранее: Редко заглядываешь под кухонную раковину для проверки фильтров воды.
Сейчас: Датчик протечки воды всё контролирует. Если что-то произойдет - придет пуш в телеграме и колонка в спальне скажет об этом. Сценарий: Автоматическое включение света в ванной Ранее: Время поздняя ночь. Нужно сходить в ванную комнату, а телефон ещё на зарядке.
Решили идти так, возможно получится нащупать выключатель света. Сейчас: Всё как и всегда, но теперь датчик движения детектик ваше движение по пути и включает свет в ванной комнате. Здесь ещё можно добавить автоотключение через 2-3 минуты, но вдруг вы ещё находитесь там? Здесь уже нужно использовать датчик присутствия - Aqara FP1.
Сценарий: Неумная вытяжка в ванной становится умной Ранее: Во многих квартирах вентиляционная вытяжка работает, только когда включён свет в ванной. А что делать, если вы помылись? Свет не отключать? Сейчас: Сделана простая автоматизация через Умный Дом Яндекса.
Обычно я заранее включаю вытяжку, когда начинаю умываться и планирую в дальнейшем заходить в душ. Второй сценарий завершит работу вытяжки после понижение влажности в ванной комнате. Сценарий: Наконец-то начал управлять светодиодной Это только один из примеров, как можно использовать сценарии для автоматизации устройств с ИК портом. Ранее: Каждый раз поиски этого маленького пульта.
Да и вставать не хочется, когда ты уже отдыхаешь. Сейчас: простой запуск голосом и настройка. Можно обучить УДЯ и другим кнопкам, но для себя оставил только важные. Сценарий: Старенький самсунг телевизор получил автоматизацию Ещё один из сценариев для использования Умного Пульта Яндекса.
Ранее: приходилось ждать, когда телевизор запустится и заработает возможность зайти в лаунчер выбрать ютубчик. Сейчас: требуется только сказать голосом или зайти в УДЯ - телевизор кухонный включится и запустится ютуб! Сценарий: Время 11 часов ночи или время 7 часов утра Ранее: Яндекс станции неплохо определяют - когда вы говорите шепотом, и в ответ станция начинает отвечать шепотом.
Новости радиостанций можно слушать как в утреннем шоу, так и отдельно. Причём их зачитывает ведущий. Голосовой помощник следит за новостными выпусками девяти радиостанций. А утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь.
Несложные манипуляции с настройками — и человек получает именно то, что хочет.
Telegram-канал создателя Трешбокса про технологии «С умной колонкой можно слушать что угодно. Утреннее шоу — это такой формат, который позволяет собрать воедино то, что любишь. Несложные манипуляции с настройками — и человек получает именно то, что хочет.
Команды и сценарии для Алисы: покоряем умного помощника
Персонализированное «Утреннее шоу» с «Алисой» (не все знают о его настройке). Настроить Утреннее шоу Алиса. В последнее время я отказался от соцсетей и почти не читаю новостей о том, что происходит в мире, не считая спорта. Новости — подборка навыков Алисы, голосового помощника от Яндекса. Утреннее шоу — это развлекательная программа, где «Алиса» выступает в роли ведущей. В умных колонках с Алисой появилось персональное утреннее шоу: теперь можно слушать полезную информацию и музыку, подобранную специально для слушателя.
Читает ли Алиса последние новости? Настраиваем её на телефоне и на компьютере
В Алису от Яндекса добавили функцию Утреннее шоу. Голосовой помощник «Алиса» научили проводить утренние шоу, которые подстраиваются под определённого пользователя. Утреннее шоу представляет собой некий “винегрет” из интересных публикаций и новостей с различных сайтов, навыков Алисы и музыки.
Утреннее шоу Алисы теперь можно настроить на свой вкус
Утреннее шоу доступно в Яндекс. Станции, Станции Мини и других умных колонках с Алисой. Еще по теме.
Самое интересное о кино на YouTube канале Игромании! Голосовой помощник «Алиса» научили проводить утренние шоу, которые подстраиваются под определённого пользователя. Для активации используется команда «Алиса, включи утреннее шоу!
Персональное утреннее шоу уже доступно в «Яндекс. Станции», «Станции Мини» и других «умных» колонках с «Алисой».
Мы долго писали правила вручную, но это отнимало много сил, было очень сложно и не масштабируемо. Тогда решили перейти на трансформерную сеть, «задистиллировав» знания наших FST в нейронку. Теперь новые «правила раскрытия» можно добавлять через доливание синтетики и данных, размеченных пользователями Толоки, а сеть показывает лучшее качество, чем FST, потому что учитывает глобальный контекст. Итак, мы научили Алису говорить с правильными интонациями, но это не сделало ее человеком — ведь в нашей речи есть еще стиль и эмоции. Работа продолжалась. С чувством, толком, расстановкой: стили голоса Алисы Один и тот же текст можно произнести десятком разных способов, при этом сам исходный текст, как правило, никаких подсказок не содержит. Если отправить такой текст в акустическую модель без дополнительных меток и обучить её на достаточно богатом различными стилями и интонациями корпусе, то модель сойдёт с ума — либо переусреднит всё к металлическому «голосу робота», либо начнёт генерировать случайный стиль на каждое предложение. Это и произошло с Алисой: в начале она воспроизводила рандомные стили в разговоре. Казалось, что у неё менялось настроение в каждом предложении. Вот пример записи с явными перебоями в стилях: Чтобы решить проблему, мы добавили в акустическую модель стили: в процессе обучения нейросети специально ввели «утечку». Суть в том, что через очень lossy-пространство всего 16 чисел на всё предложение разрешаем сетке посмотреть на ответ — истинную мел-спектрограмму, которую ей и нужно предсказать на обучении. За счёт такой «шпаргалки» сеть не пытается выдумывать непредсказуемую по тексту компоненту, а для другой информации не хватит размерности шпаргалки. На инференсе мы генерируем стилевую подсказку, похожую на те, что были в обучающем сете. Это можно делать, взяв готовый стиль из обучающего примера или обучив специальную подсеть генерировать стили по тексту. Если эту подсеть обучить на особом подмножестве примеров, можно получить специальные стили для, скажем, мягкого или дружелюбного голоса. Или резкого и холодного. Или относительно нейтрального. Чтобы определиться со стилем по умолчанию, мы устроили турнир, где судьями выступали пользователи Толоки. Там не было разметки, мы просто нашли кластеры стилей и провели между ними соревнование. Победил кластер с очень мягкой и приятной интонацией. Дальше началось самое интересное. Мы взяли образцы синтезированной «мягкой» речи Алисы и фрагменты речи актрисы Татьяны Шитовой, которые относились к более резкому стилю. Затем эти образцы с одним и тем же текстом протестировали вслепую на толокерах. Оказалось, что люди выбирают синтезированный вариант Алисы, несмотря на более плохое качество по сравнению с реальной речью человека. В принципе, этого можно было ожидать: уверен, многие предпочтут более ласковый разговор по телефону то есть с потерей в качестве живому, но холодному общению. К примеру, так звучал резкий голос: А так — мягкий: Результаты турниров позволили нам выделить во всем обучающем датасете данные, которые относятся к стилю-победителю, и использовать для обучения только их. Благодаря этому Алиса по умолчанию стала говорить более мягким и дружелюбным голосом. Этот пример показывает, что с точки зрения восприятия важно работать не только над качеством синтеза, но и над стилем речи. После этого оставалось только обогатить Алису новыми эмоциями. Бодрая или спокойная: управляем эмоциями Алисы Когда вы включаете утреннее шоу Алисы или запускаете автоматический перевод лекции на YouTube, то слышите разные голоса — бодрый в первом случае и более флегматичный в другом. Эту разницу сложно описать словами, но она интуитивно понятна — люди хорошо умеют распознавать эмоции и произносить один и тот же текст с разной эмоциональной окраской. Мы обучили этому навыку Алису с помощью той же разметки подсказок, которую применили для стилей. У языка есть интересное свойство — просодия , или набор элементов, которые не выражаются словами. Это особенности произношения, интенсивность, придыхание и так далее. Один текст можно произнести со множеством смыслов. Как и в случае со стилями речи, можно, например, выделить кластеры «веселая Алиса», «злая Алиса» и так далее. Поскольку стилевой механизм отделяет просодию «как говорим» от артикуляции «что говорим» , то новую эмоцию можно получить буквально из пары часов данных. По сути, нейросети нужно только выучить стиль, а информацию о том, как читать сочетания фонем, она возьмёт из остального корпуса. Прямо сейчас доступны три эмоции. Например, часть пользователей утреннего шоу Алисы слышат бодрую эмоцию. Кроме того, её можно услышать, спросив Алису «Кем ты работаешь? Флегматичная эмоция пригодилась для перевода видео — оказалось, что голос по умолчанию слишком игривый для этой задачи. Наконец, радостная эмоция нужна для ответов Алисы на специфические запросы вроде «Давай дружить» и «Орёл или решка? Ещё есть негативная эмоция, которую пока не знаем, как использовать — сложно представить ситуацию, когда людям понравится, что на них ругается робот. Первый корпус эмоций мы записали ещё при WaveGlow, но результат нас не устроил и выкатывать его не стали. С переходом на HiFi-GAN стало понятно, что он хорошо работает с эмоциями, это позволило запустить полноценный эмоциональный синтез. Наконец, мы решили внедрить шёпот. Когда люди обращаются к Алисе шёпотом, она должна и отвечать шёпотом — это делает её человечнее. При этом шёпот — не просто тихая речь, там слова произносятся без использования голосовых связок. Спектр звука получается совсем другим. С одной стороны, это упрощает детекцию шёпота: по «картинке» мел-спектрограммы можно понять, где заканчивается обычная речь и начинается шепот. С другой стороны, это усложняет синтез шёпота: привычные механизмы обработки и подготовки речи перестают работать. Поэтому шёпотный синтез нельзя получить детерминированным преобразованием сигнала из речи. Так выглядят мел-спектрограммы обычной речи и шёпота при произнесении одной и той же фразы: Так звучит обычная речь: А так — шёпот: Сначала мы научили Алису понимать шёпот. Для этого обучили нейросеть различать спектры звука для обычного голоса и шёпота. Система смотрит на спектр звука и решает, когда говорят шёпотом, а когда — голосом. В процессе обучения оказалось, что спектры шёпота и речи курильщиков похожи, так что пришлось научить нейросеть их различать.