Многие знакомы с телефонными голосовыми роботами и с их типичными проблемами: долгие паузы, формальные ответы, нет живого диалога.
Разберу, почему классический каскад в их основе уходит в прошлое и как мы пришли к разработке подхода speech-to-speech, который способен учитывать эмоциональную составляющую фразы человека, понимать, в каких акустических условиях проходит разговор, и корректно реагировать в шумной обстановке.
Уделю внимание переходу от turn-to-turn к настоящему speech flow, где можно получать ответ с низкой задержкой и нативно перебивать робота — вести диалог так же естественно, как с человеком
Подписывайтесь на Т-Банк
Код Желтый
Ютуб-канал
T-Crew
Блог на Хабре