Нижегородские ученые разрабатывают систему распознавания стресса по голосу
Киберпсихологи Университета Лобачевского работают над системой машинного анализа, которая позволяет определить уровень стресса человека по его речи. В пилотном исследовании модель Gradient Boosting показала точность 91,9%. Об этом сообщили в пресс-службе вуза.
Проект реализуют специалисты кафедры киберпсихологии факультета социальных наук ННГУ имени Н.И. Лобачевского. Они создают модели машинного обучения, способные выявлять тревожность по акустическим особенностям голоса.
Разработчики отмечают, что такая технология может быть полезна в образовании, сфере психического здоровья и в системах взаимодействия человека с компьютером. В рабочих условиях хронический стресс часто приводит к выгоранию и снижению эффективности.
Заведующая кафедрой киберпсихологии Валерия Демарева пояснила, что автоматический анализ голоса может стать инструментом раннего выявления перегрузок. По ее словам, это поможет вовремя замечать уязвимые состояния у операторов, диспетчеров и медицинских работников, снижая риск ошибок и профессионального выгорания.
Кроме того, фиксация эмоционального состояния клиента способна помочь в выявлении мошенничества, когда человек находится в состоянии стресса и, например, просит банк провести подозрительную операцию.
Стресс отражается на речи вполне заметно. Из-за реакции вегетативной нервной системы повышается мышечный тонус и учащается дыхание. В результате голос может становиться более жестким или дрожащим, меняются ритм, тембр, высота, громкость и скорость речи.
В исследовании использовали конвейер машинного обучения на основе мел-частотных кепстральных коэффициентов (MFCC). Этот метод позволяет компактно описывать спектральные характеристики речи, хорошо работает даже на небольших выборках и устойчив к шумам после нормализации. Такие коэффициенты считаются надежной базой для первичной классификации стресса, а их сочетание с другими спектральными признаками потенциально может повысить точность.
В эксперименте студенты записывали одну и ту же презентацию в двух условиях: перед аудиторией (стресс) и в пустой аудитории (спокойное состояние). Записи разбивали на короткие фрагменты и анализировали по ряду параметров — тембру, высоте, ритму и скорости речи. Наилучший результат показала модель Gradient Boosting, которая правильно различала стрессовую и спокойную речь почти в 92% случаев.
В дальнейшем планируется расширить выборку и проверить систему на разных возрастных и профессиональных группах.
Ранее сообщалось, что нижегородские учёные нашли новый метод терапии ЧМТ с использованием молекулярного водорода.