Ученые СПбГУ обучили нейросеть распознавать речь, насыщенную эмоциями

Ученые СПбГУ обучили нейросеть распознавать речь, насыщенную эмоциями


Ученые Санкт-Петербургского государственного университета (СПбГУ) обучили нейросеть распознавать речь людей, рассказывающих о сильном эмоциональном потрясении. Об этом сообщает ТАСС, ссылаясь на пресс-службу вуза. Исследователи использовали для обучения интервью с жертвами Холокоста, записанные фондом мемориального комплекса истории Холокоста Яд ва-Шем.

Лингвисты СПбГУ модифицировали нейросеть Wav2Vec 2.0, обучив ее распознавать особенности речи, связанные с эмоциональным стрессом. Это важно для автоматических систем, так как позволяет улучшить создание субтитров и пересказ основных мыслей даже в случаях, когда человек выражает сильные эмоции в речи.

В ходе работы было обработано более 26 часов разговоров, при этом учитывались пол, возраст, регион происхождения и родной язык интервьюируемых, что позволило улучшить качество распознавания речи. Нейросеть Wav2Vec 2.0, предобученная на русском языке, использовала механизм внимания для повышения точности сопоставления звуков речи с буквами алфавита.