Вестник КРАУНЦ. Физ.-мат. науки. 2020. Т. 33. № 4. C. 132-149. ISSN 2079-6641
Научная статья
УДК 004.032.26 + 004.93
Нейросетевая модель многомодального распознавания человеческой агрессии
М.Ю. Уздяев
Федеральное государственное бюджетное учреждение науки «Санкт-Петербургский Федеральный исследовательский центр Российской академии наук» (СПб ФИЦ РАН), Санкт-Петербургский институт информатики и автоматизации Российской академии наук, лаборатория автономных робототехнических систем, 14 линия д.
39, г. Санкт-Петербург, 199178, Россия
E-mail: uzdyaev.m@iias.spb.su
Увеличение количества пользователей социокиберфизических систем, умных пространств, систем интернета вещей актуализирует проблему выявления деструктивных действий пользователей, таких как агрессия. При этом, деструктивные действия пользователей могут быть представлены в различных модальностях: двигательная активность тела, сопутствующее выражение лица, невербальное речевое поведение, вербальное речевое поведение. В статье рассматривается нейросетевая модель многомодального распознавания человеческой агрессии, основанная на построении промежуточного признакового пространства, инвариантного виду обрабатываемой модальности. Предлагаемая модель позволяет распознавать с высокой точностью агрессию в условиях отсутствия или недостатка информации какой-либо модальности. Экспериментальное исследование показало 81:8% верных распознаваний на наборе данных IEMOCAP. Также приводятся результаты экспериментов распознавания агрессии на наборе данных IEMOCAP для 15 различных сочетаний обозначенных выше модальностей.
Ключевые слова: распознавание агрессии, анализ поведения, нейронные сети, многомодальная обработка данных.
DOI: 10.26117/2079-6641-2020-33-4-132-149
Поступила в редакцию: 18.11.2020
В окончательном варианте: 10.12.2020
Research Article
MSC 62M45
Neural network model for multimodal recognition of human aggression
M. Yu. Uzdyaev
St. Petersburg Federal Research Center of the Russian Academy of Sciences (SPC RAS), St. Petersburg Institute for Informatics and Automation of the Russian Academy of Sciences, Laboratory of autonomous robotic systems, 39, 14th Line, 199178, St. Petersburg, Russia.
E-mail: uzdyaev.m@iias.spb.su
Growing user base of socio-cyberphysical systems, smart environments, IoT (Internet of Things) systems actualizes the problem of revealing of destructive user actions, such as various acts of aggression. Thereby destructive user actions can be represented in different modalities: locomotion, facial expression, associated with it, non-verbal speech behavior, verbal speech behavior. This paper considers a neural network model of multi-modal recognition of human aggression, based on the establishment of an intermediate feature space, invariant to the actual modality, being processed. The proposed model ensures high-fidelity aggression recognition in the cases when data on certain modality are scarce or lacking. Experimental research showed 81.8% correct recognition instances on the IEMOCAP dataset. Also, experimental results are given concerning aggression recognition on the IEMOCAP dataset for 15 different combinations of the modalities, outlined above.
Key words: aggression recognition, behavior analysis, neural networks, multimodal data processing.
DOI: 10.26117/2079-6641-2020-33-4-132-149
Original article submitted: 19.11.2020
Revision submitted: 19.12.2020
Уздяев Михаил Юрьевич – младший научный сотрудник лаборатории больших данных социокиберфизических систем,
Санкт-Петербургский институт информатики и автоматизации РАН, г. Санкт-Петербург, Россия, ORCID 0000-0002-7032-0291.
Uzdyaev Mikhail Yur’evich – Junior Researcher, Laboratory of Big Data of Sociocyberphysical Systems, St. Petersburg Institute for Informatics and Automation RAS, St. Petersburg, Russia, ORCID 0000-0002-7032-0291.