A nota refere que o sistema pode funcionar mesmo em condições difíceis, como com ruído, pouca iluminação ou se a pessoa permanecer em silêncio ou não olhar para a câmera, e sua precisão de identificação chega a 80%.
Além disso, os serviços de IA serão capazes de reconhecer emoções complexas, como sarcasmo ou ironia, quando o significado das palavras não coincide com a entonação ou a expressão facial. Isso ajudará a melhorar o desempenho dos assistentes digitais.
“Desenvolvemos um sistema inteligente para a análise multimodal de vídeo, áudio e texto com o objetivo de reconhecer emoções humanas, como alegria, raiva, tristeza e outras manifestações emocionais”, disse o chefe do laboratório de Interfaces de Voz do instituto de São Petersburgo, Alexei Karpov.
Da mesma forma, o programa pode realizar análises de sentimento da informação, ou seja, determinar a atitude de uma pessoa em relação a um evento, explicou o pesquisador.
O sistema se baseia em várias redes neurais que foram treinadas com uma dezena de bancos de dados abertos para os pesquisadores. Esses bancos contêm gravações de áudio e vídeo multilíngues de pessoas de diferentes idades, gêneros e países.
Para o banco de dados em russo, por exemplo, foram recrutados estudantes de academias de teatro que representavam diversas emoções.
O programa pode reconhecer sete emoções básicas em seres humanos: alegria, tristeza, medo, repulsa, surpresa, raiva e calma. Além disso, determina o tom emocional geral: positivo, negativo ou neutro.
O desenvolvimento é um aplicativo com uma interface simples: é possível carregar gravações de áudio ou vídeo, e o sistema as processará automaticamente, mostrando o resultado: as emoções reconhecidas e o tom geral.
jcm/gfa/bm





