Reconnaissance multimodale de la langue des signes isolée à l'aide de LRCN
No Thumbnail Available
Date
2022
Journal Title
Journal ISSN
Volume Title
Publisher
Université Larbi Ben M'hidi Oum El Bouaghi
Abstract
Ces dernières années le domaine de la vision par ordinateur a connue beaucoup de résultat dans différents domaines, pour cette raison plusieurs études sont dirigées vers ce domaine comme la reconnaissance comportementale plus particulièrement la reconnaissance de la langue des signes(SLR). La catégorie sourde et malentendante est en croissance non négligeable, cela mène les travaux dans la direction de vouloir trouver un moyen pour les aider à communiqué et à transmettre leur besoin pour mieux s’intégré dans leur société, malheureusement les recherches à ce sujet sont insuffisantes. La complexité du domaine constitue dans le faite quand doit trouver des descripteurs spatio-temporels discriminants pour une séquence de vidéo de gestes de la main toute en tenant compte des facteurs qui contribuent dans la formation du geste : la position, forme et orientation des mains et même l’inclination de la tête et mouvement du corps, sans oublier l'effet de différents circonstances telles que l'encombrement de l'arrière-plan et les occlusions ou malheureusement ce n'est pas une tâche évidente. Dans cette étude afin d’augmenter le taux de la reconnaissance d’un geste dans une séquence vidéo, nous avons proposé une étude basé sur les réseaux d'apprentissage en profondeur(DNN), une approche multi modale qui utilise comme entré les données RGB et squelette qui seront injecté dans un réseau LRCN(Long-TermRecurrentConvolutional). Ce dernier englobe à la foi un réseau de neurones convolutifs (2DCNN) plus exactement VGG16 pour l’extraction des caractéristiques spatial et les réseaux GRU (GatedRecurrent Unit) pour l’extraction des caractéristiques temporelle pour cela nous exploitons l'ensemble de données de la langue des signes coréenne (KSL).L'ensemble de données est composé de 77 mots de clips vidéo en langue des signes Coréenne réalisés par 20 personnes sourdes. Avec notre méthode nous avons arrivé au résultat que le réseau d'apprentissage en profondeur comprend mieux les caractéristiques de l'ensemble de données avec l’entré RGB que l’entré skeleton .
Description
Keywords
VGG16, G.R.U : Gated recurrent unit, L.R.C.N : Long term recurrent convolutional