Reconnaissance multimodale de la langue des signes isolée à l'aide de LRCN

Daoudi, LarbiIlihem, SaoussenKhellas, Kenza2022-11-152022-11-152022http://hdl.handle.net/123456789/14317Ces dernières années le domaine de la vision par ordinateur a connue beaucoup de résultat dans différents domaines, pour cette raison plusieurs études sont dirigées vers ce domaine comme la reconnaissance comportementale plus particulièrement la reconnaissance de la langue des signes(SLR). La catégorie sourde et malentendante est en croissance non négligeable, cela mène les travaux dans la direction de vouloir trouver un moyen pour les aider à communiqué et à transmettre leur besoin pour mieux s’intégré dans leur société, malheureusement les recherches à ce sujet sont insuffisantes. La complexité du domaine constitue dans le faite quand doit trouver des descripteurs spatio-temporels discriminants pour une séquence de vidéo de gestes de la main toute en tenant compte des facteurs qui contribuent dans la formation du geste : la position, forme et orientation des mains et même l’inclination de la tête et mouvement du corps, sans oublier l'effet de différents circonstances telles que l'encombrement de l'arrière-plan et les occlusions ou malheureusement ce n'est pas une tâche évidente. Dans cette étude afin d’augmenter le taux de la reconnaissance d’un geste dans une séquence vidéo, nous avons proposé une étude basé sur les réseaux d'apprentissage en profondeur(DNN), une approche multi modale qui utilise comme entré les données RGB et squelette qui seront injecté dans un réseau LRCN(Long-TermRecurrentConvolutional). Ce dernier englobe à la foi un réseau de neurones convolutifs (2DCNN) plus exactement VGG16 pour l’extraction des caractéristiques spatial et les réseaux GRU (GatedRecurrent Unit) pour l’extraction des caractéristiques temporelle pour cela nous exploitons l'ensemble de données de la langue des signes coréenne (KSL).L'ensemble de données est composé de 77 mots de clips vidéo en langue des signes Coréenne réalisés par 20 personnes sourdes. Avec notre méthode nous avons arrivé au résultat que le réseau d'apprentissage en profondeur comprend mieux les caractéristiques de l'ensemble de données avec l’entré RGB que l’entré skeleton .frVGG16G.R.U : Gated recurrent unitL.R.C.N : Long term recurrent convolutionalReconnaissance multimodale de la langue des signes isolée à l'aide de LRCNOther