Reconnaissance multimodale de la langue des signes isolée à l'aide de LRCN

dc.contributor.authorDaoudi, Larbi
dc.contributor.authorIlihem, Saoussen
dc.contributor.authorKhellas, Kenza
dc.date.accessioned2022-11-15T02:59:24Z
dc.date.available2022-11-15T02:59:24Z
dc.date.issued2022
dc.description.abstractCes dernières années le domaine de la vision par ordinateur a connue beaucoup de résultat dans différents domaines, pour cette raison plusieurs études sont dirigées vers ce domaine comme la reconnaissance comportementale plus particulièrement la reconnaissance de la langue des signes(SLR). La catégorie sourde et malentendante est en croissance non négligeable, cela mène les travaux dans la direction de vouloir trouver un moyen pour les aider à communiqué et à transmettre leur besoin pour mieux s’intégré dans leur société, malheureusement les recherches à ce sujet sont insuffisantes. La complexité du domaine constitue dans le faite quand doit trouver des descripteurs spatio-temporels discriminants pour une séquence de vidéo de gestes de la main toute en tenant compte des facteurs qui contribuent dans la formation du geste : la position, forme et orientation des mains et même l’inclination de la tête et mouvement du corps, sans oublier l'effet de différents circonstances telles que l'encombrement de l'arrière-plan et les occlusions ou malheureusement ce n'est pas une tâche évidente. Dans cette étude afin d’augmenter le taux de la reconnaissance d’un geste dans une séquence vidéo, nous avons proposé une étude basé sur les réseaux d'apprentissage en profondeur(DNN), une approche multi modale qui utilise comme entré les données RGB et squelette qui seront injecté dans un réseau LRCN(Long-TermRecurrentConvolutional). Ce dernier englobe à la foi un réseau de neurones convolutifs (2DCNN) plus exactement VGG16 pour l’extraction des caractéristiques spatial et les réseaux GRU (GatedRecurrent Unit) pour l’extraction des caractéristiques temporelle pour cela nous exploitons l'ensemble de données de la langue des signes coréenne (KSL).L'ensemble de données est composé de 77 mots de clips vidéo en langue des signes Coréenne réalisés par 20 personnes sourdes. Avec notre méthode nous avons arrivé au résultat que le réseau d'apprentissage en profondeur comprend mieux les caractéristiques de l'ensemble de données avec l’entré RGB que l’entré skeleton .ar
dc.identifier.urihttp://hdl.handle.net/123456789/14317
dc.language.isofrar
dc.publisherUniversité Larbi Ben M'hidi Oum El Bouaghiar
dc.subjectVGG16ar
dc.subjectG.R.U : Gated recurrent unitar
dc.subjectL.R.C.N : Long term recurrent convolutionalar
dc.titleReconnaissance multimodale de la langue des signes isolée à l'aide de LRCNar
dc.typeOtherar
Files
Original bundle
Now showing 1 - 2 of 2
No Thumbnail Available
Name:
mémoire.pdf
Size:
3.89 MB
Format:
Adobe Portable Document Format
Description:
No Thumbnail Available
Name:
Résumé.docx
Size:
15.9 KB
Format:
Microsoft Word XML
Description:
License bundle
Now showing 1 - 1 of 1
No Thumbnail Available
Name:
license.txt
Size:
1.71 KB
Format:
Item-specific license agreed upon to submission
Description: