Semantic extraction and interpretation of image content
No Thumbnail Available
Date
2021
Authors
Journal Title
Journal ISSN
Volume Title
Publisher
Université De Larbi Ben M’hidi Oum EL Bouaghi
Abstract
Nowadays, three challenges of relationship-detection should be considered in order to build a strong model namely; long-tail problem, large intra-class divergence, and the semantic dependency or semantic gap. The aim of content-based image retrieval systems must provide maximum support in bridging the semantic gap between the simplicity of available visual features and the richness of the user semantics. Another issue is the long-tail problem where there is a low infrequent appearance of some objects (i.e. predicates) versus to the high occurrence of others. For that, an adequate scaling is demanded. The third problem that must be solved to build a strong CBIR system is the Intra/inter-class divergence. For the Intra-class divergence, objects (i.e., predicates) are belonging to the same class but can't be represented with the same visual characteristics, whereas the inter-class divergence is where the similar visual descriptors can relate to two objects (i.e., predicates) that are not related to each other. In order to overcome those challenges, we propose three main contributions: 1) an ontological semantic model to filter false negatives/positives using a statistical ranking module. 2) the combination of semantic ontological module and visual relationship module that both takes as input the results of the statistical ranking module and produces as output classification of <human?predicate?object>. 3) a semantic model for the visual relationship module that ranks the prediction of relation classes by transferring the spatial relationship onto a high dimension spatial feature. Finally, we used HCVRD that highlights two important practical problems, the long-tail distribution issue, and the zero-shot problem. The experimental results on the
HCVRD dataset demonstrate the superior performance of the proposed approach.
De nos jours, trois défis de détection de relation doivent être prises en considération afin de construire un modèle fiable qui sont ; le problème de long-tail, la large divergence intra-classe et la dépendance sémantique ou le trou sémantique. L'objectif des systèmes de recherche basée sur le contenu doit fournir un
support maximal pour combler le trou sémantique entre la simplicité des caractéristiques visuelles disponibles et la richesse des sémantiques de l'utilisateur.
Un autre problème qui est le long-tail problème où il y a une faible apparition peu fréquente de certains objets (c'est-à-dire les prédicats) versus à l'occurrence élevée des autres. Pour cela, une mise à l'échelle est exigée. Le troisième problème qui doit être résolu pour construire un système CBIR fiable est bien la divergence
Intra/inter-classe. Pour la divergence Intra-classe, les objets (c'est-à-dire les prédicats) appartiennent à la même classe mais ils ne peuvent pas être représentés avec les mêmes caractéristiques visuelles, tandis que la divergence inter-classe est celle où les descripteurs visuels similaires peuvent se rapporter à deux objets (c'est-à dire les prédicats) qui ne sont pas liés entre eux. Dans le but de surpasser ces défis, on propose trois principales contributions : 1) un modèle d'ontologie sémantique pour filtrer les faux négatifs/positifs en utilisant un module de classement statistique. 2) la combinaison de module d'ontologie sémantique et le module de relation visuelle qui prennent tous les deux comme entrée les résultats de module de classement statistique et produisent comme sortie la classification de <homme?prédicat?objet>. 3) un modèle sémantique pour le module de relation visuelle qui classifie la prédiction des classes de relation en transférant la relation spatiale sur une caractéristique spatiale de haute dimension. Finalement, nous avons utilisé HCVRD qui montre deux problèmes pratiques très importants, le problème de distribution de longue-tail, et le problème de zero-shot. Les résultats expérimentaux sur la base HCVRD montre la supériorité des performances de notre approche proposée.
اليوم في التفسير الدلالي لمحتوى الصور توجد تحديات يجب ان تؤخد بعين الاعتبار وذلك من اجل بناء نموذج قوي وتتمثل هذه التحديات في مشكلة الذيل الطو يل و التباعد الكبير داخل الطبقة والتبعية الدلالية أو الفجوة الدلالية. الهدف من أنظمة البحث عن الصور القائمة على المحتوى هو توفير أقصى قدر من الدعم لسد الفجوة الدلالية بين بساطة الميزات المرئية المتاحة وثراء دلالات المستخدم، مشكلة أخرى هي مشكلة الذيل الطويل حيث يوجد تكرار منخفض لبعض الأشياء (أي المسندات) مقارنة بالظهور المرتفع للآخرين ولهذا التحجيم المناسب مطلوب. الملة قوي هي الاختلاف داخل و بين الطبقات. بالنسبة للاختلاف CBIR الكثاثة التي يجب حلها لبناء نظام داخل الطبقة ، تنتمي الكائنات (أي المسندات) إلى نفس الفئة ولكن لا يمكن تمثيلها بنفس الخصائص المرئية ، في حين أن الاختلاف بين الفئات هو النقطة التي يمكن أن ترتبط فيه الواصفات المرئية المماثلة بكائنين (أي المسندات). من أجل التغلب على هذه التحديات ، نقترح ثلاث مساهمات رئيسية: ١) نموذج دلالي وجودي لتصفية السلبيات / الإيجابيات الكاذبة باستخدام وحدة التصنيف الإحصائي. ٢) الجمع بين الوحدة الأنطولوجية الدلالية ووحدة العلاقات المرئية اللذان يأخذان كمدخلات نتائج وحدة التصنيف الإحصائي وينتجان كمخرجات تصنيف < الإنسان المسند الكائن >. ٣) نموذج دلالي لوحدة العلاقة المرئية يصنف التنبؤ بفئات العلاقة عن الذي يسلط الضوء على HCVRD طر يق نقل العلاقة المكانية إلى خاصية مكانية كبيرة الأبعاد. أخيراً ، استخدمنا اوضحت النتائج التجريبية على .zero − shot ومشكلة long − tail مشكلتين عمليتين مهمتين ، مشكلة توزيع ان الطريقة المقترحة خققت درجة عالية من الدقة HCVRD مجموعة بيانات
Description
Keywords
Deep learning, Semantic gap, Long tail problem, Content based image retrieval