Proposition de thèse - ETIS

Titre de la thèse

Représentations optimales pour la recherche dans les bases d'images patrimoniales.

Résumé

L'objectif de cette thèse est l'étude et la conception de représentations des images pour la recherche dans les grandes bases d'images issues du patrimoine telles que les photographies d'oeuvres d'art. L'originalité de cette thèse résidera dans la recherche de techniques capables de faire le meilleur compromis entre pertinence des résultats, rapidité d'exécution et coûts de stockage.

Description

Les systèmes de recherche par le contenu d'images dans les grandes bases peuvent être évalués selon trois critères : pertinence des résultats, rapidité d'exécution et coût de stockage. La pertinence des résultats est généralement le premier critère attendu, et évalue dans quelle mesure un système est capable de retrouver les informations recherchées. Dans ce domaine, il existe des approches très performantes qui permettent de répondre à des problèmes comme la recherche de copie d'images ou de classe d'objets, par exemple les systèmes de vote [1] ou les fonctions noyaux sur sacs [2]. Cependant, ces techniques ont un coût calculatoire prohibitif, ce qui limite leur usage aux petites bases de données.

Dans le but de réduire les calculs, des chercheurs ont proposé des modèles approximant ces techniques, comme les approximations par tenseurs [3] ou les tables de hachage [4]. Grâce à ces nouvelles méthodes, au prix d'une perte raisonnable de pertinence, il est devenu possible de traiter les très grandes bases (de l'ordre du million d'images). Malheureusement, le coût en stockage est énorme, et généralement l'index a une taille comparable à celle des fichiers images, et dans certain cas peut être des dizaines de fois plus grand ! Enfin, il existe des méthodes plus récentes qui produisent des représentation des images très petites (de quelques octets), ce qui permet d'avoir une faible complexité de calculs, mais ont un usage limité à la recherche d'instances [5].

Comme nous pouvons le constater, dès lors que l'on souhaite améliorer l'un des trois critères, on perd automatiquement sur les deux autres. La démarche usuelle jusqu'à présent est de se concentrer très fortement sur un des critères, tout en ignorant les deux autres. Ainsi, il n'existe pas aujourd'hui de système de recherche multimédia qui permette d'avoir le meilleur compromis entre les trois critères. Or une telle capacité peut offrir une véritable avancée dans un contexte applicatif, comme celui des utilisateurs des bases d'images patrimoniales qui nous intéresse dans le cadre de cette thèse.

Informations pratiques

La thèse se déroulera au laboratoire ETIS, une UMR du CNRS commune à l'ENSEA et à l'Université de Cergy-Pontoise. L'étudiant sera employé dans le cadre d'un Contrat Doctoral tel que défini par le Ministère.

L'étudiant sera encadré par :

Télécharger le sujet de thèse au format PDF : site du laboratoire ETIS.

Bibliographie

[1] K. Mikolajczyk, T. Tuytelaars, C. Schmid, A. Zisserman, J. Matas, F. Schaffalitzky, T. Kadir, and L. V. Gool, “A comparison of affine region detectors,” International Journal of Computer Vision (IJCV), vol. 65, pp. 43–72, November 2005.

[2] P. Gosselin, M. Cord, and S. Philipp-Foliguet, “Kernel on bags of fuzzy regions for fast object retrieval,” in IEEE International Conference on Image Processing (ICIP), San Antonio, Texas, USA, September 2007.

[3] D. Picard and P. Gosselin. “Improving Image Similarity With Vectors of Locally Aggregated Tensors,” In IEEE International Conference on Image Processing (ICIP), Brussels, Belgium, September 2011.

[4] M. Datar, N. Immorlica, P. Indyk and V. Mirrokni, “ Locality-sensitive hashing scheme based on p-stable distributions,” in ACM Symposium on Computational Geometry, 2004.

[5] H. Jégou, M. Douze and C. Schmid, “Product quantization for nearest neighbor search,” in IEEE Transactions on Pattern Analysis and Machine Intelligence (PAMI), Volume 33, Issue 1, January 2011, pages 117-128.

Revenir