Multimodal information spaces for content-based image retrieval Report as inadecuate

Multimodal information spaces for content-based image retrieval - Download this document for free, or read online. Document in PDF available to download.

0 Generalidades - Computer science, information and general works

Abstract. Image collections today are increasingly larger in size, and they continue to grow constantly. Without the help of image search systems these abundant visual records collected in many different fields and domains may remain unused and inaccessible. Many available image databases often contain complementary modalities, such as attached text resources, which can be used to build an index for querying with keywords. However, sometimes users do not have or do not know the right words to express what they need, and, in addition, keywords do not express all the visual variations that an image may contain. Using example images as queries can be viewed as an alternative in different scenarios such as searching images using a mobile phone with a coupled camera, or supporting medical diagnosis by searching a large medical image collection. Still, matching only visual features between the query and image databases may lead to undesirable results from the users perspective. These conditions make the process of finding relevant images for a specific information need very challenging, time consuming or even frustrating. Instead of considering only a single data modality to build image search indexes, the simultaneous use of both, visual and text data modalities, has been suggested. Non-visual information modalities may provide complementary information to enrich the image representation. The goal of this research work is to study the relationships between visual contents and text terms to build useful indexes for image search. A family of algorithms based on matrix factorization are proposed for extracting the multimodal aspects from an image collection. Using this knowledge about how visual features and text terms correlate, a search index is constructed, which can be searched using keywords, example images or combinations of both. Systematic experiments were conducted on different data sets to evaluate the proposed indexing algorithms. The experimental results showed that multimodal indexing is an effective strategy for designing image search systems., Las colecciones de imágenes hoy en día son muy grandes y crecen constantemente. Sin la ayuda de sistemas para la búsqueda de imágenes esos abundantes registros visuales que han sido recolectados en diferentes areas del conocimiento pueden permanecer aislados sin uso. Muchas bases de datos de imágenes contienen modalidades de datos complementarias, como los recursos textuales que pueden ser utilizados para crear índices de búsqueda. Sin embargo, algunas veces los usuarios no tienen o no saben qué palabras utilizar para encontrar lo que necesitan, y adicionalmente, las palabras clave no expresan todas las variaciones visuales que una imagen puede tener. Utilizar imágenes de ejemplo para expresar la consulta puede ser visto como una alternativa, por ejemplo buscar imágenes con teléfonos móviles, o dar soporte al diagnóstico médico con las imágenes de los pacientes. Aún así, emparejar correctamente las características visuales de la consulta y las imágenes en la base de datos puede llevar a resultados semánticamente incorrectos. Estas condiciones hacen que el proceso de buscar imágenes relevantes para una necesidad de información particular sea una tarea difícil, que consume mucho tiempo o que incluso puede ser frustrante. En lugar de considerar solo una modalidad de datos para construir índices de búsqueda para imágenes, el uso simultáneo de las modalidades visual y textual ha sido sugerido. Las modalidades no visuales pueden proporcionar información complementaria para enriquecer la representación de las imágenes. El objetivo de este trabajo de investigación es estudiar las relaciones entre los contenidos visuales y los términos textuales, para construir índices de búsqueda útiles. Este trabajo propone una familia de algoritmos basados en factorización de matrices para extraer los aspectos multimodales de una colección de imágenes. Utilizando este conocimiento acerca de cómo las características visuales se correlacionan con los términos textuales, se construye un índice que puede ser consultado con palabras clave, imágenes de ejemplo o por combinaciones de estas dos. Se realizaron experimentos sistemáticos en diferentes conjuntos de datos para evaluar los algoritmos de indexamiento propuestos. Los resultados muestran que el indexamiento multimodal es una estrategia efectiva para diseñar sistemas de búsqueda de imágenes.

Tipo de documento: Tesis-trabajos de grado - Thesis Doctorado

Colaborador - Asesor: Gonzalez Osorio, Fabio A.

Información adicional: Doctor of Engineering Systems and Computer Engineering.

Palabras clave: Image databases, Indexing methods, Image search, Multimodal data, Analysis, Machine learning, Pattern recognition, Matrix factorization, Bases de datos de imágenes, Métodos de indexación, Búsqueda de imágenes, Análisis de datos multimodal, Aprendizaje de máquina, Reconocimiento de patrones, Factorización de matrices

Temática: 0 Generalidades - Computer science, information and general works 5 Ciencias naturales y matemáticas - Science 51 Matemáticas - Mathematics6 Tecnología ciencias aplicadas - Technology 62 Ingeniería y operaciones afines - Engineering



Multimodal Information Spaces for Content-based Image Retrieval Juan C.
Caicedo Universidad Nacional de Colombia Facultad de Ingenierı́a Departamento de Ingenierı́a de Sistemas e Industrial Bogotá, Colombia 2012 Doctoral Thesis Multimodal Information Spaces for Content-based Image Retrieval by Juan Carlos Caicedo Rueda Submitted to the Engineering School of the Universidad Nacional de Colombia, in partial fulfillment of the requirements for the degree of Doctor of Engineering Systems and Computer Engineering Advisor: Fabio A.
Gonzalez Bioingenium Research Group Universidad Nacional de Colombia Facultad de Ingenierı́a Departamento de Ingenierı́a de Sistemas e Industrial Bogotá D.C., 28 Sep 2012 To my parents Germán and Beatriz. Aknowledgements I would like to thank my advisor Professor Fabio González for his guidance, patience and advice.
He introduced me to the field of machine learning and information retrieval research, and inspired me to give the most out of myself.
Also, profesor Eduardo Romero who was always open to discussions and willing to support my research career.
This thesis has been a rewarding experience thanks to them.
I would like to also thank my parents and siblings for their endless love and support. I also thank all the people in the Bioingenium Research group, from whom I learned and shared over these years.
Thanks to Gloria Dı́az and Francisco Gómez for their endless conversations about meaning and impact of research.
To Fabio Martı́nez and Andrea Rueda for their unconditional friendship and support.
To Jorge Camargo and Angel Cruz for being available for both, hard work and good fun.
To many other students and coworkers I had the opportunity to work and share with (in alphabetical order): Angélica Sandoval, Alejandro Riveros, Carlos Vargas, Cesar Sánchez, Edwin Niño, Jorge Vanegas, José Moreno, Juan Galeano, Laura Arévalo and Raul Ramos.
I am very grateful to all of them, they made Universidad N...

Related documents