Paper “ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches” publicado en Workshop TRECVID 2013



El paper “ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches” ha sido publicado en el Workshop de TRECVID 2013. Este trabajo resume la participación del equipo de Orand en las competencias Instance Search (INS) y Multimedia Event Detection (MED).

La competencia Instance Search (INS) consiste en, dada una colección de videos, recuperar las escenas que contengan una entidad particular (un objeto o una persona). Esta entidad, denominada tópico, se define por medio de ejemplos visuales y una pequeña descripción textual. Para el año 2013,  fueron evaluados 30 tópicos (26 objetos y 4 personas) disponiendo de 4 ejemplos visuales para cada uno. La colección de videos de referencia fue conformada por 244 videos correspondientes a la serie de TV de la BBC EastEnders, con una extensión total de 435 horas.

Algunos tópicos de búsqueda fueron: un logo de no fumar, un logo de Audi, cigarrillos, un taxi negro, una señal de estacionamiento, entre otras. A continuación se muestra una respuesta del sistema implementado por Orand para “un logo de Audi”:

shotsEval1

Figura 1. Un ejemplo del sistema desarrollado por Orand para la competencia Instance Search. A la derecha se muestra la lista de tópicos a evaluar. La esquina inferior derecha muestra los ejemplos visuales para el tópico escogido (logo de Audi). La zona superior derecha muestra una escena encontrada correctamente para este tópico. Programme material © BBC.

Por otro lado, la competencia Multimedia Event Detection (MED) consiste en decidir si cierto evento específico ocurre en un clip de video. Los eventos son definidos por “kits”, los cuales contienen una descripción textual del evento, además de 100, 10 o 0 clips de ejemplo. La evaluación consideró dos escenarios: eventos pre-especificados, es decir, los “kits” eran conocidos a priori por el equipo, pudiendo implementar manualmente detectores específicos para cada evento; y eventos ad-hoc, donde los “kits” no son conocidos a priori debiendo implementar un sistema génerico de búsqueda que recibe como input un “kit” específico. La colección de videos de referencia para el año 2013 consistió en 98.119 videos de búsqueda, totalizando 1.2 TB de tamaño.

A continuación se muestra un ejemplo del sistema desarrollado para esta competencia:

eventsEval1

Figura 2. Un ejemplo del sistema desarrollado por Orand para la competencia Multimedia Event Detection. En la parte superior derecha se presenta la lista de eventos a evaluar. La zona inferior derecha muestra dos clips de ejemplo para el evento seleccionado (“estacionando un vehículo”). La sección izquierda muestra uno de los clips encontrados por el sistema. 

Para más información visitar (sitios en inglés):

ORAND Team: Instance Search and Multimedia Event Detection Using k-NN Searches, published at TRECVID 2013.
– TRECVID 2013 Guidelines
– TRECVID 2013 Notebook Papers