El paper “vCLIMB: A Novel Video Class Incremental Learning Benchmark”, publicado por Andrés Villa, doctorante Cenia e investigador interno de KAUST en Arabia Saudita, fue aceptado en la conferencia Computer Vision and Pattern Recognition 2022 (CVPR), una de las conferencias de mayor impacto en el desarrollo e investigación de inteligencia artificial, aprendizaje automático, computer vision y deep learning.
El trabajo de Andrés Villa – estudiante de Doctorado en Ciencias de la Ingeniería con mención en Ciencias de la Computación de la Pontificia Universidad Católica de Chile- desarrollado en coautoría con Kumail Alhamoud, Juan León Alcázar, Fabian Caba Heilbron, Victor Escorcia y Bernard Ghanem fue aceptado en la categoría oral. Esto permitirá exponer de forma personal el proceso, desarrollo y futuros impactos de su investigación: “es una gran instancia porque podemos llevar el trabajo a una plataforma que puede potenciar la visibilidad de forma astronómica, además de encontrar colaboraciones de calidad”, explicó Villa.
La conferencia se llevará a cabo entre el domingo 19 y el viernes 24 de junio en New Orleans, Louisiana, Estados Unidos y reunirá a investigadores, académicos, estudiantes y representantes de los principales centros de innovación del mundo. En esta ocasión, el evento se desarrollará de forma híbrida, ya que será transmitido en vivo a través del sitio web oficial y, además, recibirá diariamente de forma presencial a miles de invitados, expositores y espectadores.
Abstract
Continual learning (CL) is under-explored in the video domain. The few existing works contain splits with imbalanced class distributions over the tasks, or study the problem in unsuitable datasets. We introduce vCLIMB, a novel video continual learning benchmark. vCLIMB is a standardized test-bed to analyze catastrophic forgetting of deep models in video continual learning. In contrast to previous work, we focus on class incremental continual learning with models trained on a sequence of disjoint tasks, and distribute the number of classes uniformly across the tasks. We perform in-depth evaluations of existing CL methods in vCLIMB, and observe two unique challenges in video data. The selection of instances to store in episodic memory is performed at the frame level. Second, untrimmed training data influences the effectiveness of frame sampling strategies. We address these two challenges by proposing a temporal consistency regularization that can be applied on top of memory-based continual learning methods. Our approach significantly improves the baseline, by up to 24% on the untrimmed continual learning task.