cs.CV artículos | Gist.Science

LogoDiffuser: Training-Free Multilingual Logo Generation and Stylization via Letter-Aware Attention Control

LogoDiffuser es un método sin entrenamiento que genera y estiliza logotipos multilingües integrando la estructura de los caracteres mediante mapas de atención inyectados en transformadores de difusión multimodales, evitando así distorsiones geométricas y la necesidad de reentrenamiento.

Mingyu Kang, Hyein Seo, Yuna Jeong, Junhyeong Park, Yong Suk Choi2026-03-11💻 cs

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

El artículo presenta PanoAffordanceNet, un marco innovador y un nuevo conjunto de datos (360-AGD) diseñados para superar los desafíos de la percepción global en entornos interiores de 360°, permitiendo una fundamentación holística de las affordances mediante la corrección de distorsiones geométricas y la alineación semántica a escala.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun Yang2026-03-11⚡ eess

Ego: Embedding-Guided Personalization of Vision-Language Models

El artículo propone "Ego", un método eficiente que personaliza modelos de visión y lenguaje sin etapas de entrenamiento adicionales, extrayendo tokens visuales de atención interna como memoria para reconocer conceptos específicos en imágenes y videos.

Soroush Seifi, Simon Gardier, Vaggelis Dorovatas, Daniel Olmeda Reino, Rahaf Aljundi2026-03-11🤖 cs.AI

Removing the Trigger, Not the Backdoor: Alternative Triggers and Latent Backdoors

Este artículo demuestra que las defensas actuales contra puertas traseras son insuficientes porque eliminar el desencadenante original no elimina la vulnerabilidad, ya que existen "desencadenantes alternativos" que explotan la dirección latente de la puerta trasera en el espacio de características, lo que sugiere la necesidad de desarrollar defensas que se enfoquen en la representación en lugar de en los desencadenantes de entrada.

Gorka Abad, Ermes Franch, Stefanos Koffas, Stjepan Picek2026-03-11💻 cs

What is Missing? Explaining Neurons Activated by Absent Concepts

Este trabajo demuestra que los conceptos ausentes que activan neuronas son comunes en los modelos de IA, que los métodos explicativos estándar no los detectan, y propone extensiones sencillas para revelar estas "ausencias codificadas" y mejorar la interpretabilidad y el desesgo de los modelos.

Robin Hesse, Simone Schaub-Meyer, Janina Hesse, Bernt Schiele, Stefan Roth2026-03-11🤖 cs.LG

Test-time Ego-Exo-centric Adaptation for Action Anticipation via Multi-Label Prototype Growing and Dual-Clue Consistency

Este artículo presenta DCPGN, un nuevo método de adaptación en tiempo de prueba que utiliza un módulo de crecimiento de prototipos multi-etiqueta y una consistencia de doble pista visual-textual para anticipar acciones y cerrar la brecha entre las vistas egocéntrica y exocéntrica sin necesidad de datos de entrenamiento en el objetivo.

Zhaofeng Shi, Heqian Qiu, Lanxiao Wang, Qingbo Wu, Fanman Meng, Lili Pan, Hongliang Li2026-03-11💻 cs

RA-SSU: Towards Fine-Grained Audio-Visual Learning with Region-Aware Sound Source Understanding

Este trabajo introduce la tarea de aprendizaje audio-visual de granularidad fina denominada RA-SSU, respaldada por dos nuevos conjuntos de datos (f-Music y f-Lifescene) y el modelo SSUFormer, para lograr una comprensión detallada, a nivel de marco y consciente de la región de las fuentes sonoras.

Muyi Sun, Yixuan Wang, Hong Wang, Chen Su, Man Zhang, Xingqun Qi, Qi Li, Zhenan Sun2026-03-11💻 cs

ConfCtrl: Enabling Precise Camera Control in Video Diffusion via Confidence-Aware Interpolation

El artículo presenta ConfCtrl, un marco de interpolación de video consciente de la confianza que permite a los modelos de difusión generar vistas novedosas geométricamente consistentes y visualmente plausibles a partir de solo dos imágenes, superando las limitaciones de los métodos existentes mediante una proyección ponderada por confianza y un mecanismo de corrección residual inspirado en el filtro de Kalman para manejar grandes cambios de perspectiva.

Liudi Yang, George Eskandar, Fengyi Shen, Mohammad Altillawi, Yang Bai, Chi Zhang, Ziyuan Liu, Abhinav Valada2026-03-11💻 cs

BrainSTR: Spatio-Temporal Contrastive Learning for Interpretable Dynamic Brain Network Modeling

El artículo presenta BrainSTR, un marco de aprendizaje contrastivo espaciotemporal que modela redes cerebrales dinámicas interpretables mediante la identificación de fases críticas y subredes relacionadas con enfermedades, mejorando así el diagnóstico neuropsiquiátrico en trastornos como el autismo, el trastorno bipolar y la depresión mayor.

Guiliang Guo, Guangqi Wen, Lingwen Liu, Ruoxian Song, Peng Cao, Jinzhu Yang, Fei Wang, Xiaoli Liu, Osmar R. Zaiane2026-03-11💻 cs

VLM-Loc: Localization in Point Cloud Maps via Vision-Language Models

El artículo presenta VLM-Loc, un marco que utiliza modelos de visión-idioma para mejorar la localización en mapas de nubes de puntos mediante la transformación de datos geométricos y semánticos en representaciones estructuradas que permiten un razonamiento espacial interpretable, validado con el nuevo conjunto de datos CityLoc.

Shuhao Kang, Youqi Liao, Peijie Wang, Wenlong Liao, Qilin Zhang, Benjamin Busam, Xieyuanli Chen, Yun Liu2026-03-11💻 cs

MA-EgoQA: Question Answering over Egocentric Videos from Multiple Embodied Agents

Este trabajo presenta MA-EgoQA, un nuevo benchmark y modelo base (EgoMAS) diseñados para evaluar y mejorar la capacidad de los sistemas de IA para comprender y coordinar múltiples videos egocéntricos de agentes corporificados mediante el uso de memoria compartida y recuperación dinámica.

Kangsan Kim, Yanlai Yang, Suji Kim, Woongyeong Yeo, Youngwan Lee, Mengye Ren, Sung Ju Hwang2026-03-11🤖 cs.AI

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

CycleULM es un marco unificado de aprendizaje profundo sin etiquetas que utiliza una traducción de dominio basada en CycleGAN para superar las limitaciones de datos y simulación en la microscopía de localización por ultrasonido, logrando mejoras significativas en la resolución, la precisión de localización de microburbujas y la velocidad de procesamiento en tiempo real.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing Tang2026-03-11⚡ eess

MissBench: Benchmarking Multimodal Affective Analysis under Imbalanced Missing Modalities

El artículo presenta MissBench, un nuevo marco de referencia y conjunto de métricas diagnósticas diseñado para evaluar y detectar inequidades en el análisis afectivo multimodal bajo condiciones realistas de datos faltantes desbalanceados, revelando que los modelos que parecen robustos en escenarios ideales pueden presentar desequilibrios significativos en la práctica.

Tien Anh Pham, Phuong-Anh Nguyen, Duc-Trong Le, Cam-Van Thi Nguyen2026-03-11💻 cs

InternVL-U: Democratizing Unified Multimodal Models for Understanding, Reasoning, Generation and Editing

El artículo presenta InternVL-U, un modelo multimodal unificado ligero de 4 mil millones de parámetros que democratiza las capacidades de comprensión, razonamiento, generación y edición mediante un diseño modular y una síntesis de datos centrada en el razonamiento, logrando un rendimiento superior al de modelos baselines mucho más grandes con una eficiencia notable.

Changyao Tian, Danni Yang, Guanzhou Chen, Erfei Cui, Zhaokai Wang, Yuchen Duan, Penghao Yin, Sitao Chen, Ganlin Yang, Mingxin Liu, Zirun Zhu, Ziqian Fan, Leyao Gu, Haomin Wang, Qi Wei, Jinhui Yin, Xue Yang, Zhihang Zhong, Qi Qin, Yi Xin, Bin Fu, Yihao Liu, Jiaye Ge, Qipeng Guo, Gen Luo, Hongsheng Li, Yu Qiao, Kai Chen, Hongjie Zhang2026-03-11💻 cs

DISPLAY: Directable Human-Object Interaction Video Generation via Sparse Motion Guidance and Multi-Task Auxiliary

El artículo presenta DISPLAY, un marco de generación de videos de interacción humano-objeto que logra un control intuitivo y alta fidelidad mediante una guía de movimiento dispersa (coordenadas de muñeca y cajas delimitadoras de objetos) y una estrategia de entrenamiento auxiliar multi-tarea para superar las limitaciones de flexibilidad y consistencia física de los métodos existentes.

Jiazhi Guan, Quanwei Yang, Luying Huang, Junhao Liang, Borong Liang, Haocheng Feng, Wei He, Kaisiyuan Wang, Hang Zhou, Jingdong Wang2026-03-11💻 cs

Stepping VLMs onto the Court: Benchmarking Spatial Intelligence in Sports

Este trabajo presenta CourtSI, el primer conjunto de datos a gran escala y su correspondiente benchmark para evaluar y mejorar la inteligencia espacial de los modelos de visión y lenguaje en escenarios deportivos, demostrando que el ajuste fino en este dominio cierra la brecha de rendimiento humano-AI y mejora la capacidad de generalización de los modelos.

Yuchen Yang, Yuqing Shao, Duxiu Huang, Linfeng Dong, Yifei Liu, Suixin Tang, Xiang Zhou, Yuanyuan Gao, Wei Wang, Yue Zhou, Xue Yang, Yanfeng Wang, Xiao Sun, Zhihang Zhong2026-03-11💻 cs

WikiCLIP: An Efficient Contrastive Baseline for Open-domain Visual Entity Recognition

El paper presenta WikiCLIP, un marco eficiente y efectivo para el reconocimiento de entidades visuales en dominios abiertos que supera a los métodos generativos existentes al combinar representaciones de entidades enriquecidas por modelos de lenguaje con un adaptador guiado por visión y un mecanismo de síntesis de negativos difíciles, logrando mejoras significativas en rendimiento y reduciendo la latencia de inferencia en casi 100 veces.

Shan Ning, Longtian Qiu, Jiaxuan Sun, Xuming He2026-03-11💻 cs

On the Structural Failure of Chamfer Distance in 3D Shape Optimization

El artículo demuestra que la optimización directa de la distancia de chamfer falla estructuralmente debido a un colapso de muchos a uno causado por gradientes locales, y propone que la introducción de acoplamiento no local, como en deformaciones de base compartida o priores MPM diferenciables, es esencial para suprimir este colapso y lograr una reconstrucción de formas 3D exitosa.

Chang-Yong Song, David Hyde2026-03-11💻 cs

Fine-grained Motion Retrieval via Joint-Angle Motion Images and Token-Patch Late Interaction

Este trabajo propone un método interpretable para la recuperación de movimiento a partir de texto que utiliza representaciones de imágenes de ángulos articulares y una interacción tardía token-parche para superar las limitaciones de las representaciones globales y lograr correspondencias finas y precisas entre descripciones lingüísticas y secuencias de movimiento 3D.

Yao Zhang, Zhuchenyang Liu, Yanlan He, Thomas Ploetz, Yu Xiao2026-03-11💻 cs

Adaptive Clinical-Aware Latent Diffusion for Multimodal Brain Image Generation and Missing Modality Imputation

El artículo presenta ACADiff, un marco de difusión latente adaptativo y consciente de datos clínicos que sintetiza modalidades de neuroimagen cerebrales faltantes y mejora el diagnóstico de Alzheimer incluso en escenarios con hasta un 80% de datos ausentes.

Rong Zhou, Houliang Zhou, Yao Su, Brian Y. Chen, Yu Zhang, Lifang He, Alzheimer's Disease Neuroimaging Initiative2026-03-11🤖 cs.AI

← Anterior Siguiente →