MM-Zero: Self-Evolving Multi-Model Vision Language Models From Zero Data

El artículo presenta MM-Zero, el primer marco basado en aprendizaje por refuerzo que permite la autoevolución de modelos de visión y lenguaje desde cero sin datos, mediante un sistema de tres roles especializados (propuestor, codificador y solucionador) que generan conceptos visuales abstractos, crean imágenes ejecutables y realizan razonamiento multimodal.

Zongxia Li, Hongyang Du, Chengsong Huang, Xiyang Wu, Lantao Yu, Yicheng He, Jing Xie, Xiaomin Wu, Zhichao Liu, Jiarui Zhang, Fuxiao Liu2026-03-11🤖 cs.LG

Geometry-Aware Metric Learning for Cross-Lingual Few-Shot Sign Language Recognition on Static Hand Keypoints

Este trabajo propone un marco de aprendizaje métrico consciente de la geometría que utiliza descriptores de ángulos interarticulares invariantes para superar la variabilidad de dominio y lograr un reconocimiento de lenguaje de señas de pocos ejemplos entre idiomas con alta precisión, incluso en escenarios de recursos limitados.

Chayanin Chamachot, Kanokphan Lertniponphan2026-03-11💻 cs

TubeMLLM: A Foundation Model for Topology Knowledge Exploration in Vessel-like Anatomy

El artículo presenta TubeMLLM, un modelo fundacional unificado que combina comprensión estructurada y generación controlable mediante priores topológicos en lenguaje natural para superar las inconsistencias topológicas en el modelado de anatomía vascular, demostrando un rendimiento superior y una capacidad de transferencia cero-shot en múltiples conjuntos de datos y modalidades.

Yaoyu Liu, Minghui Zhang, Xin You, Hanxiao Zhang, Yun Gu2026-03-11💻 cs

UniField: A Unified Field-Aware MRI Enhancement Framework

El artículo presenta UniField, un marco unificado que mejora la calidad de las imágenes de resonancia magnética (MRI) al aprovechar modelos fundacionales 3D preentrenados y un mecanismo de rectificación espectral consciente del campo magnético para superar las limitaciones de generalización y escasez de datos, respaldado por la publicación del conjunto de datos multi-campo más grande hasta la fecha.

Yiyang Lin, Chenhui Wang, Zhihao Peng, Yixuan Yuan2026-03-11💻 cs

BridgeDiff: Bridging Human Observations and Flat-Garment Synthesis for Virtual Try-Off

El artículo presenta BridgeDiff, un marco basado en difusión que supera las limitaciones de los métodos anteriores para la síntesis de prendas planas en el intento virtual de ropa al unir explícitamente las observaciones humanas con la estructura de la prenda mediante módulos de puente de condición y restricciones estructurales, logrando así un rendimiento superior en benchmarks estándar.

Shuang Liu, Ao Yu, Linkang Cheng, Xiwen Huang, Li Zhao, Junhui Liu, Zhiting Lin, Yu Liu2026-03-11🤖 cs.AI

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Este artículo presenta Geometric Semantic Decoupling (GSD), un módulo sin parámetros que mejora la generalización de los detectores de imágenes generadas por IA al eliminar las dependencias de priores semánticos dominantes y forzar al modelo a centrarse en evidencia forense invariante.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui Ren2026-03-11💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

El artículo presenta Poly-DETR, un transformador de detección de polígonos que reformula la segmentación de instancias mediante regresión de vértices en representación polar para resolver el conflicto entre entradas de alta resolución y la inferencia en tiempo real, logrando mejoras significativas en precisión y eficiencia en comparación con los métodos basados en máscaras.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao Li2026-03-11💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Este estudio presenta un enfoque de múltiples modelos basado en redes neuronales preentrenadas y personalizadas, junto con técnicas de aumento de datos y aprendizaje por transferencia, para mejorar la detección de señales de tráfico, vehículos y carriles, así como la clonación de comportamiento, con el fin de aumentar la robustez y fiabilidad de los sistemas de conducción autónoma.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun Mukherjee2026-03-11🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

El artículo presenta DiP, un nuevo marco de aprendizaje de representaciones para grafos multimodales que utiliza nodos pseudo específicos de cada modalidad y rutas de información dinámicas para lograr una propagación de mensajes adaptativa, expresiva y eficiente con complejidad lineal, superando consistentemente a los métodos existentes en diversas tareas y benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong Li2026-03-11💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Este trabajo introduce un marco de navegación visión-lenguaje a gran escala derivado de videos web que, mediante representaciones geométricas implícitas para extraer información espacial directamente de imágenes RGB sin reconstrucción 3D, supera las limitaciones de los datos simulados y establece nuevos récords de rendimiento en múltiples benchmarks.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan Laptev2026-03-11💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

El artículo presenta ForgeDreamer, un marco innovador para la generación industrial de texto a 3D que supera las limitaciones actuales mediante un mecanismo de ensamblaje LoRA multiexperto para evitar interferencias de conocimiento y una mejora geométrica basada en hipergrafos de vistas cruzadas para garantizar consistencia estructural de nivel de fabricación.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin Zhong2026-03-11💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

El artículo presenta SVOR, un marco robusto que logra la eliminación estable de objetos en videos bajo condiciones imperfectas mediante tres diseños clave: MUSE para el manejo de movimientos abruptos, DA-Seg para la localización consciente del desruido y un entrenamiento curricular en dos etapas, superando así los límites de los modelos existentes y alcanzando resultados de vanguardia en escenarios del mundo real.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian Luan2026-03-11💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

El artículo presenta CogBlender, un marco que permite la intervención continua y multidimensional de propiedades cognitivas (como valencia, excitación, dominio y memorabilidad) en la generación de imágenes a partir de texto, logrando alinear el contenido visual con la intención psicológica mediante la interpolación de campos de velocidad en un espacio cognitivo.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

El artículo presenta MDTrack, un marco novedoso para el seguimiento de objetos multimodal que supera las limitaciones de las estrategias de fusión uniformes mediante una fusión adaptativa basada en expertos y una propagación temporal desacoplada utilizando modelos de espacio de estado, logrando así un rendimiento superior en cinco benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs