Bootstrap Dynamic-Aware 3D Visual Representation for Scalable Robot Learning

El artículo presenta AFRO, un marco de aprendizaje auto-supervisado que genera representaciones 3D conscientes de la dinámica mediante un proceso difusivo y la modelación conjunta de dinámicas directas e inversas, logrando un rendimiento superior en tareas de manipulación robótica sin necesidad de supervisión de acciones o reconstrucción geométrica explícita.

Qiwei Liang, Boyang Cai, Minghao Lai, Sitong Zhuang, Tao Lin, Yan Qin, Yixuan Ye, Jiaming Liang, Renjing Xu2026-03-11💻 cs

AVGGT: Rethinking Global Attention for Accelerating VGGT

Este artículo presenta AVGGT, un método de aceleración sin entrenamiento que analiza y reestructura la atención global en modelos como VGGT y π3\pi^3 mediante la conversión de capas tempranas y el muestreo de tokens, logrando aceleraciones de inferencia de hasta 10 veces en secuencias largas sin sacrificar la precisión.

Xianbing Sun, Zhikai Zhu, Zhengyu Lou, Bo Yang, Jinyang Tang, Liqing Zhang, He Wang, Jianfu Zhang2026-03-11💻 cs

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

El artículo presenta LiM-YOLO, un detector de objetos optimizado para la detección de barcos en imágenes de teledetección óptica que logra un rendimiento superior con menos parámetros mediante el desplazamiento de los niveles de la pirámide de características (de P3-P5 a P2-P4) para preservar detalles de objetivos pequeños y la incorporación de un bloque de normalización por grupos para estabilizar el entrenamiento.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

El artículo presenta ADHint, un método de aprendizaje por refuerzo que integra dinámicamente la dificultad de las muestras para ajustar la proporción de pistas y modular los gradientes, logrando así un equilibrio superior entre exploración e imitación que mejora la capacidad de razonamiento y la generalización fuera de distribución.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

El artículo presenta la Inversión Textual Direccional (DTI), un método que mejora la personalización de generación de imágenes texto-a-imagen optimizando únicamente la dirección de los tokens en una hiperesfera para evitar la inflación de la norma de los embeddings, lo que resulta en una mayor fidelidad al prompt, una mejor contextualización y una interpolación semántica coherente.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este trabajo introduce DivGenBench para cuantificar el colapso de modo de preferencia en modelos de difusión y propone D²-Align, un marco de alineación que mitiga este problema mediante la corrección direccional de la señal de recompensa para preservar la diversidad generativa sin sacrificar la calidad.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

El artículo presenta CLEAR-Mamba, un marco mejorado basado en MedMamba que utiliza una capa de condicionamiento adaptativo (HaC) y un esquema de predicción consciente de la fiabilidad (RaP) para lograr una clasificación precisa, adaptable y confiable de angiografías oftálmicas multimodales (FFA e ICGA), superando a los modelos existentes en generalización y estabilidad.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

WebAccessVL: Violation-Aware VLM for Web Accessibility

El artículo presenta WebAccessVL, un modelo de visión y lenguaje que corrige automáticamente las violaciones de accesibilidad en sitios web mediante la síntesis de código HTML condicional a las imágenes y a las descripciones de los errores, logrando una reducción del 96% en las violaciones y mejorando significativamente el diseño visual en comparación con modelos existentes.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Este artículo presenta la Corrección en Tiempo de Prueba (TTC), un método libre de entrenamiento que utiliza el primer cuadro como ancla estable para corregir la deriva en la generación de videos largos con modelos autoregresivos destilados, logrando una calidad comparable a métodos basados en entrenamiento con un costo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artículo propone un marco de presupuestado de picos consciente de la energía para el aprendizaje continuo en redes neuronales de spiking, que integra replay de experiencia y parámetros neuronales adaptables para optimizar simultáneamente la precisión y la eficiencia energética en sistemas de visión neuromórfica tanto para datos basados en fotogramas como en eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

El artículo presenta CoPeDiT, un modelo de difusión latente basado en transformadores que utiliza percepción de completitud autoaprendida para sintetizar de manera unificada y robusta imágenes de resonancia magnética 3D, superando las limitaciones de los métodos existentes al eliminar la dependencia de guías externas manuales.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess