LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

El artículo presenta LiM-YOLO, un detector de objetos optimizado para la detección de barcos en imágenes de teledetección óptica que logra un rendimiento superior con menos parámetros mediante el desplazamiento de los niveles de la pirámide de características (de P3-P5 a P2-P4) para preservar detalles de objetivos pequeños y la incorporación de un bloque de normalización por grupos para estabilizar el entrenamiento.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

El artículo presenta ADHint, un método de aprendizaje por refuerzo que integra dinámicamente la dificultad de las muestras para ajustar la proporción de pistas y modular los gradientes, logrando así un equilibrio superior entre exploración e imitación que mejora la capacidad de razonamiento y la generalización fuera de distribución.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

El artículo presenta la Inversión Textual Direccional (DTI), un método que mejora la personalización de generación de imágenes texto-a-imagen optimizando únicamente la dirección de los tokens en una hiperesfera para evitar la inflación de la norma de los embeddings, lo que resulta en una mayor fidelidad al prompt, una mejor contextualización y una interpolación semántica coherente.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este trabajo introduce DivGenBench para cuantificar el colapso de modo de preferencia en modelos de difusión y propone D²-Align, un marco de alineación que mitiga este problema mediante la corrección direccional de la señal de recompensa para preservar la diversidad generativa sin sacrificar la calidad.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

El artículo presenta CLEAR-Mamba, un marco mejorado basado en MedMamba que utiliza una capa de condicionamiento adaptativo (HaC) y un esquema de predicción consciente de la fiabilidad (RaP) para lograr una clasificación precisa, adaptable y confiable de angiografías oftálmicas multimodales (FFA e ICGA), superando a los modelos existentes en generalización y estabilidad.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

WebAccessVL: Violation-Aware VLM for Web Accessibility

El artículo presenta WebAccessVL, un modelo de visión y lenguaje que corrige automáticamente las violaciones de accesibilidad en sitios web mediante la síntesis de código HTML condicional a las imágenes y a las descripciones de los errores, logrando una reducción del 96% en las violaciones y mejorando significativamente el diseño visual en comparación con modelos existentes.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Este artículo presenta la Corrección en Tiempo de Prueba (TTC), un método libre de entrenamiento que utiliza el primer cuadro como ancla estable para corregir la deriva en la generación de videos largos con modelos autoregresivos destilados, logrando una calidad comparable a métodos basados en entrenamiento con un costo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artículo propone un marco de presupuestado de picos consciente de la energía para el aprendizaje continuo en redes neuronales de spiking, que integra replay de experiencia y parámetros neuronales adaptables para optimizar simultáneamente la precisión y la eficiencia energética en sistemas de visión neuromórfica tanto para datos basados en fotogramas como en eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

El artículo presenta CoPeDiT, un modelo de difusión latente basado en transformadores que utiliza percepción de completitud autoaprendida para sintetizar de manera unificada y robusta imágenes de resonancia magnética 3D, superando las limitaciones de los métodos existentes al eliminar la dependencia de guías externas manuales.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artículo presenta un marco de doble flujo para la segmentación de imágenes de aves que combina Grounding DINO 1.5 y YOLOv11 con el modelo SAM 2.1, logrando resultados de vanguardia tanto en modo cero disparos como supervisado al superar las redes de segmentación tradicionales sin necesidad de reentrenar el modelo de segmentación.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

El documento presenta DOCFORGE-BENCH, el primer benchmark unificado de cero disparos para la detección de falsificaciones documentales, que revela que el principal obstáculo para el despliegue práctico no es la capacidad de discriminación de los modelos, sino una falla de calibración crítica causada por la baja proporción de píxeles alterados, la cual puede mitigarse mediante la adaptación del umbral sin necesidad de reentrenamiento.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs