cs.CV artículos | Gist.Science

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

El artículo presenta LiM-YOLO, un detector de objetos optimizado para la detección de barcos en imágenes de teledetección óptica que logra un rendimiento superior con menos parámetros mediante el desplazamiento de los niveles de la pirámide de características (de P3-P5 a P2-P4) para preservar detalles de objetivos pequeños y la incorporación de un bloque de normalización por grupos para estabilizar el entrenamiento.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

El artículo presenta ADHint, un método de aprendizaje por refuerzo que integra dinámicamente la dificultad de las muestras para ajustar la proporción de pistas y modular los gradientes, logrando así un equilibrio superior entre exploración e imitación que mejora la capacidad de razonamiento y la generalización fuera de distribución.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

El artículo presenta la Inversión Textual Direccional (DTI), un método que mejora la personalización de generación de imágenes texto-a-imagen optimizando únicamente la dirección de los tokens en una hiperesfera para evitar la inflación de la norma de los embeddings, lo que resulta en una mayor fidelidad al prompt, una mejor contextualización y una interpolación semántica coherente.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Este trabajo introduce DivGenBench para cuantificar el colapso de modo de preferencia en modelos de difusión y propone D²-Align, un marco de alineación que mitiga este problema mediante la corrección direccional de la señal de recompensa para preservar la diversidad generativa sin sacrificar la calidad.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

El artículo propone SeLop, un método de intervención en subespacio ortogonal de bajo rango que elimina las correlaciones espurias irrelevantes para la falsificación en las representaciones de CLIP, logrando así una detección de falsificaciones faciales más robusta y generalizable con un mínimo número de parámetros entrenables.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Este artículo propone un método de detección de imágenes generadas por IA que explota los componentes finales compartidos por diversos generadores, logrando una alta generalización y una precisión promedio del 98,83% al clasificar imágenes de generadores no vistos.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

El artículo presenta CLEAR-Mamba, un marco mejorado basado en MedMamba que utiliza una capa de condicionamiento adaptativo (HaC) y un esquema de predicción consciente de la fiabilidad (RaP) para lograr una clasificación precisa, adaptable y confiable de angiografías oftálmicas multimodales (FFA e ICGA), superando a los modelos existentes en generalización y estabilidad.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

Multi-head automated segmentation by incorporating detection head into the contextual layer neural network

Este artículo presenta un modelo de segmentación automática basado en una arquitectura Transformer de Swin U-Net con un cabezal de detección paralelo que actúa como puerta para suprimir las falsas positivas anatómicamente inválidas, mejorando significativamente la fiabilidad y la plausibilidad anatómica en la radioterapia.

Edwin Kys, Febian Febian2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

El artículo presenta RegionReasoner, un marco de aprendizaje por refuerzo que mejora el razonamiento visual iterativo mediante la exigencia de citas explícitas de cajas delimitadoras y una recompensa de consistencia semántica global-local, validado en un nuevo benchmark llamado RegionDial-Bench que abarca tareas de detección y segmentación.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

El artículo presenta WebAccessVL, un modelo de visión y lenguaje que corrige automáticamente las violaciones de accesibilidad en sitios web mediante la síntesis de código HTML condicional a las imágenes y a las descripciones de los errores, logrando una reducción del 96% en las violaciones y mejorando significativamente el diseño visual en comparación con modelos existentes.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Este artículo presenta la Corrección en Tiempo de Prueba (TTC), un método libre de entrenamiento que utiliza el primer cuadro como ancla estable para corregir la deriva en la generación de videos largos con modelos autoregresivos destilados, logrando una calidad comparable a métodos basados en entrenamiento con un costo computacional mínimo.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

El artículo presenta RoSE, un nuevo enfoque que reformula la estimación de normales monoculares como la predicción de secuencias de sombreado mediante modelos generativos de imagen a video, logrando un rendimiento superior al estado del arte al resolver problemas de desalineación geométrica.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Este artículo propone un marco de presupuestado de picos consciente de la energía para el aprendizaje continuo en redes neuronales de spiking, que integra replay de experiencia y parámetros neuronales adaptables para optimizar simultáneamente la precisión y la eficiencia energética en sistemas de visión neuromórfica tanto para datos basados en fotogramas como en eventos.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Este artículo propone TCMax, un método de clasificación multimodal que maximiza la correlación total entre las características y las etiquetas mediante una nueva estimación neural (TCNE) para resolver la competencia entre modalidades y superar el rendimiento de los enfoques unimodales y conjuntos existentes.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

El paper presenta B-DENSE, un marco innovador que mejora la eficiencia de la destilación en modelos de difusión mediante un alineamiento de trayectoria denso y multirrama, permitiendo que el modelo estudiante aprenda pasos intermedios completos para generar imágenes de mayor calidad con menor latencia.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

El artículo presenta CoPeDiT, un modelo de difusión latente basado en transformadores que utiliza percepción de completitud autoaprendida para sintetizar de manera unificada y robusta imágenes de resonancia magnética 3D, superando las limitaciones de los métodos existentes al eliminar la dependencia de guías externas manuales.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

El artículo presenta ChimeraLoRA, un método que combina un LoRA compartido por clase con LoRAs específicos por imagen para generar conjuntos de datos sintéticos diversos y detallados que mejoran el rendimiento de clasificación en escenarios de escasez de datos.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

El artículo presenta OrthoAI, un marco neurosimbólico que integra segmentación de puntos dentales con supervisión escasa, inferencia de restricciones biomecánicas basada en ontologías y evaluación multicriterio para apoyar la toma de decisiones clínicas en ortodoncia con alineadores transparentes.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Este artículo presenta un marco de doble flujo para la segmentación de imágenes de aves que combina Grounding DINO 1.5 y YOLOv11 con el modelo SAM 2.1, logrando resultados de vanguardia tanto en modo cero disparos como supervisado al superar las redes de segmentación tradicionales sin necesidad de reentrenar el modelo de segmentación.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

El documento presenta DOCFORGE-BENCH, el primer benchmark unificado de cero disparos para la detección de falsificaciones documentales, que revela que el principal obstáculo para el despliegue práctico no es la capacidad de discriminación de los modelos, sino una falla de calibración crítica causada por la baja proporción de píxeles alterados, la cual puede mitigarse mediante la adaptación del umbral sin necesidad de reentrenamiento.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

← Anterior Siguiente →