cs.CV artículos | Gist.Science

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

El artículo presenta M3GCLR, un marco de aprendizaje contrastivo basado en teoría de juegos que aborda las limitaciones de los métodos existentes mediante un modelo de juego infinito de datos esqueléticos y un optimizador de equilibrio dual, logrando un rendimiento superior en la reconocimiento de acciones basado en esqueletos.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

El artículo presenta MIL-PF, un marco escalable que combina codificadores de modelos fundacionales congelados con un cabezal de aprendizaje de múltiples instancias ligero para lograr un rendimiento de clasificación de mamografías de vanguardia de manera eficiente, evitando el costoso ajuste fino de modelos completos.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

SinGeo es un marco innovador que utiliza un aprendizaje discriminativo dual y una estrategia de aprendizaje curricular para permitir que un único modelo logre una geo-localización cruzada robusta y adaptable a diversas condiciones de campo de visión, superando el estado del arte en múltiples conjuntos de datos.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

El artículo presenta EventVGGT, un marco innovador que mejora la estimación de profundidad basada en eventos mediante la distilación de conocimientos espaciotemporales y geométricos del modelo VGGT, superando las limitaciones de consistencia temporal y precisión de los métodos anteriores al tratar las secuencias de eventos como videos coherentes en lugar de fotogramas independientes.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

El artículo presenta MIDAS, un marco de esteganografía sin entrenamiento basado en difusión que permite ocultar múltiples imágenes con control de acceso específico para cada usuario mediante fusión a nivel latente, superando a los métodos existentes en calidad, robustez y resistencia al análisis.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

El informe presenta el desafío ICDAR 2025 sobre traducción automática de imágenes de documentos, que reunió a 69 equipos para evaluar sistemas end-to-end en dos pistas (con y sin OCR) y concluye que los enfoques de modelos grandes establecen un nuevo paradigma prometedor para la traducción de documentos con diseños complejos.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

El artículo presenta YOLO-NAS-Bench, el primer benchmark sustituto diseñado para la búsqueda de arquitecturas de YOLO, que emplea un mecanismo de autoevolución para refinar un predictor basado en LightGBM y descubrir arquitecturas de detección de objetos que superan a los modelos oficiales en el conjunto de datos COCO-mini.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Este artículo presenta el modelo de difusión totalmente convolucional (FCDM), una arquitectura basada en ConvNeXt que demuestra ser una alternativa altamente eficiente y competitiva a los modelos basados en transformadores, logrando un rendimiento comparable con la mitad de las operaciones de punto flotante, menos pasos de entrenamiento y la capacidad de entrenarse en sistemas de solo 4 GPUs.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius Azevedo2026-03-11🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

El artículo presenta RiO-DETR, el primer transformador de detección en tiempo real para objetos orientados, que supera los desafíos de la periodicidad angular y la convergencia mediante diseños nativos como la estimación de ángulos impulsada por contenido y una refinación periódica desacoplada, logrando un nuevo equilibrio entre velocidad y precisión en conjuntos de datos de detección aérea.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan Sun2026-03-11💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

El artículo presenta PromptDLA, un marco de análisis de diseño de documentos consciente del dominio que utiliza conocimientos descriptivos como pistas para integrar priores específicos en el entrenamiento, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos al abordar las variaciones estructurales entre diferentes dominios.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

El artículo presenta CIGPose, un marco basado en redes neuronales gráficas e intervención causal que elimina las correlaciones espurias del contexto visual mediante la sustitución de representaciones de keypoints confundidas, logrando así un nuevo estado del arte en la estimación de poses corporales completas con mayor robustez y plausibilidad anatómica.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming Guo2026-03-11💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

El artículo presenta MetaDAT, un enfoque de predicción de trayectorias que combina un marco de meta-aprendizaje para la pre-entrenación con un mecanismo de actualización de modelo adaptativo a los datos durante la prueba, logrando así una adaptación superior y robusta ante cambios de distribución en escenarios complejos.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru Xue2026-03-11💻 cs

Open-World Motion Forecasting

Este trabajo introduce el primer marco de pronóstico de movimiento de clase incremental en un entorno abierto que, mediante estrategias de autoetiquetado y muestreo de replay, mitiga el olvido catastrófico para predecir trayectorias de agentes dinámicos directamente desde imágenes de cámara, permitiendo la adaptación continua de sistemas de conducción autónoma a nuevas clases de objetos.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav Valada2026-03-11🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

El artículo presenta GIIM, un enfoque novedoso basado en grafos para el diagnóstico médico que mejora la precisión y robustez al modelar simultáneamente las dependencias intra e intervistas de las anomalías y manejar eficazmente los datos incompletos.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven Truong2026-03-11💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

El artículo presenta OncoAgent, un agente de IA consciente de las directrices clínicas que genera automáticamente volúmenes tumorales en radioterapia sin necesidad de reentrenamiento, logrando un rendimiento comparable a modelos supervisados y una mayor preferencia clínica gracias a su capacidad de adaptación inmediata a diferentes guías y sitios anatómicos.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

El artículo presenta EvoDriveVLA, un marco innovador de destilación colaborativa percepción-planificación que integra restricciones perceptuales autoancladas y optimización de trayectorias guiada por oráculos para superar las limitaciones de los modelos VLA en la conducción autónoma y lograr un rendimiento superior tanto en evaluaciones de circuito abierto como cerrado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

El artículo presenta TopoOR, un nuevo paradigma que representa las salas de operaciones mediante estructuras topológicas de alto orden para preservar las relaciones grupales y la geometría multimodal, superando así las limitaciones de los grafos tradicionales y mejorando tareas críticas como la detección de violaciones de esterilidad y la predicción de fases quirúrgicas.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart Bastian2026-03-11💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Este artículo presenta el Corpus Patrologia Graeca, el primer recurso abierto a gran escala que combina reconocimiento óptico de caracteres (OCR) y anotación lingüística para las ediciones griegas del siglo XIX, logrando una precisión superior a la de los sistemas existentes y proporcionando un corpus de seis millones de tokens para el entrenamiento de modelos futuros.

Chahan Vidal-Gorène (CJM, LIPN), Bastien Kindt2026-03-11💻 cs

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

El artículo presenta OmniEarth, un nuevo benchmark diseñado para evaluar de manera sistemática y rigurosa las capacidades de percepción, razonamiento y robustez de los modelos de visión y lenguaje en tareas de observación terrestre, revelando mediante una prueba ciega y un conjunto de datos diverso que los modelos actuales aún enfrentan desafíos significativos en contextos geoespaciales complejos.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo Yang2026-03-11💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

El artículo presenta PruneSID, un método sin entrenamiento que optimiza la compresión de tokens visuales en modelos de lenguaje-vision mediante un análisis de componentes semánticos y supresión no máxima intra-grupo, logrando un rendimiento de vanguardia y una aceleración significativa al preservar la información esencial y diversa.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie Pei2026-03-11💻 cs

← Anterior Siguiente →