cs.CV artículos | Gist.Science

The Impact of Preprocessing Methods on Racial Encoding and Model Robustness in CXR Diagnosis

El estudio demuestra que el recorte de los pulmones mediante cuadros delimitadores es una estrategia eficaz para reducir el aprendizaje de atajos raciales en modelos de diagnóstico de radiografías de tórax sin comprometer su precisión diagnóstica.

Dishantkumar Sutariya, Eike Petersen2026-03-06🤖 cs.LG

Generic Camera Calibration using Blurry Images

Este artículo presenta un método para la calibración de cámaras genéricas utilizando imágenes borrosas, que estima simultáneamente la ubicación de las características y las funciones de dispersión del punto mediante restricciones geométricas y un modelo de iluminación paramétrico local para resolver la ambigüedad traslacional.

Zezhun Shi2026-03-06💻 cs

Mario: Multimodal Graph Reasoning with Large Language Models

El paper presenta Mario, un marco unificado que permite el razonamiento en grafos multimodales mediante grandes modelos de lenguaje al abordar la consistencia intermodal y la preferencia heterogénea de modalidades a través de un diseño de modelo visión-idioma condicionado por grafos y un ajuste de instrucciones adaptativo.

Yuanfu Sun, Kang Li, Pengkang Guo + 2 more2026-03-06💻 cs

Logi-PAR: Logic-Infused Patient Activity Recognition via Differentiable Rule

Logi-PAR es el primer marco de reconocimiento de actividades de pacientes que integra reglas diferenciables aprendidas y fusión de hechos contextuales para inferir riesgos mediante lógica explícita, ofreciendo explicaciones auditables y superando el estado del arte en benchmarks clínicos.

Muhammad Zarar, MingZheng Zhang, Xiaowang Zhang + 3 more2026-03-06🤖 cs.AI

Semantic Class Distribution Learning for Debiasing Semi-Supervised Medical Image Segmentation

Este trabajo presenta el marco SCDL, un módulo plug-and-play que mitiga los sesgos de supervisión y representación en la segmentación semisupervisada de imágenes médicas mediante el aprendizaje de distribuciones de características condicionales a la clase, logrando mejoras significativas en el rendimiento, especialmente para clases minoritarias, en los conjuntos de datos Synapse y AMOS.

Yingxue Su, Yiheng Zhong, Keying Zhu + 5 more2026-03-06💻 cs

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

El artículo presenta SPyCer, una red neuronal semi-supervisada y guiada por principios físicos que utiliza imágenes satelitales y modelos de balance energético para estimar con mayor precisión y coherencia espacial la temperatura del aire cerca de la superficie, superando las limitaciones de las redes de sensores terrestres dispersos.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

Digital Twin Driven Textile Classification and Foreign Object Recognition in Automated Sorting Systems

Este trabajo presenta un sistema robótico de clasificación textil impulsado por gemelos digitales que integra percepción multimodal y modelos de lenguaje visual para la detección de objetos extraños y la clasificación de prendas en entornos industriales automatizados, demostrando la viabilidad de esta tecnología mediante la evaluación de nueve modelos VLM en escenarios reales.

Serkan Ergun, Tobias Mitterer, Hubert Zangl2026-03-06💻 cs

ICHOR: A Robust Representation Learning Approach for ASL CBF Maps with Self-Supervised Masked Autoencoders

El artículo presenta ICHOR, un enfoque de aprendizaje auto-supervisado basado en autoencoders enmascarados que utiliza un vasto conjunto de datos de imágenes ASL para generar representaciones robustas y generalizables que superan a los métodos existentes en tareas de clasificación diagnóstica y predicción de calidad de mapas de flujo sanguíneo cerebral.

Xavier Beltran-Urbano, Yiran Li, Xinglin Zeng + 10 more2026-03-06🔬 physics

CATNet: Collaborative Alignment and Transformation Network for Cooperative Perception

El artículo presenta CATNet, un marco adaptativo que mejora la percepción cooperativa mediante la sincronización de flujos asíncronos, la eliminación de ruido mediante transformadas wavelet y la selección dinámica de características para superar los desafíos de latencia temporal y ruido en entornos de tráfico complejos.

Gong Chen, Chaokun Zhang, Tao Tang + 3 more2026-03-06💻 cs

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

El artículo presenta Wiki-R1, un marco de aprendizaje por refuerzo basado en un currículo de generación de datos y muestreo que incentiva el razonamiento multimodal para la VQA basada en conocimiento, logrando nuevos resultados de vanguardia en los benchmarks Encyclopedic VQA e InfoSeek al cerrar la brecha entre el preentrenamiento y la distribución objetivo.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudio demuestra que el rendimiento óptimo en la detección de cambios de distribución en Vision Transformers se logra combinando el análisis de capas intermedias y módulos específicos, donde la red feedforward es superior ante grandes desplazamientos de distribución y la atención multi-cabeza normalizada lo es ante desplazamientos débiles.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

El artículo presenta WebChain, el conjunto de datos de código abierto más grande de trazas de interacción web anotadas por humanos, diseñado para acelerar la investigación reproducible en agentes web mediante un enfoque de alineación triple y una estrategia de entrenamiento dual que logra un rendimiento superior en benchmarks de interfaces gráficas.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

El artículo presenta Fusion4CA, un método que mejora la detección 3D de objetos al explotar exhaustivamente la información visual mediante módulos de alineación contrastiva, una rama auxiliar de cámara y adaptadores cognitivos, logrando un rendimiento superior al estado del arte en el conjunto de datos nuScenes y en entornos lunares simulados con un aumento mínimo de parámetros.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

El artículo presenta SpectralCache, un marco de caché sin entrenamiento que acelera la inferencia de los Transformadores de Difusión (DiT) mediante la gestión inteligente de errores a lo largo de las dimensiones temporal, de profundidad y de frecuencia, logrando una aceleración del 2,46x en FLUX.1-schnell manteniendo una calidad de imagen comparable a los métodos existentes.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

El artículo presenta Dark3R, un marco de aprendizaje que utiliza destilación de modelos fundacionales y pares de imágenes ruidosas-limpias para lograr una estructura a partir del movimiento y síntesis de vistas novedosas robustas en condiciones de oscuridad extrema (SNR < -4 dB), sin necesidad de supervisión 3D.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier es un marco de navegación libre de entrenamiento que integra modelos de visión y lenguaje para identificar y alcanzar fronteras semánticas como subobjetivos, permitiendo una navegación eficiente en entornos abiertos sin necesidad de reconstrucción 3D densa, entrenamiento de políticas o ajuste fino.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Este trabajo presenta ORMOT, una nueva tarea de seguimiento multiobjeto referencial omnidireccional, junto con el conjunto de datos ORSet y el marco ORTrack basado en modelos de visión-lingüística a gran escala, para superar las limitaciones del campo de visión de las cámaras convencionales y mejorar el seguimiento de objetos descritos por lenguaje en entornos panorámicos.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

El artículo presenta Fusion-CAM, un marco novedoso que unifica los mapas de activación basados en gradientes y en regiones mediante un mecanismo de fusión adaptativo para generar explicaciones visuales más robustas, precisas y completas de las decisiones de las redes neuronales convolucionales.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Este artículo presenta CliReg, un algoritmo determinista basado en la búsqueda de cliques máximos que sustituye a RANSAC para la validación de cierres de bucle en SLAM con LiDAR 3D, logrando una mayor robustez, menor error de pose y una detección más fiable en condiciones de ruido y ambigüedad.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Este artículo presenta un sistema basado en rastreo de múltiples objetos y el detector YOLOv11 para analizar la locomoción de peces a partir de videos y así monitorear su salud, validado en un conjunto de datos de peces de arroz de Sulawesi que será publicado.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

← Anterior Siguiente →