cs.CV artículos | Gist.Science

Wiki-R1: Incentivizing Multimodal Reasoning for Knowledge-based VQA via Data and Sampling Curriculum

El artículo presenta Wiki-R1, un marco de aprendizaje por refuerzo basado en un currículo de generación de datos y muestreo que incentiva el razonamiento multimodal para la VQA basada en conocimiento, logrando nuevos resultados de vanguardia en los benchmarks Encyclopedic VQA e InfoSeek al cerrar la brecha entre el preentrenamiento y la distribución objetivo.

Shan Ning, Longtian Qiu, Xuming He2026-03-06💻 cs

Layer by layer, module by module: Choose both for optimal OOD probing of ViT

Este estudio demuestra que el rendimiento óptimo en la detección de cambios de distribución en Vision Transformers se logra combinando el análisis de capas intermedias y módulos específicos, donde la red feedforward es superior ante grandes desplazamientos de distribución y la atención multi-cabeza normalizada lo es ante desplazamientos débiles.

Ambroise Odonnat, Vasilii Feofanov, Laetitia Chapel + 2 more2026-03-06🤖 cs.LG

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

El artículo presenta WebChain, el conjunto de datos de código abierto más grande de trazas de interacción web anotadas por humanos, diseñado para acelerar la investigación reproducible en agentes web mediante un enfoque de alineación triple y una estrategia de entrenamiento dual que logra un rendimiento superior en benchmarks de interfaces gráficas.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Fusion4CA: Boosting 3D Object Detection via Comprehensive Image Exploitation

El artículo presenta Fusion4CA, un método que mejora la detección 3D de objetos al explotar exhaustivamente la información visual mediante módulos de alineación contrastiva, una rama auxiliar de cámara y adaptadores cognitivos, logrando un rendimiento superior al estado del arte en el conjunto de datos nuScenes y en entornos lunares simulados con un aumento mínimo de parámetros.

Kang Luo, Xin Chen, Yangyi Xiao + 1 more2026-03-06💻 cs

Frequency-Aware Error-Bounded Caching for Accelerating Diffusion Transformers

El artículo presenta SpectralCache, un marco de caché sin entrenamiento que acelera la inferencia de los Transformadores de Difusión (DiT) mediante la gestión inteligente de errores a lo largo de las dimensiones temporal, de profundidad y de frecuencia, logrando una aceleración del 2,46x en FLUX.1-schnell manteniendo una calidad de imagen comparable a los métodos existentes.

Guandong Li2026-03-06💻 cs

Dark3R: Learning Structure from Motion in the Dark

El artículo presenta Dark3R, un marco de aprendizaje que utiliza destilación de modelos fundacionales y pares de imágenes ruidosas-limpias para lograr una estructura a partir del movimiento y síntesis de vistas novedosas robustas en condiciones de oscuridad extrema (SNR < -4 dB), sin necesidad de supervisión 3D.

Andrew Y Guo, Anagh Malik, SaiKiran Tedla + 7 more2026-03-06💻 cs

OpenFrontier: General Navigation with Visual-Language Grounded Frontiers

OpenFrontier es un marco de navegación libre de entrenamiento que integra modelos de visión y lenguaje para identificar y alcanzar fronteras semánticas como subobjetivos, permitiendo una navegación eficiente en entornos abiertos sin necesidad de reconstrucción 3D densa, entrenamiento de políticas o ajuste fino.

Esteban Padilla, Boyang Sun, Marc Pollefeys + 1 more2026-03-06💻 cs

ORMOT: A Dataset and Framework for Omnidirectional Referring Multi-Object Tracking

Este trabajo presenta ORMOT, una nueva tarea de seguimiento multiobjeto referencial omnidireccional, junto con el conjunto de datos ORSet y el marco ORTrack basado en modelos de visión-lingüística a gran escala, para superar las limitaciones del campo de visión de las cámaras convencionales y mejorar el seguimiento de objetos descritos por lenguaje en entornos panorámicos.

Sijia Chen, Zihan Zhou, Yanqiu Yu + 2 more2026-03-06💻 cs

Fusion-CAM: Integrating Gradient and Region-Based Class Activation Maps for Robust Visual Explanations

El artículo presenta Fusion-CAM, un marco novedoso que unifica los mapas de activación basados en gradientes y en regiones mediante un mecanismo de fusión adaptativo para generar explicaciones visuales más robustas, precisas y completas de las decisiones de las redes neuronales convolucionales.

Hajar Dekdegue, Moncef Garouani, Josiane Mothe + 1 more2026-03-06💻 cs

Loop Closure via Maximal Cliques in 3D LiDAR-Based SLAM

Este artículo presenta CliReg, un algoritmo determinista basado en la búsqueda de cliques máximos que sustituye a RANSAC para la validación de cierres de bucle en SLAM con LiDAR 3D, logrando una mayor robustez, menor error de pose y una detección más fiable en condiciones de ruido y ambigüedad.

Javier Laserna, Saurabh Gupta, Oscar Martinez Mozos + 2 more2026-03-06💻 cs

Video-based Locomotion Analysis for Fish Health Monitoring

Este artículo presenta un sistema basado en rastreo de múltiples objetos y el detector YOLOv11 para analizar la locomoción de peces a partir de videos y así monitorear su salud, validado en un conjunto de datos de peces de arroz de Sulawesi que será publicado.

Timon Palm, Clemens Seibold, Anna Hilsmann + 1 more2026-03-06💻 cs

MobileFetalCLIP: Selective Repulsive Knowledge Distillation for Mobile Fetal Ultrasound Analysis

El artículo presenta MobileFetalCLIP, un modelo de aprendizaje profundo ligero que utiliza una nueva técnica de destilación de conocimiento repulsivo selectivo para superar las limitaciones de capacidad de los modelos fundacionales, logrando un rendimiento superior en el análisis de ultrasonidos fetales en dispositivos móviles de bajo costo.

Numan Saeed, Fadillah Adamsyah Maani, Mohammad Yaqub2026-03-06🤖 cs.AI

RelaxFlow: Text-Driven Amodal 3D Generation

El artículo presenta RelaxFlow, un marco de generación 3D amodal impulsado por texto que, mediante un mecanismo de relajación y un módulo de consenso de múltiples priores, completa las regiones ocultas de un objeto siguiendo un prompt textual sin comprometer la fidelidad de la observación original.

Jiayin Zhu, Guoji Fu, Xiaolu Liu + 3 more2026-03-06🤖 cs.AI

SAIL: Similarity-Aware Guidance and Inter-Caption Augmentation-based Learning for Weakly-Supervised Dense Video Captioning

El artículo presenta SAIL, un enfoque para la descripción densa de videos débilmente supervisada que mejora la localización temporal y la generación de subtítulos mediante máscaras sensibles a la similitud semántica y una estrategia de aumento de datos basada en LLMs para generar subtítulos sintéticos.

Ye-Chan Kim, SeungJu Cha, Si-Woo Kim + 3 more2026-03-06🤖 cs.AI

Planning in 8 Tokens: A Compact Discrete Tokenizer for Latent World Model

El artículo presenta CompACT, un tokenizador discreto que comprime las observaciones en solo 8 tokens para permitir una planificación eficiente en tiempo real mediante modelos de mundo latente, superando las limitaciones computacionales de los enfoques anteriores.

Dongwon Kim, Gawon Seo, Jinsung Lee + 2 more2026-03-06🤖 cs.AI

NaiLIA: Multimodal Nail Design Retrieval Based on Dense Intent Descriptions and Palette Queries

El artículo presenta NaiLIA, un método de recuperación multimodal de diseños de uñas que alinea descripciones de intención densas y consultas de paleta de colores, superando a los métodos existentes mediante una nueva función de pérdida y validado en un nuevo conjunto de datos con más de 10.000 imágenes anotadas.

Kanon Amemiya, Daichi Yashima, Kei Katsumata + 4 more2026-03-06💻 cs

RealWonder: Real-Time Physical Action-Conditioned Video Generation

RealWonder es el primer sistema en tiempo real que genera videos condicionados por acciones físicas a partir de una sola imagen, utilizando simulación física como puente intermedio para lograr una interacción fluida con objetos rígidos, cuerpos deformables, fluidos y materiales granulares.

Wei Liu, Ziyu Chen, Zizhang Li + 3 more2026-03-06🤖 cs.AI

Beyond Scattered Acceptance: Fast and Coherent Inference for DLMs via Longest Stable Prefixes

Este artículo presenta el programador Longest Stable Prefix (LSP), un método de inferencia sin entrenamiento que acelera hasta 3,4 veces la generación de texto en Modelos de Lenguaje de Difusión al reemplazar la aceptación fragmentada de tokens por la absorción monolítica de prefijos estables, optimizando así la localidad de la memoria y reduciendo los llamados al modelo sin comprometer la calidad.

Pengxiang Li, Joey Tsai, Hongwei Xue + 2 more2026-03-06💻 cs

EdgeDAM: Real-time Object Tracking for Mobile Devices

El artículo presenta EdgeDAM, un marco de seguimiento de objetos ligero y en tiempo real para dispositivos móviles que mejora la robustez ante oclusiones y distractores mediante una memoria de distractor consciente de doble búfer y un mecanismo de estabilización de caja retenida, logrando un alto rendimiento en benchmarks como DiDi y en hardware como el iPhone 15.

Syed Muhammad Raza, Syed Murtaza Hussain Abidi, Khawar Islam + 2 more2026-03-06💻 cs

HALP: Detecting Hallucinations in Vision-Language Models without Generating a Single Token

El estudio "HALP" demuestra que es posible detectar la alucinación en modelos de visión-idioma con alta precisión mediante el análisis de sus representaciones internas en una sola pasada de adelante, sin necesidad de generar ningún token, lo que permite intervenciones tempranas para mejorar la seguridad y la eficiencia.

Sai Akhil Kogilathota, Sripadha Vallabha E G, Luzhe Sun + 1 more2026-03-06💻 cs

← Anterior Siguiente →