cs.CV artículos | Gist.Science

ReMoT: Reinforcement Learning with Motion Contrast Triplets

El artículo presenta ReMoT, un paradigma de entrenamiento unificado que combina un marco automático para generar un gran conjunto de datos de tripletes de contraste de movimiento (ReMoT-16K) con la optimización de políticas relativas grupales (GRPO), logrando un rendimiento superior en la consistencia espacio-temporal de los modelos de lenguaje visuales y estableciendo un nuevo estándar en la discriminación de atributos de movimiento.

Cong Wan, Zeyu Guo, Jiangyang Li + 5 more2026-03-03💻 cs

OPGAgent: An Agent for Auditable Dental Panoramic X-ray Interpretation

El artículo presenta OPGAgent, un sistema de agentes multi-herramienta que mejora la precisión y auditabilidad de la interpretación de radiografías panorámicas dentales mediante módulos especializados y un mecanismo de consenso, superando a los modelos de lenguaje-vision actuales en las nuevas métricas del OPG-Bench.

Zhaolin Yu, Litao Yang, Ben Babicka + 7 more2026-03-03🤖 cs.AI

DreamWorld: Unified World Modeling in Video Generation

DreamWorld es un marco unificado que mejora la generación de video mediante un paradigma de modelado mundial conjunto que integra conocimientos complementarios y estrategias de entrenamiento e inferencia avanzadas para lograr una coherencia espacial, temporal y semántica superior.

Boming Tan, Xiangdong Zhang, Ning Liao + 5 more2026-03-03💻 cs

High Dynamic Range Imaging Based on an Asymmetric Event-SVE Camera System

Este trabajo presenta un sistema de imagen de alto rango dinámico (HDR) que integra de forma co-diseñada una cámara con exposición espacialmente variable (SVE) y un sensor de eventos en una configuración asimétrica, utilizando un marco de alineación cruzada y una red de reconstrucción para superar las limitaciones de sobreexposición y mejorar la recuperación de brillos y la fidelidad de los bordes en entornos de iluminación extrema.

Pengju Sun, Banglei Guan, Jing Tao + 4 more2026-03-03💻 cs

Benchmarking Few-shot Transferability of Pre-trained Models with Improved Evaluation Protocols

Este trabajo presenta FEWTRANS, un benchmark integral con un protocolo de evaluación riguroso que revela que la elección del modelo preentrenado y el ajuste fino completo son más determinantes para el aprendizaje de transferencia con pocos ejemplos que los métodos de adaptación sofisticados, mientras también cuantifica el colapso de rendimiento de los modelos multimodales en dominios especializados.

Xu Luo, Ji Zhang, Lianli Gao + 2 more2026-03-03🤖 cs.LG

U-VLM: Hierarchical Vision Language Modeling for Report Generation

El artículo presenta U-VLM, un modelo jerárquico de visión y lenguaje que mejora la generación de informes radiológicos en imágenes 3D mediante un entrenamiento progresivo y la inyección de características visuales en múltiples capas, logrando un rendimiento superior al estado del arte con un decodificador pequeño sin necesidad de grandes modelos de lenguaje preentrenados.

Pengcheng Shi, Minghui Zhang, Kehan Song + 3 more2026-03-03💻 cs

Analyzing Physical Adversarial Example Threats to Machine Learning in Election Systems

Este artículo presenta un marco probabilístico y una evaluación empírica de 144.000 ejemplos físicos adversarios para cuantificar cómo las manipulaciones de boletas mediante ataques de aprendizaje automático podrían alterar los resultados de las elecciones en EE. UU., revelando además una brecha crítica entre la efectividad de estos ataques en entornos digitales y físicos.

Khaleque Md Aashiq Kamal, Surya Eada, Aayushi Verma + 4 more2026-03-03🤖 cs.LG

TokenCom: Vision-Language Model for Multimodal and Multitask Token Communications

El artículo presenta TaiChi, un marco de modelo de visión-idioma diseñado para comunicaciones de tokens que supera las limitaciones actuales mediante un tokenizador visual dual, una red de atención bilateral y un proyector basado en KAN, logrando una alineación multimodal precisa y un rendimiento superior en un sistema de comunicaciones multitarea.

Feibo Jiang, Siwei Tu, Li Dong + 5 more2026-03-03🔢 math

RAISE: Requirement-Adaptive Evolutionary Refinement for Training-Free Text-to-Image Alignment

RAISE es un marco de refinamiento evolutivo sin entrenamiento que mejora la alineación texto-imagen mediante una escala de prueba adaptativa y basada en requisitos, optimizando el esfuerzo computacional y reduciendo significativamente el número de muestras y llamadas a modelos de lenguaje visuales necesarios para lograr resultados de vanguardia.

Liyao Jiang, Ruichen Chen, Chao Gao + 1 more2026-03-03🤖 cs.AI

Random Wins All: Rethinking Grouping Strategies for Vision Tokens

Este trabajo propone que una estrategia de agrupación aleatoria simple y rápida para los tokens de visión es suficiente para superar a métodos de agrupación complejos y diseñados cuidadosamente, siempre que se mantengan la información posicional, la diversidad de características, el campo receptivo global y un patrón de agrupación fijo.

Qihang Fan, Yuang Ai, Huaibo Huang + 1 more2026-03-03💻 cs

ArtiFixer: Enhancing and Extending 3D Reconstruction with Auto-Regressive Diffusion Models

El artículo presenta ArtiFixer, un método de dos etapas que utiliza un modelo generativo bidireccional entrenado con una estrategia de mezcla de opacidad y un modelo autoregresivo distilado para superar las limitaciones de escalabilidad y calidad en la reconstrucción 3D, logrando así una síntesis de vistas novedosas superior a los métodos existentes en áreas no observadas.

Riccardo de Lutio, Tobias Fischer, Yen-Yu Chang + 7 more2026-03-03🤖 cs.LG

COG: Confidence-aware Optimal Geometric Correspondence for Unsupervised Single-reference Novel Object Pose Estimation

El artículo presenta COG, un marco no supervisado para la estimación de la pose 6DoF de objetos novedosos que mejora la robustez al formular la correspondencia geométrica como un problema de transporte óptimo consciente de la confianza, integrando priores semánticos para lograr un rendimiento comparable o superior a los métodos supervisados.

Yuchen Che, Jingtu Wu, Hao Zheng + 1 more2026-03-03💻 cs

M $^2$ : Dual-Memory Augmentation for Long-Horizon Web Agents via Trajectory Summarization and Insight Retrieval

El artículo presenta M $^2$ , un marco de memoria dual sin entrenamiento que mejora la navegación web a largo plazo mediante la síntesis de trayectorias y la recuperación de conocimientos, logrando aumentos significativos en la tasa de éxito y reducciones en el uso de tokens en modelos multimodales.

Dawei Yan, Haokui Zhang, Guangda Huzhang + 8 more2026-03-03💻 cs

Hierarchical Classification for Improved Histopathology Image Analysis

Este estudio presenta HiClass, un marco de clasificación jerárquica basado en aprendizaje de instancias múltiples que mejora el análisis de imágenes de patología de diapositivas completas mediante la integración bidireccional de características y funciones de pérdida personalizadas para optimizar simultáneamente la clasificación de categorías gruesas y finas.

Keunho Byeon, Jinsol Song, Seong Min Hong + 2 more2026-03-03💻 cs

What Do Visual Tokens Really Encode? Uncovering Sparsity and Redundancy in Multimodal Large Language Models

Este trabajo introduce la herramienta EmbedLens para revelar que los tokens visuales en los modelos multimodales presentan una marcada esparsidad semántica, donde solo un subconjunto "vivo" contiene información significativa, lo que demuestra que la mayoría de las computaciones visuales internas son redundantes y que la inyección directa en capas intermedias del LLM es suficiente para tareas complejas, permitiendo así arquitecturas más eficientes mediante la poda selectiva y la reducción de cálculos.

Yingqi Fan, Junlong Tong, Anhao Zhao + 1 more2026-03-03🤖 cs.AI

Multimodal Adaptive Retrieval Augmented Generation through Internal Representation Learning

El artículo presenta MMA-RAG, un sistema de generación aumentada por recuperación multimodal que utiliza representaciones internas aprendidas para decidir dinámicamente cuándo integrar información externa, mejorando así la precisión y reduciendo las alucinaciones en la respuesta a preguntas visuales.

Ruoshuang Du, Xin Sun, Qiang Liu + 4 more2026-03-03🤖 cs.LG

MLLM-4D: Towards Visual-based Spatial-Temporal Intelligence

El artículo presenta MLLM-4D, un marco integral que supera las limitaciones actuales de los modelos de lenguaje multimodal mediante la creación de nuevos conjuntos de datos y una estrategia de entrenamiento post-SFT con GRPO, permitiendo que estos modelos logren un razonamiento y comprensión espaciotemporal de vanguardia a partir únicamente de entradas visuales 2D.

Xingyilang Yin, Chengzhengxu Li, Jiahao Chang + 2 more2026-03-03💻 cs

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

El artículo presenta Vision-TTT, un nuevo modelo de visión que integra el entrenamiento en tiempo de prueba (TTT) con estrategias bidireccionales y módulos convolucionales para lograr representaciones visuales eficientes y expresivas que superan a los Transformers de visión tradicionales en precisión, velocidad y uso de memoria.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

Jano es un marco de trabajo sin entrenamiento que acelera la generación de modelos de difusión mediante la identificación temprana de patrones de convergencia heterogéneos y la asignación adaptativa de recursos, logrando una velocidad de hasta 2,4 veces sin comprometer la calidad.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

El artículo presenta Mesh-Pro, un marco de aprendizaje por refuerzo asíncrono que utiliza la optimización de preferencias de ranking guiada por ventaja (ARPO) junto con una tokenización de malla diagonalmente consciente y una recompensa basada en rayos para generar mallas cuadrangulares de estilo artístico con mayor eficiencia y calidad que los métodos existentes.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

← Anterior Siguiente →

cs.CV