cs.CV artículos | Gist.Science

Vision-TTT: Efficient and Expressive Visual Representation Learning with Test-Time Training

El artículo presenta Vision-TTT, un nuevo modelo de visión que integra el entrenamiento en tiempo de prueba (TTT) con estrategias bidireccionales y módulos convolucionales para lograr representaciones visuales eficientes y expresivas que superan a los Transformers de visión tradicionales en precisión, velocidad y uso de memoria.

Quan Kong, Yanru Xiao, Yuhao Shen + 1 more2026-03-03💻 cs

Jano: Adaptive Diffusion Generation with Early-stage Convergence Awareness

Jano es un marco de trabajo sin entrenamiento que acelera la generación de modelos de difusión mediante la identificación temprana de patrones de convergencia heterogéneos y la asignación adaptativa de recursos, logrando una velocidad de hasta 2,4 veces sin comprometer la calidad.

Yuyang Chen, Linqian Zeng, Yijin ZHou + 2 more2026-03-03💻 cs

Mesh-Pro: Asynchronous Advantage-guided Ranking Preference Optimization for Artist-style Quadrilateral Mesh Generation

El artículo presenta Mesh-Pro, un marco de aprendizaje por refuerzo asíncrono que utiliza la optimización de preferencias de ranking guiada por ventaja (ARPO) junto con una tokenización de malla diagonalmente consciente y una recompensa basada en rayos para generar mallas cuadrangulares de estilo artístico con mayor eficiencia y calidad que los métodos existentes.

Zhen Zhou, Jian Liu, Biwen Lei + 10 more2026-03-03💻 cs

TP-Spikformer: Token Pruned Spiking Transformer

El artículo presenta TP-Spikformer, un método de poda de tokens para transformadores de redes neuronales de picos que reduce la carga computacional y de almacenamiento mediante un criterio heurístico de retención de información y una estrategia de parada temprana, manteniendo un rendimiento competitivo en diversas tareas sin necesidad de reentrenamiento.

Wenjie Wei, Xiaolong Zhou, Malu Zhang + 8 more2026-03-03💻 cs

CaptionFool: Universal Image Captioning Model Attacks

El artículo presenta CaptionFool, un ataque adversarial universal capaz de engañar a modelos de descripción de imágenes de última generación modificando mínimamente la entrada para generar descripciones arbitrarias y ofensivas que eluden los filtros de moderación.

Swapnil Parekh2026-03-03🤖 cs.AI

RAFM: Retrieval-Augmented Flow Matching for Unpaired CBCT-to-CT Translation

Este trabajo presenta RAFM, un método de traducción no pareada de CBCT a CT que mejora la generación de CT sintéticos mediante la integración de un mecanismo de recuperación guiado por DINOv3 en el flujo rectificado, logrando así un acoplamiento más estable y resultados superiores en tareas de dosimetría radioterápica.

Xianhao Zhou, Jianghao Wu, Lanfeng Zhong + 4 more2026-03-03💻 cs

Multiple Inputs and Mixwd data for Alzheimer's Disease Classification Based on 3D Vision Transformer

Este estudio presenta el MIMD-3DVT, un nuevo modelo basado en transformadores de visión 3D que integra múltiples regiones de interés de imágenes de resonancia magnética con datos demográficos y cognitivos para lograr una clasificación precisa del Alzheimer con un 97,14% de exactitud, superando a los métodos actuales.

Juan A. Castro-Silva, Maria N. Moreno Garcia, Diego H. Peluffo-Ordoñez2026-03-03💻 cs

Advancing Multimodal Judge Models through a Capability-Oriented Benchmark and MCTS-Driven Data Generation

Este trabajo presenta M-JudgeBench, un benchmark orientado a capacidades de diez dimensiones para evaluar modelos multimodales como jueces, y propone Judge-MCTS, un marco de generación de datos basado en Búsqueda de Árbol Monte Carlo (MCTS) para entrenar modelos de juicio robustos denominados M-Judger.

Zeyu Chen, Huanjin Yao, Ziwang Zhao + 1 more2026-03-03🤖 cs.AI

Weakly Supervised Video Anomaly Detection with Anomaly-Connected Components and Intention Reasoning

El artículo presenta LAS-VAD, un nuevo marco para la detección de anomalías en video con supervisión débil que integra mecanismos de componentes conectados de anomalías y razonamiento de intenciones, junto con información de atributos, para superar las limitaciones de la falta de anotaciones a nivel de fotograma y lograr un rendimiento superior en conjuntos de datos de referencia.

Yu Wang, Shengjie Zhao2026-03-03💻 cs

Geometry OR Tracker: Universal Geometric Operating Room Tracking

El artículo presenta Geometry OR Tracker, un sistema de seguimiento 3D universal para quirófanos que corrige la inconsistencia geométrica entre múltiples vistas mediante una rectificación métrica para lograr un marco de coordenadas global coherente, mejorando significativamente la precisión del rastreo y reduciendo el error de profundidad en más de 30 veces en comparación con la calibración estándar.

Yihua Shao, Kang Chen, Feng Xue + 6 more2026-03-03🤖 cs.AI

MIDAS: Multi-Image Dispersion and Semantic Reconstruction for Jailbreaking MLLMs

El artículo presenta MIDAS, un marco de jailbreak multimodal que supera las defensas de los modelos de lenguaje multimodal avanzados al dispersar la semántica dañina en múltiples imágenes y reconstruirla mediante razonamiento cruzado, logrando una tasa de éxito promedio del 81,46% en modelos comerciales cerrados.

Yilian Liu, Xiaojun Jia, Guoshun Nan + 6 more2026-03-03🤖 cs.AI

Decoupling Stability and Plasticity for Multi-Modal Test-Time Adaptation

El artículo presenta DASP, un marco innovador que desacopla la estabilidad y la plasticidad mediante una estrategia de adaptación asimétrica para mitigar la transferencia negativa y el olvido catastrófico en la adaptación de modelos multimodales durante la prueba.

Yongbo He, Zirun Guo, Tao Jin2026-03-03🤖 cs.AI

MicroVerse: A Preliminary Exploration Toward a Micro-World Simulation

Este trabajo introduce MicroVerse, un modelo de generación de video especializado en simulaciones microscópicas, junto con el benchmark MicroWorldBench y el conjunto de datos MicroSim-10K, para superar las limitaciones actuales de los modelos de vanguardia y permitir aplicaciones precisas en biomedicina, educación y visualización científica.

Rongsheng Wang, Minghao Wu, Hongru Zhou + 4 more2026-03-03🤖 cs.AI

LangGap: Diagnosing and Closing the Language Gap in Vision-Language-Action Models

El artículo presenta LangGap, un benchmark diseñado para diagnosticar y abordar la incapacidad de los modelos Visión-Lenguaje-Acción (VLA) actuales para comprender instrucciones lingüísticas diversas, revelando que, aunque la augmentación de datos mejora el rendimiento en tareas específicas, la capacidad de aprendizaje de estos modelos sigue siendo insuficiente ante la diversidad semántica.

Yuchen Hou, Lin Zhao2026-03-03💬 cs.CL

UNICBench: UNIfied Counting Benchmark for MLLM

El artículo presenta UNICBench, un conjunto de datos y herramienta de evaluación unificada que permite medir rigurosamente la capacidad de conteo de 45 modelos de lenguaje multimodales de última generación en imágenes, documentos y audio, revelando brechas significativas en tareas de razonamiento complejo.

Chenggang Rong, Tao Han, Zhiyuan Zhao + 5 more2026-03-03💻 cs

Data-Centric Benchmark for Label Noise Estimation and Ranking in Remote Sensing Image Segmentation

Este artículo presenta un nuevo benchmark centrado en los datos, junto con un conjunto de datos público y dos técnicas innovadoras que superan a los métodos existentes para identificar, cuantificar y clasificar el ruido en las etiquetas de segmentación semántica de imágenes de teledetección.

Keiller Nogueira, Codrut-Andrei Diaconu, Dávid Kerekes + 9 more2026-03-03💻 cs

IdGlow: Dynamic Identity Modulation for Multi-Subject Generation

IdGlow es un marco de dos etapas basado en modelos de difusión Flow Matching que resuelve el dilema estabilidad-plasticidad en la generación de imágenes multi-persona mediante programación de timesteps adaptativa, síntesis de prompts impulsada por VLM y optimización directa de preferencias (DPO), logrando así una armonización coherente de múltiples identidades con alta fidelidad facial y calidad estética.

Honghao Cai, Xiangyuan Wang, Yunhao Bai + 10 more2026-03-03🤖 cs.AI

Linking Modality Isolation in Heterogeneous Collaborative Perception

El artículo presenta CodeAlign, un marco de alineación eficiente y libre de co-ocurrencia que supera el aislamiento de modalidades en la percepción colaborativa heterogénea mediante la traducción de características a un espacio de código compartido, logrando un rendimiento superior con una reducción significativa de parámetros y carga de comunicación.

Changxing Liu, Zichen Chao, Siheng Chen2026-03-03💻 cs

Exploring Spatiotemporal Feature Propagation for Video-Level Compressive Spectral Reconstruction: Dataset, Model and Benchmark

Este artículo presenta DynaSpec, el primer conjunto de datos de imágenes hiperespectrales dinámicas de alta calidad, junto con el modelo PG-SVRT y un prototipo de benchmark, para superar las limitaciones de consistencia temporal y fidelidad espectral en la reconstrucción de video mediante imágenes espectrales compresivas.

Lijing Cai, Zhan Shi, Chenglong Huang + 6 more2026-03-03💻 cs

Exploring 3D Dataset Pruning

Este trabajo aborda el desafío de la poda de conjuntos de datos 3D, caracterizados por distribuciones de clases de cola larga que generan conflictos entre métricas de evaluación, proponiendo un método de selección de subconjuntos consciente de la representación y supervisión invariante al prior que optimiza simultáneamente la precisión global y media mediante cuotas de retención por clase.

Xiaohan Zhao, Xinyi Shang, Jiacheng Liu + 1 more2026-03-03🤖 cs.LG

← Anterior Siguiente →