cs.CV artículos | Gist.Science

EarthScape: A Multimodal Dataset for Surficial Geologic Mapping and Earth Surface Analysis

El artículo presenta EarthScape, un conjunto de datos multimodal listo para IA diseñado para automatizar y escalar la cartografía geológica superficial mediante la integración de modelos de elevación, imágenes aéreas y datos vectoriales en un pipeline reproducible que demuestra que las características del terreno son el predictor más fiable para este tipo de análisis.

Matthew Massey, Nusrat Munia, Abdullah-Al-Zubaer Imran2026-03-09💻 cs

Evaluating quality metrics through the lenses of psychophysical measurements of low-level vision

Este artículo introduce un conjunto de pruebas basadas en mediciones psicofísicas de la visión de bajo nivel para evaluar la capacidad de 34 métricas de calidad de imagen y video existentes para modelar aspectos clave de la percepción humana, como la sensibilidad al contraste y el enmascaramiento, revelando limitaciones y patrones de comportamiento que no se detectan con los protocolos de evaluación estándar.

Dounia Hammou, Yancheng Cai, Pavan Madhusudanarao, Christos G. Bampis, Rafał K. Mantiuk2026-03-09💻 cs

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

El artículo presenta FindAnything, un marco de mapeo en mundo abierto que integra información visión-idioma en submapas volumétricos centrados en objetos mediante la agregación eficiente de características, logrando una comprensión semántica precisa y escalable en tiempo real incluso en dispositivos con recursos limitados como los MAVs.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

GenCLIP: Generalizing CLIP Prompts for Zero-shot Anomaly Detection

El artículo presenta GenCLIP, un marco novedoso para la detección de anomalías en cero disparos que mejora la generalización y estabilidad mediante la integración de indicaciones de texto generalizadas con características visuales de múltiples capas y una estrategia de inferencia de doble rama.

Donghyeong Kim, Chaewon Park, Suhwan Cho + 4 more2026-03-09💻 cs

Maximizing Asynchronicity in Event-based Neural Networks

Este artículo presenta EVA, un nuevo marco de aprendizaje de características asíncronas inspirado en el modelado del lenguaje que supera a los métodos anteriores en tareas de reconocimiento y detección, permitiendo así un avance significativo en las aplicaciones de visión basada en eventos en tiempo real.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

BusterX: MLLM-Powered AI-Generated Video Forgery Detection and Explanation

El artículo presenta BusterX, un modelo de MLLM entrenado con RL que aborda la detección y explicación de videos falsificados mediante el razonamiento visual, respaldado por el nuevo dataset GenBuster-200K y el benchmark GenBuster-Bench para evaluar la precisión y la calidad de las explicaciones forenses.

Haiquan Wen, Yiwei He, Zhenglin Huang + 7 more2026-03-09💻 cs

DVD-Quant: Data-free Video Diffusion Transformers Quantization

El artículo presenta DVD-Quant, un marco de cuantización sin datos para Transformers de Difusión en Video que, mediante innovaciones como la refinación de cuadrícula acotada y la asignación adaptativa de bits, logra una aceleración de 2× y permite la cuantización W4A4 sin comprometer la calidad visual.

Zhiteng Li, Hanxuan Li, Junyi Wu, Kai Liu, Haotong Qin, Linghe Kong, Guihai Chen, Yulun Zhang, Xiaokang Yang2026-03-09💻 cs

Alchemist: Turning Public Text-to-Image Data into Generative Gold

Este paper presenta Alchemist, un conjunto de datos de ajuste fino supervisado compacto pero altamente efectivo creado mediante un nuevo método que utiliza un modelo generativo preentrenado como estimador de muestras de alto impacto, el cual mejora sustancialmente la calidad estética y la alineación de cinco modelos públicos de texto a imagen sin comprometer su diversidad.

Valerii Startsev, Alexander Ustyuzhanin, Alexey Kirillov, Dmitry Baranchuk, Sergey Kastryulin2026-03-09💻 cs

Instance Data Condensation for Image Super-Resolution

Este artículo presenta un nuevo marco de condensación de datos a nivel de instancia (IDC) para la superresolución de imágenes, que mediante la extracción de características de Fourier locales aleatorias y la coincidencia de distribuciones de características multinivel, logra generar un conjunto de datos sintético condensado al 10% del original DIV2K que iguala el rendimiento y la estabilidad de entrenamiento del conjunto completo.

Tianhao Peng, Ho Man Kwan, Yuxuan Jiang, Ge Gao, Fan Zhang, Xiaozhong Xu, Shan Liu, David Bull2026-03-09💻 cs

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

El artículo presenta VisioMath, un nuevo benchmark de 1.800 problemas matemáticos de nivel K-12 que evalúa la capacidad de los Modelos Multimodales Grandes para realizar razonamiento comparativo basado en diagramas visualmente similares, revelando que su principal limitación es la desalineación entre imagen y texto y demostrando que estrategias de alineación pueden mejorar significativamente su rendimiento.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

VisualPrompter: Semantic-Aware Prompt Optimization with Visual Feedback for Text-to-Image Synthesis

El artículo presenta VisualPrompter, un marco de ingeniería de prompts sin entrenamiento que utiliza retroalimentación visual y optimización semántica para alinear mejor las imágenes generadas con las descripciones del usuario, logrando un nuevo estado del arte en la consistencia semántica.

Shiyu Wu, Mingzhen Sun, Weining Wang, Yequan Wang, Jing Liu2026-03-09💻 cs

SPoT: Subpixel Placement of Tokens in Vision Transformers

El artículo presenta SPoT, una estrategia de tokenización que posiciona tokens de manera continua y subpíxel dentro de las imágenes para superar las limitaciones de las cuadrículas discretas, logrando así un rendimiento superior con menos tokens y redefiniendo la escasez como una ventaja estratégica en los Transformadores de Visión.

Martine Hjelkrem-Tan, Marius Aasan, Gabriel Y. Arteaga, Adín Ramírez Rivera2026-03-09🤖 cs.LG

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

El artículo presenta SPARC, un marco de autoencoders dispersos alineados que establece un espacio latente unificado compartido entre diversas arquitecturas y modalidades, permitiendo la interpretación cruzada de conceptos y aplicaciones prácticas como la localización espacial guiada por texto.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Token Bottleneck: One Token to Remember Dynamics

Este artículo presenta Token Bottleneck (ToBo), un pipeline de aprendizaje auto-supervisado que comprime escenas dinámicas en un token compacto para predecir futuros estados y capturar dependencias temporales, demostrando su superioridad en tareas de seguimiento visual y manipulación robótica tanto en entornos simulados como reales.

Taekyung Kim, Dongyoon Han, Byeongho Heo, Jeongeun Park, Sangdoo Yun2026-03-09💻 cs

NarrLV: Towards a Comprehensive Narrative-Centric Evaluation for Long Video Generation

El artículo presenta NarrLV, el primer benchmark diseñado para evaluar de manera integral la capacidad de expresión narrativa en la generación de videos largos mediante la introducción de "átomos narrativos temporales" y una métrica basada en modelos de lenguaje multimodal que demuestra una fuerte alineación con el juicio humano.

X. Feng, H. Yu, M. Wu, S. Hu, J. Chen, C. Zhu, J. Wu, X. Chu, K. Huang2026-03-09💻 cs

Tomato Multi-Angle Multi-Pose Dataset for Fine-Grained Phenotyping

Este artículo presenta TomatoMAP, un dataset integral de imágenes multivista y multipostura de tomates con anotaciones detalladas de regiones de interés y etapas de crecimiento, validado mediante un marco de aprendizaje profundo que demuestra un rendimiento comparable al de expertos humanos en fenotipado de precisión.

Yujie Zhang, Sabine Struckmeyer, Andreas Kolb + 1 more2026-03-09💻 cs

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

El artículo presenta ExDD, un marco innovador para la detección de defectos industriales que supera las limitaciones de los enfoques de una sola clase mediante el modelado explícito de distribuciones duales de características, el uso de modelos de difusión para sintetizar defectos y una puntuación de ratio que fusiona métricas de distancia para lograr un rendimiento superior en el conjunto de datos KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

Gaussian Set Surface Reconstruction through Per-Gaussian Optimization

El artículo presenta GSSR, un método que optimiza la colocación individual de los gaussianos mediante regularización de opacidad y reinitialización guiada por profundidad y normales para lograr una reconstrucción geométrica precisa y uniforme de superficies 3D, superando las limitaciones de métodos anteriores como 3DGS y PGSR.

Zhentao Huang, Di Wu, Zhenbang He, Minglun Gong2026-03-09💻 cs

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabajo presenta un sistema multiagente basado en modelos de lenguaje grandes multimodales que supera significativamente al estado del arte en la extracción automatizada y robusta de información química de la literatura, logrando un puntaje F1 del 76,27% en gráficos de reacciones complejos y demostrando una amplia versatilidad en diversas tareas de extracción de datos.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Este trabajo presenta MAP, un método de decodificación sin entrenamiento que mitiga las alucinaciones en los Modelos Grandes de Visión y Lenguaje interpretando sus estados ocultos como un mapa semántico 2D y refinando las representaciones mediante operaciones de atención a nivel de mapa para mejorar la consistencia factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

← Anterior Siguiente →