cs.CV artículos | Gist.Science

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

El AgrI Challenge es una competencia centrada en los datos que introduce el paradigma de Validación Inter-Equipos (CTV) para demostrar que el entrenamiento colaborativo con conjuntos de datos heterogéneos recolectados independientemente mejora significativamente la generalización de los modelos de visión agrícola frente a los cambios de distribución, superando las limitaciones de los enfoques tradicionales basados en un solo origen de datos.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

N-Tree Diffusion for Long-Horizon Wildfire Risk Forecasting

El artículo presenta NT-Diffusion, un modelo de difusión jerárquico que mejora la eficiencia computacional y la precisión en la predicción probabilística a largo plazo del riesgo de incendios forestales compartiendo etapas tempranas de desruido y ramificándose para refinar horizontes específicos.

Yucheng Xing, Xin Wang2026-03-10🤖 cs.LG

Task learning increases information redundancy of neural responses in macaque visual cortex

El estudio demuestra que el aprendizaje de tareas en la corteza visual de macacos aumenta la redundancia de las respuestas neuronales, lo que contradice la hipótesis de eficiencia y respalda un proceso de inferencia generativa basado en la teoría bayesiana.

Shizhao Liu, Anton Pletenev, Ralf M. Haefner, Adam C. Snyder2026-03-10💻 cs

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

El artículo presenta AQuA, un conjunto de datos y enfoque que permite a los Modelos Visuales-Lingüísticos clasificar la ambigüedad en preguntas visuales y generar respuestas estratégicas adaptativas, superando así a los modelos existentes que suelen ofrecer respuestas demasiado confiantes en situaciones ambiguas.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Interpretable Aneurysm Classification via 3D Concept Bottleneck Models: Integrating Morphological and Hemodynamic Clinical Features

Este artículo presenta un marco de modelo de cuello de botella de conceptos 3D que integra características morfológicas y hemodinámicas para clasificar aneurismas intracraneales con alta precisión y transparencia clínica, superando las limitaciones de interpretabilidad de los modelos de caja negra tradicionales.

Toqa Khaled, Ahmad Al-Kabbany2026-03-10💻 cs

VIVECaption: A Split Approach to Caption Quality Improvement

El informe técnico VIVECaption presenta un enfoque sistemático de dos vías para mejorar la calidad de las descripciones de imágenes mediante la creación de un conjunto de datos de referencia y la alineación de modelos, lo que permite generar datos de entrenamiento de alta calidad y libres de derechos de autor para modelos generativos de texto a imagen y video.

Varun Ananth, Baqiao Liu, Haoran Cai2026-03-10💻 cs

Prompt-Based Caption Generation for Single-Tooth Dental Images Using Vision-Language Models

Este trabajo aborda la falta de conjuntos de datos de imágenes dentales individuales con descripciones integrales mediante la propuesta y evaluación de un marco basado en modelos de visión-idioma que utiliza prompts guiados para generar descripciones precisas y visualmente fundamentadas de dientes únicos en imágenes RGB.

Anastasiia Sukhanova, Aiden Taylor, Julian Myers, Zichun Wang, Kartha Veerya Jammuladinne, Satya Sri Rajiteswari Nimmagadda, Aniruddha Maiti, Ananya Jana2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

El artículo presenta UnSCAR, un marco de restauración de imágenes universal y escalable que utiliza una arquitectura de expertos mixtos con múltiples ramas para superar las limitaciones de interferencia y olvido catastrófico en la recuperación de imágenes bajo múltiples degradaciones, permitiendo un aprendizaje estable, una generalización robusta y un control adaptable para el usuario.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

QdaVPR: A novel query-based domain-agnostic model for visual place recognition

El artículo presenta QdaVPR, un modelo novedoso basado en consultas para el reconocimiento visual de lugares que logra un rendimiento de vanguardia en diversos escenarios con variaciones de dominio mediante un marco de aprendizaje adversarial dual y supervisión por tripletas, apoyado en datos sintéticos generados por transferencia de estilo.

Shanshan Wan, Lai Kang, Yingmei Wei, Tianrui Shen, Haixuan Wang, Chao Zuo2026-03-10💻 cs

Disentangled Textual Priors for Diffusion-based Image Super-Resolution

Este trabajo presenta DTPSR, un marco de superresolución basado en difusión que utiliza priores textuales desentrelazados por jerarquía espacial y semántica de frecuencia, junto con el nuevo conjunto de datos DisText-SR, para mejorar el control semántico, la fidelidad y la calidad perceptual en la reconstrucción de imágenes.

Lei Jiang, Xin Liu, Xinze Tong, Zhiliang Li, Jie Liu, Jie Tang, Gangshan Wu2026-03-10💻 cs

Generalization in Online Reinforcement Learning for Mobile Agents

Este trabajo presenta un nuevo marco de aprendizaje por refuerzo y el benchmark AndroidWorld-Generalization para evaluar y mejorar la capacidad de generalización de agentes móviles basados en modelos de lenguaje y visión, demostrando que el entrenamiento con RL supera a los métodos supervisados en tareas no vistas, aunque la generalización a nuevas aplicaciones sigue siendo un desafío.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Data Agent: Learning to Select Data via End-to-End Dynamic Optimization

El artículo presenta "Data Agent", un marco de selección de datos dinámico y de extremo a extremo que trata la selección como un problema de toma de decisiones secuencial consciente del entrenamiento, logrando acelerar significativamente el proceso de aprendizaje y reducir los costos en más del 50% sin sacrificar el rendimiento en diversas tareas y arquitecturas.

Suorong Yang, Fangjian Su, Hai Gan, Ziqi Ye, Jie Li, Baile Xu, Furao Shen, Soujanya Poria2026-03-10🤖 cs.LG

RPG-SAM: Reliability-Weighted Prototypes and Geometric Adaptive Threshold Selection for Training-Free One-Shot Polyp Segmentation

El artículo presenta RPG-SAM, un marco de segmentación de pólipos en un solo disparo sin entrenamiento que aborda la heterogeneidad regional y de respuesta mediante la minería de prototipos ponderados por fiabilidad y la selección geométrica adaptativa, logrando una mejora del 5,56 % en mIoU en el conjunto de datos Kvasir.

Weikun Lin, Yunhao Bai, Yan Wang2026-03-10💻 cs

DogWeave: High-Fidelity 3D Canine Reconstruction from a Single Image via Normal Fusion and Conditional Inpainting

El artículo presenta DogWeave, un marco basado en modelos que reconstruye caninos 3D de alta fidelidad a partir de una sola imagen RGB mediante la optimización de campos normales mejorados por difusión y la generación de texturas coherentes mediante inpainting condicional, superando a los métodos actuales en precisión geométrica y realismo textural.

Shufan Sun, Chenchen Wang, Zongfu Yu2026-03-10💻 cs

Med-Evo: Test-time Self-evolution for Medical Multimodal Large Language Models

Med-Evo es un marco de autoevolución en tiempo de prueba para modelos de lenguaje grandes multimodales médicos que mejora el rendimiento sin datos etiquetados adicionales mediante el aprendizaje por refuerzo sin etiquetas, utilizando etiquetado pseudo impulsado por características y una recompensa híbrida dura-blanda para generar señales de supervisión fiables a partir de datos de prueba no etiquetados.

Dunyuan Xu, Xikai Yang, Juzheng Miao, Yaoqian Li, Jinpeng Li, Pheng-Ann Heng2026-03-10💻 cs

SLNet: A Super-Lightweight Geometry-Adaptive Network for 3D Point Cloud Recognition

El artículo presenta SLNet, una red neuronal extremadamente ligera y adaptable geométricamente para el reconocimiento de nubes de puntos 3D que logra un rendimiento competitivo en diversas tareas con una fracción de los parámetros y costos computacionales de modelos existentes, gracias a sus componentes NAPE y GMU.

Mohammad Saeid, Amir Salarpour, Pedram MohajerAnsari, Mert D. Pesé2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Este artículo ofrece una encuesta técnica exhaustiva sobre la evolución de los modelos de generación de imágenes, abarcando desde VAEs y GANs hasta métodos de difusión, analizando sus fundamentos, limitaciones y su expansión hacia la generación de video y la responsabilidad en su despliegue.

Rouzbeh Shirvani2026-03-10💬 cs.CL

SIGMAE: A Spectral-Index-Guided Foundation Model for Multispectral Remote Sensing

El artículo presenta SIGMAE, un modelo fundacional para imágenes multiespectrales que mejora el preentrenamiento basado en MAE mediante un enmascaramiento dinámico de tokens guiado por índices espectrales, logrando así representaciones más ricas y un rendimiento superior en diversas tareas de interpretación de teledetección.

Xiaokang Zhang, Bo Li, Chufeng Zhou, Weikang Yu, Lefei Zhang2026-03-10💻 cs

Selective Transfer Learning of Cross-Modality Distillation for Monocular 3D Object Detection

El artículo presenta MonoSTL, un enfoque de aprendizaje selectivo que mitiga el problema de la transferencia negativa en la detección 3D monocular mediante la alineación arquitectónica y dos nuevos módulos de destilación que integran la incertidumbre de profundidad para transferir eficazmente información de LiDAR a redes basadas en imágenes, logrando así el estado del arte en los conjuntos de datos KITTI y NuScenes.

Rui Ding, Meng Yang, Nanning Zheng2026-03-10💻 cs

Classifying Novel 3D-Printed Objects without Retraining: Towards Post-Production Automation in Additive Manufacturing

Este artículo presenta ThingiPrint, un nuevo conjunto de datos que empareja modelos CAD con fotografías reales de objetos impresos en 3D, y demuestra que un enfoque de clasificación basado en prototipos con ajuste fino contrastivo permite identificar objetos impresos en 3D sin necesidad de reentrenamiento, superando a las líneas base estándar y facilitando la automatización postproducción en la fabricación aditiva.

Fanis Mathioulakis, Gorjan Radevski, Silke GC Cleuren, Michel Janssens, Brecht Das, Koen Schauwaert, Tinne Tuytelaars2026-03-10💻 cs

← Anterior Siguiente →