cs.CV artículos | Gist.Science

DINOv3 Visual Representations for Blueberry Perception Toward Robotic Harvesting

Este trabajo evalúa DINOv3 como un backbone semántico para tareas de percepción visual en la cosecha robótica de arándanos, concluyendo que aunque mejora consistentemente la segmentación, su eficacia en la detección depende de modelos espaciales adaptados a la escala de la fruta y a las estructuras de agrupación.

Rui-Feng Wang, Daniel Petti, Yue Chen, Changying Li2026-03-10💻 cs

Interpretable Motion-Attentive Maps: Spatio-Temporally Localizing Concepts in Video Diffusion Transformers

Este artículo presenta GramCol y un algoritmo de selección de características para generar Mapas de Atención Motriz Interpretables (IMAP), permitiendo localizar espaciotemporalmente conceptos de movimiento en Video Diffusion Transformers sin necesidad de cálculos de gradiente ni actualización de parámetros.

Youngjun Jun, Seil Kang, Woojung Han, Seong Jae Hwang2026-03-10🤖 cs.LG

CGL: Advancing Continual GUI Learning via Reinforcement Fine-Tuning

Este trabajo presenta CGL, un marco de aprendizaje continuo para agentes de interfaces gráficas que combina ajuste fino supervisado y aprendizaje por refuerzo mediante un mecanismo de ajuste dinámico y una estrategia de cirugía de gradientes para equilibrar la adaptación a nuevas tareas con la retención de conocimientos previos, validado mediante el nuevo benchmark AndroidControl-CL.

Zhenquan Yao, Zitong Huang, Yihan Zeng, Jianhua Han, Hang Xu, Chun-Mei Feng, Jianwei Ma, Wangmeng Zuo2026-03-10🤖 cs.LG

LDP-Slicing: Local Differential Privacy for Images via Randomized Bit-Plane Slicing

Este artículo presenta LDP-Slicing, un marco ligero y sin entrenamiento que preserva la privacidad diferencial local en imágenes mediante la descomposición de píxeles en planos de bits y una asignación optimizada del presupuesto de privacidad, logrando así una utilidad superior para tareas de aprendizaje automático en comparación con los métodos existentes.

Yuanming Cao, Chengqi Li, Wenbo He2026-03-10💻 cs

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Este artículo presenta DeepScope, un sistema de aprendizaje profundo que analiza imágenes microscópicas de muestras de agua no incubadas para detectar contaminación fecal en segundos con un costo de \$0.44 por prueba, superando los requisitos de la UNICEF y logrando una precisión del 90% y un recall superior al 94%.

Sanjay Srinivasan2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

El artículo presenta OptiRoulette, un meta-optimizador estocástico que selecciona dinámicamente reglas de actualización durante el entrenamiento, logrando una convergencia hasta 5.3 veces más rápida y mejoras significativas en la precisión de prueba en comparación con AdamW en múltiples conjuntos de datos de clasificación de imágenes.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Este artículo propone una representación unificada de los modelos de difusión y el emparejamiento de flujos mediante ecuaciones lineales, revelando que la correlación entre los datos ruidosos y el objetivo predicho puede ser débil, lo cual podría afectar el proceso de aprendizaje.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

RECAP: Local Hebbian Prototype Learning as a Self-Organizing Readout for Reservoir Dynamics

El artículo presenta RECAP, una estrategia de aprendizaje bioinspirada que combina dinámicas de reservorio no entrenadas con un mecanismo de lectura de prototipos hebbianos autoorganizado para lograr una clasificación robusta de imágenes sin necesidad de retropropagación de errores.

Heng Zhang2026-03-10🤖 cs.LG

Roots Beneath the Cut: Uncovering the Risk of Concept Revival in Pruning-Based Unlearning for Diffusion Models

Este artículo revela que el desprendimiento basado en poda en modelos de difusión es vulnerable a la revivificación de conceptos eliminados mediante un ataque de canal lateral que explota las ubicaciones de los pesos podados, demostrando que este método no es inherentemente seguro y proponiendo estrategias de defensa para ocultar dichas ubicaciones.

Ci Zhang, Zhaojun Ding, Chence Yang, Jun Liu, Xiaoming Zhai, Shaoyi Huang, Beiwen Li, Xiaolong Ma, Jin Lu, Geng Yuan2026-03-10🤖 cs.LG

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

El artículo presenta ObjChangeVR, un marco y un conjunto de datos diseñados para mejorar la detección y el razonamiento sobre cambios de estado de objetos en entornos de realidad virtual desde perspectivas egocéntricas continuas, abordando la falta de benchmarks y las dificultades para detectar cambios sin interacción directa del usuario.

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

Este artículo presenta un marco de consistencia de márgenes con puntuación de fidelidad de perturbación para la subtipificación robusta de adenocarcinoma pulmonar invasivo en imágenes de diapositivas completas, logrando una alta precisión y generalización en múltiples arquitecturas de redes neuronales y conjuntos de datos.

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

El marco PaLMR mejora la fiabilidad del razonamiento visual en modelos multimodales alineando tanto el resultado como el proceso de razonamiento mediante una capa de datos perceptiva y un esquema de recompensa jerárquico, logrando así reducir las alucinaciones y alcanzar resultados de vanguardia en benchmarks especializados.

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

El artículo presenta FCBNet, un modelo eficiente para la detección de malezas en imágenes aéreas multiespectrales que utiliza un backbone ConvNeXt congelado y un bloque de corrección de características, logrando una precisión superior al 85% y una reducción de más del 90% en parámetros entrenables en comparación con arquitecturas existentes.

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

El artículo presenta GameVerse, un nuevo benchmark que demuestra cómo los Modelos Visuales-Lingüísticos pueden mejorar sus estrategias en videojuegos mediante un ciclo de reflexión basado en video que combina trayectorias de fallo y tutoriales expertos.

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

El artículo presenta ASMIL, un marco unificado de aprendizaje múltiple instanciado estabilizado por atención que corrige la inestabilidad dinámica, el sobreajuste y la concentración excesiva de la atención en el diagnóstico de imágenes de diapositivas completas, logrando mejoras significativas en el rendimiento frente a los métodos actuales.

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

EnsAug: Augmentation-Driven Ensembles for Human Motion Sequence Analysis

El artículo presenta EnsAug, un nuevo paradigma de entrenamiento que supera a los métodos convencionales al utilizar un conjunto de modelos especialistas, cada uno entrenado con una única transformación geométrica distinta, logrando así un rendimiento superior en el análisis de secuencias de movimiento humano y reconocimiento de gestos.

Bikram De, Habib Irani, Vangelis Metsis2026-03-10🤖 cs.LG

HyperTokens: Controlling Token Dynamics for Continual Video-Language Understanding

El artículo presenta HyperTokens, un generador de tokens basado en transformadores que controla dinámicamente la actualización de prompts para el entendimiento continuo de video-lenguaje, logrando una mayor precisión y menor olvido mediante regularizadores inspirados en meta-aprendizaje y supervision multimodal auxiliar.

Toan Nguyen, Yang Liu, Celso De Melo, Flora D. Salim2026-03-10🤖 cs.LG

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

El artículo presenta Graph-of-Mark (GoM), una técnica de prompting visual basada en grafos que mejora el razonamiento espacial de los modelos de lenguaje multimodales al superponer grafos de escena en las imágenes, logrando aumentos significativos en tareas de localización y preguntas visuales sin necesidad de entrenamiento adicional.

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

Este artículo presenta un sistema de inferencia optimizado para modelos de generación de video basados en DiT que, mediante el uso de codificación posicional 3D secuencial-paralela con un índice de tiempo global y técnicas de fusión de operadores, logra reducir significativamente la latencia y el consumo de memoria para habilitar la generación de videos en tiempo real sin comprometer la calidad.

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

El artículo demuestra que, en tareas médicas de visión y lenguaje, la cadena de pensamiento a menudo reduce el rendimiento al exacerbar la incertidumbre perceptiva, y propone intervenciones de anclaje visual para mejorar la precisión y la alineación multimodal.

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

← Anterior Siguiente →