cs.CV artículos | Gist.Science

From Intuition to Investigation: A Tool-Augmented Reasoning MLLM Framework for Generalizable Face Anti-Spoofing

Este artículo presenta TAR-FAS, un marco de razonamiento potenciado por herramientas que utiliza un paradigma de cadena de pensamiento con herramientas visuales y el algoritmo DT-GRPO para superar las limitaciones de los métodos actuales de detección de suplantación facial, logrando un estado del arte en generalización cruzada mediante la investigación adaptativa de patrones visuales sutiles.

Haoyuan Zhang, Keyao Wang, Guosheng Zhang + 11 more2026-03-03🤖 cs.AI

MM-DeepResearch: A Simple and Effective Multimodal Agentic Search Baseline

El artículo presenta MM-DeepResearch, un agente de investigación multimodal que supera los desafíos de escasez de datos, falta de trayectorias efectivas y altos costos mediante la propuesta de Hyper-Search para generar datos, DR-TTS para optimizar expertos de herramientas de búsqueda y un motor de búsqueda offline para el aprendizaje por refuerzo.

Huanjin Yao, Qixiang Yin, Min Yang + 5 more2026-03-03🤖 cs.AI

Unleashing VLA Potentials in Autonomous Driving via Explicit Learning from Failures

El artículo presenta ELF-VLA, un marco que supera el estancamiento de los modelos VLA en la conducción autónoma al incorporar retroalimentación diagnóstica explícita sobre los fallos para guiar el aprendizaje por refuerzo y lograr un rendimiento superior en el benchmark NAVSIM.

Yuechen Luo, Qimao Chen, Fang Li + 5 more2026-03-03💻 cs

LLaDA-o: An Effective and Length-Adaptive Omni Diffusion Model

El artículo presenta LLaDA-o, un modelo de difusión omni multimodal basado en un marco de mezcla de difusión (MoD) que combina la comprensión de texto y la generación visual mediante una arquitectura compartida eficiente y una estrategia de adaptación de longitud, logrando un rendimiento de vanguardia en benchmarks de comprensión y generación multimodal.

Zebin You, Xiaolu Zhang, Jun Zhou + 2 more2026-03-03🤖 cs.LG

SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

El artículo presenta SHIELD8-UAV, una implementación de hardware secuencial de 8 bits para un acelerador de CNN 1D que, mediante cuantización adaptable y poda estructurada, logra una detección acústica de UAVs precisa y de bajo consumo energético en el borde sin depender de un paralelismo masivo.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Adaptive Augmentation-Aware Latent Learning for Robust LiDAR Semantic Segmentation

El artículo presenta A3Point, un marco de aprendizaje latente adaptativo que mejora la segmentación semántica de nubes de puntos LiDAR bajo condiciones climáticas adversas mediante la decouplación de la confusión semántica y el desplazamiento semántico para optimizar el uso de diversas aumentaciones.

Wangkai Li, Zhaoyang Li, Yuwen Pan + 3 more2026-03-03💻 cs

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Este trabajo presenta MCMR, un nuevo benchmark a gran escala diseñado para evaluar la recuperación multimodal de alta precisión bajo múltiples condiciones interdependientes, demostrando que los reordenadores basados en modelos de lenguaje multimodal mejoran significativamente la coincidencia fina al verificar explícitamente la consistencia entre la consulta y los candidatos.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabajo introduce AesEval-Bench, un marco integral que incluye un benchmark, una evaluación sistemática de modelos de lenguaje visuales y un conjunto de datos de entrenamiento, para establecer la primera metodología estructurada que permite a las IA evaluar la calidad estética del diseño gráfico con un nivel de detalle comparable al humano.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Unified Vision-Language Modeling via Concept Space Alignment

El artículo presenta V-SONAR, un espacio de incrustación unificado visión-idioma que alinea un codificador visual con el espacio SONAR existente, y V-LCM, un modelo de concepto grande multimodal que, mediante ajuste de instrucciones en latencia, supera a los modelos de vanguardia en tareas de visión e idioma, especialmente en 61 de 62 idiomas de recursos variados.

Yifu Qiu, Paul-Ambroise Duquenne, Holger Schwenk2026-03-03💬 cs.CL

Differential privacy representation geometry for medical image analysis

Este artículo presenta DP-RGMI, un marco que analiza la geometría de las representaciones en imágenes médicas bajo privacidad diferencial para descomponer la pérdida de utilidad en deformaciones geométricas y brechas de aprovechamiento, revelando que la privacidad altera la anisotropía de los rasgos más que colapsarlos uniformemente.

Soroosh Tayebi Arasteh, Marziyeh Mohammadi, Sven Nebelung + 1 more2026-03-03🤖 cs.LG

Data-Efficient Brushstroke Generation with Diffusion Models for Oil Painting

El artículo presenta StrokeDiff, un marco basado en difusión con regularización suave que permite la generación eficiente de pinceladas realistas para pinturas al óleo a partir de un conjunto de datos reducido, logrando además un control preciso mediante condicionamiento basado en curvas de Bézier.

Dantong Qin, Alessandro Bozzon, Xian Yang + 3 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

El artículo presenta "Egocentric Co-Pilot", un marco neuro-simbólico nativo de la web que ejecuta agentes de IA en gafas inteligentes para proporcionar asistencia contextual y accesible mediante la integración de razonamiento temporal, compresión de contexto y herramientas web, demostrando mejoras significativas en la satisfacción del usuario y la finalización de tareas en comparación con soluciones comerciales existentes.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

El artículo presenta GroundedSurg, el primer conjunto de datos de referencia para la segmentación de instrumentos quirúrgicos condicionada al lenguaje a nivel de instancia, diseñado para evaluar la capacidad de los modelos de visión y lenguaje para localizar instrumentos específicos basándose en descripciones naturales en diversos procedimientos quirúrgicos.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

GuiDINO: Rethinking Vision Foundation Model in Medical Image Segmentation

GuiDINO es un marco que mejora la segmentación de imágenes médicas al utilizar DINOv3 como generador de guías visuales mediante un mecanismo TokenBook, inyectando priores de modelos fundacionales en arquitecturas especializadas sin necesidad de un ajuste fino completo.

Zhuonan Liang, Wei Guo, Jie Gan + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

El artículo presenta ClinCoT, un marco de razonamiento visual consciente del contexto clínico que transforma la optimización de preferencias de nivel de respuesta a uno guiado por la visión mediante un pipeline de generación de datos automatizado y una estrategia de optimización iterativa, logrando así una mejor alineación y reducción de alucinaciones en modelos de lenguaje visual médico.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

Predictive Reasoning with Augmented Anomaly Contrastive Learning for Compositional Visual Relations

El artículo presenta PR-A $^2$ CL, un nuevo enfoque que combina aprendizaje contrastivo de anomalías aumentadas con un paradigma de predicción y verificación iterativa para resolver eficazmente tareas de relaciones visuales composicionales mediante la identificación de imágenes atípicas basadas en reglas complejas.

Chengtai Li, Yuting He, Jianfeng Ren + 4 more2026-03-03🤖 cs.AI

Teacher-Guided Causal Interventions for Image Denoising: Orthogonal Content-Noise Disentanglement in Vision Transformers

El artículo presenta TCD-Net, un enfoque basado en transformadores de visión que utiliza intervenciones causales guiadas por un modelo de IA para desentrelazar ortogonalmente el contenido y el ruido, logrando así una eliminación de ruido más robusta y eficiente que los métodos convencionales.

Kuai Jiang, Zhaoyan Ding, Guijuan Zhang + 2 more2026-03-03💻 cs

ArtLLM: Generating Articulated Assets via 3D LLM

ArtLLM es un marco novedoso que utiliza un modelo de lenguaje grande multimodal 3D para generar activos articulados de alta calidad directamente a partir de mallas 3D completas, superando las limitaciones de los métodos existentes al predecir autoregresivamente la estructura cinemática y sintetizar geometrías de partes detalladas para aplicaciones como el aprendizaje robótico y los gemelos digitales.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

El artículo presenta TC-SSA, un marco de compresión de tokens mediante agregación de ranuras semánticas que resuelve el cuello de botella computacional de las imágenes patológicas gigapíxel al reducir drásticamente la secuencia de tokens sin sacrificar información diagnóstica crítica, logrando un rendimiento superior en tareas de razonamiento y clasificación.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

ConVibNet: Needle Detection during Continuous Insertion via Frequency-Inspired Features

El estudio presenta ConVibNet, un marco de detección de agujas en tiempo real para intervenciones guiadas por ultrasonido que mejora la precisión y robustez mediante el modelado de dependencias temporales y una nueva función de pérdida de intersección y diferencia, logrando una localización de la punta superior a los métodos existentes.

Jiamei Guo, Zhehao Duan, Maria Neiiendam + 3 more2026-03-03💻 cs

← Anterior Siguiente →