SHIELD8-UAV: Sequential 8-bit Hardware Implementation of a Precision-Aware 1D-F-CNN for Low-Energy UAV Acoustic Detection and Temporal Tracking

El artículo presenta SHIELD8-UAV, una implementación de hardware secuencial de 8 bits para un acelerador de CNN 1D que, mediante cuantización adaptable y poda estructurada, logra una detección acústica de UAVs precisa y de bajo consumo energético en el borde sin depender de un paralelismo masivo.

Susmita Ghanta, Karan Nathwani, Rohit Chaurasiya2026-03-03⚡ eess

Beyond Global Similarity: Towards Fine-Grained, Multi-Condition Multimodal Retrieval

Este trabajo presenta MCMR, un nuevo benchmark a gran escala diseñado para evaluar la recuperación multimodal de alta precisión bajo múltiples condiciones interdependientes, demostrando que los reordenadores basados en modelos de lenguaje multimodal mejoran significativamente la coincidencia fina al verificar explícitamente la consistencia entre la consulta y los candidatos.

Xuan Lu, Kangle Li, Haohang Huang + 3 more2026-03-03💻 cs

Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective

Este trabajo introduce AesEval-Bench, un marco integral que incluye un benchmark, una evaluación sistemática de modelos de lenguaje visuales y un conjunto de datos de entrenamiento, para establecer la primera metodología estructurada que permite a las IA evaluar la calidad estética del diseño gráfico con un nivel de detalle comparable al humano.

Arctanx An, Shizhao Sun, Danqing Huang + 5 more2026-03-03💻 cs

Egocentric Co-Pilot: Web-Native Smart-Glasses Agents for Assistive Egocentric AI

El artículo presenta "Egocentric Co-Pilot", un marco neuro-simbólico nativo de la web que ejecuta agentes de IA en gafas inteligentes para proporcionar asistencia contextual y accesible mediante la integración de razonamiento temporal, compresión de contexto y herramientas web, demostrando mejoras significativas en la satisfacción del usuario y la finalización de tareas en comparación con soluciones comerciales existentes.

Sicheng Yang, Yukai Huang, Weitong Cai + 8 more2026-03-03🤖 cs.AI

GroundedSurg: A Multi-Procedure Benchmark for Language-Conditioned Surgical Tool Segmentation

El artículo presenta GroundedSurg, el primer conjunto de datos de referencia para la segmentación de instrumentos quirúrgicos condicionada al lenguaje a nivel de instancia, diseñado para evaluar la capacidad de los modelos de visión y lenguaje para localizar instrumentos específicos basándose en descripciones naturales en diversos procedimientos quirúrgicos.

Tajamul Ashraf, Abrar Ul Riyaz, Wasif Tak + 4 more2026-03-03💻 cs

ClinCoT: Clinical-Aware Visual Chain-of-Thought for Medical Vision Language Models

El artículo presenta ClinCoT, un marco de razonamiento visual consciente del contexto clínico que transforma la optimización de preferencias de nivel de respuesta a uno guiado por la visión mediante un pipeline de generación de datos automatizado y una estrategia de optimización iterativa, logrando así una mejor alineación y reducción de alucinaciones en modelos de lenguaje visual médico.

Xiwei Liu, Yulong Li, Xinlin Zhuang + 5 more2026-03-03🤖 cs.AI

ArtLLM: Generating Articulated Assets via 3D LLM

ArtLLM es un marco novedoso que utiliza un modelo de lenguaje grande multimodal 3D para generar activos articulados de alta calidad directamente a partir de mallas 3D completas, superando las limitaciones de los métodos existentes al predecir autoregresivamente la estructura cinemática y sintetizar geometrías de partes detalladas para aplicaciones como el aprendizaje robótico y los gemelos digitales.

Penghao Wang, Siyuan Xie, Hongyu Yan + 4 more2026-03-03💻 cs

TC-SSA: Token Compression via Semantic Slot Aggregation for Gigapixel Pathology Reasoning

El artículo presenta TC-SSA, un marco de compresión de tokens mediante agregación de ranuras semánticas que resuelve el cuello de botella computacional de las imágenes patológicas gigapíxel al reducir drásticamente la secuencia de tokens sin sacrificar información diagnóstica crítica, logrando un rendimiento superior en tareas de razonamiento y clasificación.

Zhuo Chen, Shawn Young, Lijian Xu2026-03-03🤖 cs.AI

D-REX: Differentiable Real-to-Sim-to-Real Engine for Learning Dexterous Grasping

Este trabajo presenta D-REX, un motor diferenciable que utiliza representaciones de Gaussian Splat para identificar la masa de objetos a partir de observaciones reales y transferir demostraciones humanas a simulaciones, logrando así la creación de gemelos digitales de alta fidelidad y políticas de agarre dextro que reducen significativamente la brecha entre simulación y realidad.

Haozhe Lou, Mingtong Zhang, Haoran Geng + 9 more2026-03-03💻 cs