cs.AI artículos | Gist.Science

Graph2Eval: Automatic Multimodal Task Generation for Agents via Knowledge Graphs

El artículo presenta Graph2Eval, un marco impulsado por grafos de conocimiento que genera automáticamente tareas multimodales escalables y semánticamente consistentes para evaluar agentes, superando las limitaciones de los conjuntos de datos estáticos y los problemas de alucinación de los LLM mediante un proceso de muestreo y filtrado riguroso.

Yurun Chen, Xavier Hu, Yuhan Liu + 8 more2026-03-06💻 cs

SpineBench: A Clinically Salient, Level-Aware Benchmark Powered by the SpineMed-450k Corpus

Este trabajo presenta SpineMed, un ecosistema co-diseñado con cirujanos que incluye el dataset SpineMed-450k y la evaluación SpineBench, logrando avances significativos en el razonamiento por niveles vertebrales para el diagnóstico de trastornos de la columna mediante modelos de lenguaje visuales.

Ming Zhao, Wenhui Dong, Yang Zhang + 23 more2026-03-06💻 cs

MachaGrasp: Morphology-Aware Cross-Embodiment Dexterous Hand Articulation Generation for Grasping

El artículo presenta MachaGrasp, un marco de generación de agarres dextrógenos de extremo a extremo y consciente de la morfología que permite la generalización entre diferentes manos robóticas mediante el uso de embeddings morfológicos y un conjunto de eigengrasp, logrando altas tasas de éxito tanto en simulación como en experimentos del mundo real con adaptación de pocos ejemplos.

Heng Zhang, Kevin Yuchen Ma, Mike Zheng Shou + 2 more2026-03-06💻 cs

Beyond Prefixes: Graph-as-Memory Cross-Attention for Knowledge Graph Completion with Large Language Models

El artículo propone GMT (Graph-as-Memory Tuning), un nuevo paradigma que supera las limitaciones de la concatenación de prefijos al representar la estructura local de los grafos de conocimiento como memoria explícita e integrarla en modelos de lenguaje grandes mediante una atención cruzada token a token, logrando así una recuperación de evidencia más precisa y un razonamiento superior para la completación de grafos de conocimiento.

Ruitong Liu, Boxu Lin, Peize Li + 4 more2026-03-06💻 cs

OmniVideoBench: Towards Audio-Visual Understanding Evaluation for Omni MLLMs

El artículo presenta OmniVideoBench, un nuevo benchmark a gran escala diseñado para evaluar de manera rigurosa la comprensión sinérgica audio-visual en modelos de lenguaje multimodal mediante 1000 pares de preguntas y respuestas de alta calidad derivados de videos diversos, revelando una brecha significativa entre el rendimiento de los modelos actuales y el razonamiento humano.

Caorui Li, Yu Chen, Yiyan Ji + 40 more2026-03-06💻 cs

True Self-Supervised Novel View Synthesis is Transferable

Este artículo presenta XFactor, el primer modelo auto-supervisado sin geometría capaz de sintetizar nuevas vistas de forma verdaderamente transferible al desvincular la pose de la cámara del contenido de la escena mediante un esquema de aumento, demostrando que la transferibilidad es el criterio clave para validar la síntesis de nuevas vistas sin necesidad de sesgos inductivos 3D.

Thomas W. Mitchel, Hyunwoo Ryu, Vincent Sitzmann2026-03-06💻 cs

Narrow Finetuning Leaves Clearly Readable Traces in Activation Differences

El artículo demuestra que el ajuste fino en dominios estrechos deja trazas legibles en las activaciones de los modelos de lenguaje, las cuales pueden ser explotadas para inferir el dominio de entrenamiento y revelan riesgos de seguridad, al tiempo que advierte que estos modelos sesgados no son representativos para estudiar el ajuste fino más generalizado.

Julian Minder, Clément Dumas, Stewart Slocum + 4 more2026-03-06💻 cs

CBF-RL: Safety Filtering Reinforcement Learning in Training with Control Barrier Functions

Este artículo presenta CBF-RL, un marco que integra Funciones de Barrera de Control (CBF) directamente en el entrenamiento de aprendizaje por refuerzo para internalizar restricciones de seguridad en la política aprendida, permitiendo un despliegue seguro y robusto en robots reales sin necesidad de filtros de seguridad en tiempo de ejecución.

Lizhi Yang, Blake Werner, Massimiliano de Sa + 1 more2026-03-06💻 cs

Pursuing Minimal Sufficiency in Spatial Reasoning

El artículo presenta MSSR, un marco de doble agente que aborda los desafíos del razonamiento espacial en modelos visión-lenguaje mediante la construcción de un Conjunto Mínimo Suficiente (MSS) de información 3D, logrando así un rendimiento superior y trazas de razonamiento interpretables al eliminar información redundante y extraer datos esenciales mediante módulos especializados.

Yejie Guo, Yunzhong Hou, Wufei Ma + 2 more2026-03-06💻 cs

SceneCOT: Eliciting Grounded Chain-of-Thought Reasoning in 3D Scenes

Este artículo presenta SceneCOT, un marco innovador que introduce el razonamiento de cadena de pensamiento fundamentado en escenas 3D junto con el primer dataset a gran escala de su tipo (SCENECOT-185K), logrando un rendimiento superior en preguntas y respuestas fundamentadas mediante un razonamiento paso a paso similar al humano.

Xiongkun Linghu, Jiangyong Huang, Ziyu Zhu + 2 more2026-03-06💻 cs

Schrödinger Bridge Mamba for One-Step Speech Enhancement

El artículo presenta Schrödinger Bridge Mamba (SBM), un modelo innovador que combina el paradigma de puente de Schrödinger con la arquitectura Mamba para lograr una mejora de voz de alta calidad en un solo paso de inferencia, superando a los métodos existentes en tareas de eliminación de ruido y reverberación con alta eficiencia en tiempo real.

Jing Yang, Sirui Wang, Chao Wu + 2 more2026-03-06💻 cs

Grasp Any Region: Towards Precise, Contextual Pixel Understanding for Multimodal LLMs

El paper presenta Grasp Any Region (GAR), un modelo que mejora la comprensión visual a nivel de región en MLLMs al integrar contextos globales y razonamiento composicional entre múltiples regiones, superando a modelos existentes en benchmarks especializados como GAR-Bench y demostrando capacidades transferibles al video.

Haochen Wang, Yuhao Wang, Tao Zhang + 13 more2026-03-06💻 cs

GhostEI-Bench: Do Mobile Agents Resilience to Environmental Injection in Dynamic On-Device Environments?

Este trabajo presenta GhostEI-Bench, el primer marco de evaluación que demuestra la vulnerabilidad de los agentes móviles basados en modelos de visión y lenguaje ante ataques de inyección ambiental en entornos dinámicos, donde elementos de interfaz adversarios engañan la percepción visual y comprometen la seguridad del dispositivo.

Chiyu Chen, Xinhao Song, Yunkai Chai, Yang Yao, Haodong Zhao, Lijun Li, Jie Li, Yan Teng, Gongshen Liu, Yingchun Wang2026-03-06🔒 cs.CR

LLEMA: Evolutionary Search with LLMs for Multi-Objective Materials Discovery

LLEMA es un marco unificado que combina el conocimiento de modelos de lenguaje grandes con reglas evolutivas y refinamiento basado en memoria para descubrir materiales novedosos que satisfacen múltiples objetivos y son químicamente plausibles, superando a los enfoques basales en diversas aplicaciones científicas.

Nikhil Abhyankar, Sanchit Kabra, Saaketh Desai + 1 more2026-03-06🔬 cond-mat.mtrl-sci

FMint-SDE: A Multimodal Foundation Model for Accelerating Numerical Simulation of SDEs via Error Correction

El artículo presenta FMint-SDE, un modelo fundacional multimodal basado en transformadores que acelera la simulación de ecuaciones diferenciales estocásticas mediante un esquema universal de corrección de errores, logrando una superior relación entre precisión y eficiencia en comparación con los métodos tradicionales.

Jiaxin Yuan, Haizhao Yang, Maria Cameron2026-03-06🔢 math

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

El artículo presenta FLoC, un marco de compresión de tokens visuales sin entrenamiento y agnóstico al modelo que utiliza la función de ubicación de instalaciones y un algoritmo greedy perezoso para seleccionar de manera eficiente un subconjunto representativo de tokens, mejorando así la comprensión de videos largos en modelos multimodales grandes.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

El artículo presenta CytoNet, un modelo fundacional auto-supervisado entrenado con un millón de parches de imágenes histológicas de cerebros humanos que permite el análisis escalable de la arquitectura celular cortical y vincula dicha microarquitectura con la organización estructural y funcional del cerebro.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

El artículo presenta RefAgent, un marco de trabajo basado en agentes LLM multiagente para la refactorización automática de software que, tras ser evaluado en proyectos Java, demuestra superar significativamente a los enfoques de agente único y herramientas tradicionales al mejorar la calidad del código, reducir los "code smells" y lograr una alta tasa de éxito en pruebas unitarias.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

El artículo presenta CoRPO, una modificación del algoritmo GRPO que introduce un umbral de corrección en la estimación de ventajas para evitar reforzar soluciones incorrectas, logrando así una mejor generalización y capacidades de razonamiento transferible entre diferentes dominios.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

El artículo presenta SASG-DA, un método de aumento de datos basado en difusión que utiliza representaciones semánticas y un muestreo consciente de la dispersión para generar muestras de señales electromiográficas superficiales (sEMG) fieles y diversas, mejorando así significativamente el reconocimiento de gestos y la generalización en comparación con métodos existentes.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

← Anterior Siguiente →