cs.AI artículos | Gist.Science

Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning

El artículo identifica el "espejismo de seguridad" en los modelos de visión y lenguaje, donde el ajuste fino supervisado refuerza correlaciones espurias que los hacen vulnerables a ataques y excesivamente cautelosos, y propone el olvido automático como solución superior que reduce significativamente tanto el éxito de los ataques como los rechazos innecesarios.

Yiwei Chen, Yuguang Yao, Yihua Zhang + 3 more2026-03-06💻 cs

Advancing Problem-Based Learning in Biomedical Engineering in the Era of Generative AI

Este estudio presenta un marco de aprendizaje basado en problemas (PBL) de tres años implementado en Georgia Tech y Emory, el cual integra exitosamente la educación en inteligencia artificial generativa en la ingeniería biomédica mediante desafíos interdisciplinarios auténticos, logrando mejoras medibles en los resultados de aprendizaje, alta productividad investigadora y una hoja de ruta escalable para la formación de estudiantes con diversos antecedentes.

Micky C. Nnamdi, J. Ben Tamo, Benoit Marteau + 2 more2026-03-06💻 cs

Assessing the Impact of Code Changes on the Fault Localizability of Large Language Models

Este estudio presenta un marco de evaluación a gran escala que demuestra que la capacidad de los modelos de lenguaje grandes para localizar fallos es frágil y depende en gran medida de señales sintéticas irrelevantes en lugar de un razonamiento semántico profundo, ya que la mayoría de las localizaciones exitosas fallan al aplicar mutaciones que preservan la semántica.

Sabaat Haroon, Ahmad Faraz Khan, Ahmad Humayun + 5 more2026-03-06💻 cs

ms-Mamba: Multi-scale Mamba for Time-Series Forecasting

Este artículo presenta ms-Mamba, una arquitectura innovadora para la predicción de series temporales que integra múltiples escalas temporales mediante bloques Mamba con diferentes tasas de muestreo, logrando un rendimiento superior al de los modelos actuales con menor uso de parámetros y recursos computacionales.

Yusuf Meric Karadag, Ismail Talaz, Ipek Gursel Dino + 1 more2026-03-06💻 cs

Enhancing multimodal analogical reasoning with Logic Augmented Generation

Este artículo presenta un marco de generación aumentada por lógica (LAG) que combina grafos de conocimiento semántico y heurísticas de prompts para mejorar el razonamiento analógico multimodal y la detección de metáforas, superando a los métodos actuales y ofreciendo procesos de razonamiento más explicables, aunque con limitaciones en metáforas específicas de dominio.

Anna Sofia Lippolis, Andrea Giovanni Nuzzolese, Aldo Gangemi2026-03-06💻 cs

Foam-Agent: Towards Automated Intelligent CFD Workflows

El artículo presenta Foam-Agent, un marco multiagente basado en modelos de lenguaje que automatiza flujos de trabajo completos de dinámica de fluidos computacional (CFD) mediante prompts en lenguaje natural, logrando una tasa de éxito del 88,2% en tareas de simulación sin intervención experta.

Ling Yue, Nithin Somasekharan, Tingwen Zhang + 4 more2026-03-06💻 cs

ReactDance: Hierarchical Representation for High-Fidelity and Coherent Long-Form Reactive Dance Generation

El artículo presenta ReactDance, un marco de difusión que utiliza una representación latente jerárquica con cuantización escalar finita (HFSQ) y muestreo de contexto local por bloques (BLC) para generar danzas reactivas de alta fidelidad y coherencia a largo plazo.

Jingzhong Lin, Xinru Li, Yuanyuan Qi + 8 more2026-03-06💻 cs

Balancing Progress and Safety: A Novel Risk-Aware Objective for RL in Autonomous Driving

Este trabajo propone un nuevo objetivo de recompensa para el Aprendizaje por Refuerzo en la conducción autónoma que integra una jerarquía de objetivos normalizados y una función elipsoidal de riesgo basada en la seguridad RSS, logrando reducir las colisiones en un 21% y mejorar el progreso en intersecciones no señalizadas.

Ahmed Abouelazm, Jonas Michel, Helen Gremmelmaier + 3 more2026-03-06💻 cs

Boundary-Guided Trajectory Prediction for Road Aware and Physically Feasible Autonomous Driving

Este artículo presenta un marco novedoso para la predicción de trayectorias en la conducción autónoma que garantiza la viabilidad física y la restricción a la vía mediante un enfoque de regresión guiada por límites, logrando una mayor robustez y generalización en escenarios adversos a pesar de una ligera reducción en las métricas de referencia.

Ahmed Abouelazm, Mianzhi Liu, Christian Hubschneider + 3 more2026-03-06💻 cs

Automatic Curriculum Learning for Driving Scenarios: Towards Robust and Efficient Reinforcement Learning

Este artículo propone un marco de aprendizaje curricular automático que genera dinámicamente escenarios de conducción adaptados a la capacidad del agente, logrando una mayor eficiencia, convergencia más rápida y una mejor generalización en comparación con métodos tradicionales de entrenamiento por refuerzo.

Ahmed Abouelazm, Tim Weinstein, Tim Joseph + 2 more2026-03-06💻 cs

Ice Cream Doesn't Cause Drowning: Benchmarking LLMs Against Statistical Pitfalls in Causal Inference

Este artículo presenta CausalPitfalls, un nuevo benchmark diseñado para evaluar rigurosamente la capacidad de los modelos de lenguaje grandes para identificar y superar trampas estadísticas en la inferencia causal, revelando así sus limitaciones actuales y proporcionando métricas para desarrollar sistemas de razonamiento más confiables.

Jin Du, Li Chen, Xun Xian + 6 more2026-03-06💻 cs

ShIOEnv: A Command Evaluation Environment for Grammar-Constrained Synthesis and Execution Behavior Modeling

El artículo presenta ShIOEnv, un entorno de shell Bash compatible con Gymnasium que utiliza síntesis restringida por gramática y una señal de irreducibilidad auto-supervisada para generar 2,1 millones de pares entrada-salida que mejoran la precisión de los modelos al predecir el comportamiento de ejecución de comandos en comparación con enfoques anteriores sin ejecución.

Jarrod Ragsdale, Rajendra Boppana2026-03-06💻 cs

VTool-R1: VLMs Learn to Think with Images via Reinforcement Learning on Multimodal Tool Use

El artículo presenta VTool-R1, un marco pionero que utiliza aprendizaje por refuerzo para entrenar modelos de lenguaje y visión (VLM) a generar cadenas de pensamiento multimodales que integran texto y pasos visuales intermedios mediante herramientas de edición, mejorando así el razonamiento en tareas como preguntas sobre gráficos y tablas sin necesidad de supervisión basada en procesos.

Mingyuan Wu, Jingcheng Yang, Jize Jiang + 6 more2026-03-06💻 cs

SealQA: Raising the Bar for Reasoning in Search-Augmented Language Models

El artículo presenta SealQA, un nuevo conjunto de datos de evaluación diseñado para medir la capacidad de razonamiento y precisión factual de los modelos de lenguaje aumentados con búsqueda en escenarios con información conflictiva o ruidosa, revelando que incluso los modelos más avanzados actuales tienen un rendimiento muy deficiente en estas tareas.

Thinh Pham, Nguyen Nguyen, Pratibha Zunjare + 3 more2026-03-06💻 cs

RoboPARA: Dual-Arm Robot Planning with Parallel Allocation and Recomposition Across Tasks

El artículo presenta RoboPARA, un marco innovador impulsado por modelos de lenguaje grande que optimiza la planificación de tareas paralelas en robots de doble brazo mediante la generación de candidatos basada en grafos de dependencia y la recomposición de grafos, validado con el nuevo conjunto de datos X-DAPT y demostrando un rendimiento superior en eficiencia y fiabilidad frente a métodos existentes.

Shiying Duan, Pei Ren, Nanxiang Jiang + 5 more2026-03-06💻 cs

A Signal Contract for Online Language Grounding and Discovery in Decision-Making

El artículo presenta LUCIFER, un middleware de inferencia que utiliza un contrato de señales para convertir actualizaciones lingüísticas en tiempo real en directrices de control agnósticas al lenguaje, mejorando así la seguridad y la eficiencia en la toma de decisiones de sistemas autónomos sin acoplar el entendimiento del lenguaje a los planificadores.

Dimitris Panagopoulos, Adolfo Perrusquia, Weisi Guo2026-03-06💻 cs

HSG-12M: A Large-Scale Benchmark of Spatial Multigraphs from the Energy Spectra of Non-Hermitian Crystals

Este trabajo presenta HSG-12M, un conjunto de datos a gran escala de 16,7 millones de multigrafos espaciales derivados de los espectros de energía de cristales no hermitianos, generado mediante la herramienta automatizada Poly2Graph para superar la falta de datos de alta calidad en física cuántica y fomentar el aprendizaje geométrico avanzado en grafos.

Xianquan Yan, Hakan Akgün, Kenji Kawaguchi + 2 more2026-03-06🔬 cond-mat.mes-hall

InterActHuman: Multi-Concept Human Animation with Layout-Aligned Audio Conditions

InterActHuman es un marco novedoso que supera las limitaciones de los métodos existentes al permitir la animación de video de múltiples conceptos con interacciones humanas y objeto-objeto, mediante un control espacial explícito que vincula condiciones multimodales (texto, imagen y audio) a regiones específicas de cada identidad.

Zhenzhi Wang, Jiaqi Yang, Jianwen Jiang + 7 more2026-03-06💻 cs

Bures-Wasserstein Flow Matching for Graph Generation

Este artículo presenta BWFlow, un marco de flujo de emparejamiento para la generación de grafos que supera las limitaciones de los métodos actuales al modelar la evolución conjunta de nodos y arcos mediante campos aleatorios de Markov y transporte óptimo, logrando así trayectorias de probabilidad más suaves, una mejor convergencia en el entrenamiento y una generación más eficiente.

Keyue Jiang, Jiahao Cui, Xiaowen Dong + 1 more2026-03-06💻 cs

Structured Kolmogorov-Arnold Neural ODEs for Interpretable Learning and Symbolic Discovery of Nonlinear Dynamics

El artículo presenta las Structured Kolmogorov-Arnold Neural ODEs (SKANODEs), un marco que combina redes KAN con ecuaciones diferenciales neuronales para recuperar estados físicos interpretables y descubrir simbólicamente las leyes dinámicas no lineales que gobiernan sistemas complejos, superando en precisión y explicabilidad a los métodos de caja negra y modelos clásicos.

Wei Liu, Kiran Bacsa, Loon Ching Tang + 1 more2026-03-06🔬 physics

← Anterior Siguiente →