cs.AI artículos | Gist.Science

AI Act Evaluation Benchmark: An Open, Transparent, and Reproducible Evaluation Dataset for NLP and RAG Systems

Este artículo presenta un conjunto de datos abierto, transparente y reproducible diseñado para evaluar la conformidad de los sistemas NLP y RAG con la Ley de IA de la UE, mediante la generación automatizada de tareas de clasificación de riesgos, recuperación de artículos y generación de obligaciones que superan las limitaciones de las evaluaciones manuales.

Athanasios Davvetas, Michael Papademas, Xenia Ziouvelou, Vangelis Karkaletsis2026-03-11🤖 cs.AI

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

El artículo presenta OncoAgent, un agente de IA consciente de las directrices clínicas que genera automáticamente volúmenes tumorales en radioterapia sin necesidad de reentrenamiento, logrando un rendimiento comparable a modelos supervisados y una mayor preferencia clínica gracias a su capacidad de adaptación inmediata a diferentes guías y sitios anatómicos.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung Kim2026-03-11🤖 cs.AI

Variational Routing: A Scalable Bayesian Framework for Calibrated Mixture-of-Experts Transformers

El artículo presenta VMoER, un enfoque bayesiano escalable que integra la cuantificación de incertidumbre en las capas de Mezcla de Expertos (MoE) de los modelos fundacionales mediante la inferencia variacional en la etapa de enrutamiento, logrando una mejora significativa en la estabilidad, calibración y detección de datos fuera de distribución con un costo computacional marginal.

Albus Yizhuo Li, Matthew Wicker2026-03-11🤖 cs.AI

Declarative Scenario-based Testing with RoadLogic

El artículo presenta RoadLogic, una herramienta de código abierto que utiliza programación lógica y planificación de movimiento para convertir automáticamente especificaciones declarativas de escenarios de OpenSCENARIO en simulaciones ejecutables y verificadas, facilitando así la prueba sistemática de vehículos autónomos.

Ezio Bartocci, Alessio Gambi, Felix Gigler, Cristinel Mateis, Dejan Ničkovic2026-03-11🤖 cs.AI

An Empirical Study and Theoretical Explanation on Task-Level Model-Merging Collapse

Este artículo identifica y explica teóricamente el "colapso de fusión" en modelos de lenguaje, demostrando mediante análisis empírico que la incompatibilidad de representaciones entre tareas, y no los conflictos en el espacio de parámetros, es la causa principal de la degradación catastrófica del rendimiento al combinar modelos especializados.

Yuan Cao, Dezhi Ran, Yuzhe Guo, Mengzhou Wu, Simin Chen, Linyi Li, Wei Yang, Tao Xie2026-03-11🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

El artículo presenta EvoDriveVLA, un marco innovador de destilación colaborativa percepción-planificación que integra restricciones perceptuales autoancladas y optimización de trayectorias guiada por oráculos para superar las limitaciones de los modelos VLA en la conducción autónoma y lograr un rendimiento superior tanto en evaluaciones de circuito abierto como cerrado.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang Zhang2026-03-11🤖 cs.AI

Telogenesis: Goal Is All U Need

El artículo "Telogenesis" demuestra que las prioridades atencionales pueden emerger endógenamente sin recompensas externas mediante un mecanismo que prioriza la ignorancia, la sorpresa y el envejecimiento de la información, logrando así una cobertura adaptativa superior y la recuperación espontánea de la estructura ambiental latente.

Zhuoran Deng, Yizhi Zhang, Ziyi Zhang, Wan Shen2026-03-11🤖 cs.AI

GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

El artículo presenta GenePlan, un marco novedoso que utiliza algoritmos evolutivos asistidos por modelos de lenguaje grandes para generar planificadores generalizados en Python que minimizan la longitud de los planes en tareas de planificación PDDL, logrando un rendimiento comparable al de los planificadores más avanzados y superando significativamente a otros enfoques basados en LLM.

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore2026-03-11🤖 cs.AI

Vibe-Creation: The Epistemology of Human-AI Emergent Cognition

Este artículo propone que la interacción entre el razonamiento humano y la inteligencia artificial generativa crea una "Tercera Entidad" emergente caracterizada por la "creación de atmósferas" (vibe-creation), un modo cognitivo que automatiza el conocimiento tácito y redefine la agencia, la epistemología y la educación mediante una emergencia asimétrica.

Ilya Levin2026-03-11🤖 cs.AI

Temporal-Conditioned Normalizing Flows for Multivariate Time Series Anomaly Detection

Este artículo presenta tcNF, un marco novedoso de flujos normalizadores condicionados temporalmente que mejora la detección de anomalías en series temporales multivariadas al modelar con precisión las dependencias temporales y la incertidumbre mediante un enfoque autoregresivo.

David Baumgartner, Helge Langseth, Kenth Engø-Monsen, Heri Ramampiaro2026-03-11🤖 cs.AI

Evolving Prompt Adaptation for Vision-Language Models

El artículo presenta EvoPrompt, un marco innovador que utiliza proyecciones compartidas de modality y una estrategia de entrenamiento evolutivo para adaptar modelos de visión y lenguaje a nuevas tareas con pocos datos sin olvidar el conocimiento preentrenado.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang Li2026-03-11🤖 cs.AI

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

El artículo presenta EDA, un marco eficiente en parámetros y datos que restaura el rendimiento de la decodificación especulativa en modelos de lenguaje ajustados mediante una arquitectura desacoplada, una estrategia de regeneración de datos y un mecanismo de selección de muestras, logrando así una adaptación rápida y de bajo costo sin necesidad de reentrenamiento completo.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Este estudio propone un método novedoso que utiliza modelos de lenguaje grandes (LLM) para adaptar mensajes de desinformación a los rasgos de personalidad de los usuarios, demostrando que estas versiones personalizadas son más persuasivas que las genéricas y ofreciendo una evaluación automatizada que plantea importantes interrogantes éticos sobre su uso.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. Passaro2026-03-11🤖 cs.AI

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Este trabajo demuestra que el algoritmo de dualidad del espacio de estados de Mamba-2 puede implementarse completamente mediante primitivas estándar compiladas por XLA sin kernels personalizados, logrando una inferencia autoregresiva con caché $O(1)$ portátil y de alto rendimiento en CPU, GPU y TPU.

Cosmo Santoni2026-03-11🤖 cs.AI

Routing without Forgetting

El artículo presenta "Routing without Forgetting" (RwF), una arquitectura de transformador que aborda el aprendizaje continuo en línea mediante la generación dinámica de prompts a través de recuperación asociativa basada en energía, superando a los métodos existentes sin necesidad de identificadores de tarea explícitos ni optimización iterativa.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

Este trabajo propone un formalismo general basado en la conservación de la energía y el principio de acción extrema que aproxima la retropropagación a través del tiempo (BPTT) mediante dinámicas neuronales locales y continuas, ofreciendo un marco biológicamente plausible para el aprendizaje espaciotemporal en el cerebro y extendiendo el modelo de Equilibrio Latente Generalizado (GLE).

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. Petrovici2026-03-11🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Este artículo propone la ingeniería de contexto como una disciplina fundamental que, junto con la ingeniería de intención y especificación, forma un modelo de madurez en pirámide para gestionar la complejidad de los sistemas de agentes corporativos autónomos, superando las limitaciones de la ingeniería de prompts tradicional mediante el diseño estructurado del entorno informativo, los objetivos organizacionales y las políticas corporativas.

Vera V. Vishnyakova2026-03-11🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

Este trabajo presenta un marco interpretable basado en modelos de visión y lenguaje para la generación y evaluación de datos sintéticos en teledetección, introduciendo el dataset ARAS400k que demuestra que la combinación de datos reales y sintéticos mejora consistentemente el rendimiento en tareas de segmentación semántica y descripción de imágenes.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

El documento presenta PRECEPT, un marco unificado para la adaptación en tiempo de prueba en agentes LLM que combina recuperación exacta de reglas, memoria consciente de conflictos y evolución de prompts guiada por Pareto para superar la degradación en la recuperación de conocimientos, mejorar la composición de reglas y garantizar la robustez ante conocimientos obsoletos o adversarios.

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

El artículo propone MM-tau-p $^2$ , un nuevo marco de evaluación con 12 métricas innovadoras diseñado para medir la robustez y el rendimiento de agentes multimodales adaptativos en entornos de doble control, abordando la falta de personalización en las evaluaciones actuales mediante un enfoque automatizado basado en LLM-as-judge en los sectores de telecomunicaciones y retail.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

← Anterior Siguiente →

cs.AI