GenePlan: Evolving Better Generalized PDDL Plans using Large Language Models

El artículo presenta GenePlan, un marco novedoso que utiliza algoritmos evolutivos asistidos por modelos de lenguaje grandes para generar planificadores generalizados en Python que minimizan la longitud de los planes en tareas de planificación PDDL, logrando un rendimiento comparable al de los planificadores más avanzados y superando significativamente a otros enfoques basados en LLM.

Andrew Murray, Danial Dervovic, Alberto Pozanco, Michael Cashmore2026-03-11🤖 cs.AI

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

El artículo presenta EDA, un marco eficiente en parámetros y datos que restaura el rendimiento de la decodificación especulativa en modelos de lenguaje ajustados mediante una arquitectura desacoplada, una estrategia de regeneración de datos y un mecanismo de selección de muestras, logrando así una adaptación rápida y de bajo costo sin necesidad de reentrenamiento completo.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Este estudio propone un método novedoso que utiliza modelos de lenguaje grandes (LLM) para adaptar mensajes de desinformación a los rasgos de personalidad de los usuarios, demostrando que estas versiones personalizadas son más persuasivas que las genéricas y ofreciendo una evaluación automatizada que plantea importantes interrogantes éticos sobre su uso.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. Passaro2026-03-11🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

Este trabajo propone un formalismo general basado en la conservación de la energía y el principio de acción extrema que aproxima la retropropagación a través del tiempo (BPTT) mediante dinámicas neuronales locales y continuas, ofreciendo un marco biológicamente plausible para el aprendizaje espaciotemporal en el cerebro y extendiendo el modelo de Equilibrio Latente Generalizado (GLE).

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. Petrovici2026-03-11🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Este artículo propone la ingeniería de contexto como una disciplina fundamental que, junto con la ingeniería de intención y especificación, forma un modelo de madurez en pirámide para gestionar la complejidad de los sistemas de agentes corporativos autónomos, superando las limitaciones de la ingeniería de prompts tradicional mediante el diseño estructurado del entorno informativo, los objetivos organizacionales y las políticas corporativas.

Vera V. Vishnyakova2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

El documento presenta PRECEPT, un marco unificado para la adaptación en tiempo de prueba en agentes LLM que combina recuperación exacta de reglas, memoria consciente de conflictos y evolución de prompts guiada por Pareto para superar la degradación en la recuperación de conocimientos, mejorar la composición de reglas y garantizar la robustez ante conocimientos obsoletos o adversarios.

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p2^2: Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

El artículo propone MM-tau-p2^2, un nuevo marco de evaluación con 12 métricas innovadoras diseñado para medir la robustez y el rendimiento de agentes multimodales adaptativos en entornos de doble control, abordando la falta de personalización en las evaluaciones actuales mediante un enfoque automatizado basado en LLM-as-judge en los sectores de telecomunicaciones y retail.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

El artículo presenta MiniAppBench, el primer benchmark integral que evalúa la capacidad de los modelos de lenguaje para generar aplicaciones interactivas basadas en HTML (MiniApps), junto con MiniAppEval, un marco de evaluación automatizado que utiliza agentes para verificar la calidad de estas aplicaciones en dimensiones de intención, estática y dinámica, demostrando una alta alineación con el juicio humano.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

El artículo presenta KV-Lock, un marco de entrenamiento gratuito para modelos de difusión de video basados en DiT que sincroniza dinámicamente el bloqueo de claves y valores del fondo con la escala de guía condicional para mejorar la calidad del primer plano manteniendo la consistencia del fondo.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Este trabajo presenta un marco de código abierto para la detección de anomalías en series temporales mediante redes neuronales gráficas (GNN), que no solo demuestra mejoras en el rendimiento y la interpretabilidad, sino que también ofrece una evaluación crítica de las prácticas actuales de métricas y umbrales en el campo.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Este artículo presenta el marco Omni Parsing y el modelo Logics-Parsing-Omni, que integran detección holística, reconocimiento detallado e interpretación multinivel para convertir señales audiovisuales no estructuradas en conocimiento estructurado y trazable mediante un mecanismo de anclaje de evidencia, todo ello respaldado por el nuevo conjunto de datos y el benchmark OmniParsingBench.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Este estudio presenta un marco de clasificación automatizado para la gestión de riesgos cardíacos en pacientes geriátricos que, al utilizar registros de salud electrónicos no estructurados, demuestra que una arquitectura Transformer personalizada supera a los métodos tradicionales y a los modelos de lenguaje generativos, ofreciendo una alternativa robusta a la codificación manual.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI