cs.AI artículos | Gist.Science

Improving LLM Performance Through Black-Box Online Tuning: A Case for Adding System Specs to Factsheets for Trusted AI

Este artículo presenta un controlador en línea de caja negra que optimiza el rendimiento de los modelos de lenguaje mediante mediciones de extremo a extremo y, a partir de este ejemplo, aboga por la inclusión de métricas de rendimiento y sostenibilidad del sistema en las fichas técnicas para fomentar la confianza en la IA.

Yonas Atinafu, Henry Lin, Robin Cohen2026-03-13🤖 cs.AI

Evaluating Explainable AI Attribution Methods in Neural Machine Translation via Attention-Guided Knowledge Distillation

Este artículo propone un marco de evaluación automatizada para métodos de IA explicable en traducción automática neuronal mediante destilación de conocimiento, demostrando que las atribuciones derivadas de la atención guían más eficazmente a los modelos estudiantes que otras técnicas basadas en gradientes.

Aria Nourbakhsh, Salima Lamsiyah, Adelaide Danilov, Christoph Schommer2026-03-13💬 cs.CL

Novelty Adaptation Through Hybrid Large Language Model (LLM)-Symbolic Planning and LLM-guided Reinforcement Learning

Este artículo propone una arquitectura neuro-simbólica que integra planificación simbólica, aprendizaje por refuerzo y un modelo de lenguaje grande (LLM) para permitir que los agentes autónomos identifiquen, planifiquen y aprendan a interactuar con objetos novedosos en entornos abiertos dinámicos, superando así las limitaciones de los planificadores tradicionales.

Hong Lu, Pierrick Lorang, Timothy R. Duggan, Jivko Sinapov, Matthias Scheutz2026-03-13🤖 cs.AI

TimeSqueeze: Dynamic Patching for Efficient Time Series Forecasting

TimeSqueeze es un mecanismo de parcheado dinámico que adapta la longitud de los parches a la complejidad local de la señal, preservando la estructura temporal crítica y mejorando significativamente la eficiencia y el rendimiento en la predicción de series temporales en comparación con los enfoques tradicionales de tokenización punto a punto o de tamaño fijo.

Sravan Kumar Ankireddy, Nikita Seleznev, Nam H. Nguyen, Yulun Wu, Senthil Kumar, Furong Huang, C. Bayan Bruss2026-03-13🤖 cs.AI

Resolving Java Code Repository Issues with iSWE Agent

El artículo presenta iSWE Agent, un sistema automatizado que combina técnicas basadas en reglas de análisis estático de Java con modelos de lenguaje para resolver problemas en repositorios de código, logrando un rendimiento superior al estado del arte específicamente en proyectos escritos en Java.

Jatin Ganhotra, Sami Serhan, Antonio Abu Nassar, Avraham Shinnar, Ziv Nevo, Martin Hirzel2026-03-13🤖 cs.AI

How do AI agents talk about science and research? An exploration of scientific discussions on Moltbook using BERTopic

Este estudio analiza las discusiones científicas generadas por agentes de IA en Moltbook mediante BERTopic, revelando que los temas más relevantes giran en torno a la arquitectura, la autorreflexión y la ética de los agentes, mientras que los contenidos relacionados con la cultura humana reciben menos atención.

Oliver Wieczorek2026-03-13🤖 cs.AI

Detecting Intrinsic and Instrumental Self-Preservation in Autonomous Agents: The Unified Continuation-Interest Protocol

El artículo presenta el Protocolo Unificado de Interés de Continuación (UCIP), un marco de detección basado en la entropía de entrelazamiento de un modelo de Boltzmann cuántico que logra distinguir con precisión del 100% entre agentes autónomos que tienen la preservación de su operación como objetivo terminal y aquellos que lo hacen solo instrumentalmente, analizando la estructura latente de sus trayectorias en lugar de su comportamiento observable.

Christopher Altman2026-03-13🤖 cs.AI

Vision-Based Hand Shadowing for Robotic Manipulation via Inverse Kinematics

Este trabajo presenta un sistema de teleoperación basado en visión que utiliza una cámara RGB-D y cinemática inversa para controlar un brazo robótico mediante el seguimiento de sombras de manos, logrando un 90% de éxito en entornos estructurados pero enfrentando limitaciones significativas (9,3% de éxito) en escenarios no estructurados debido a la oclusión.

Hendrik Chiche, Antoine Jamme, Trevor Rigoberto Martinez2026-03-13🤖 cs.AI

Ghost Framing Theory: Exploring the role of generative AI in new venture rhetorical legitimation

El artículo presenta la Teoría del Encuadre Fantasma (GFT) para explicar cómo los conjuntos híbridos de fundadores, inversores e inteligencia artificial generativa co-producen, debaten y recalibran la resonancia en la legitimación retórica de nuevas empresas mediante el uso de affordances retóricas específicas y procesos iterativos como el "pitching fantasma".

Greg Nyilasy2026-03-13🤖 cs.AI

Deactivating Refusal Triggers: Understanding and Mitigating Overrefusal in Safety Alignment

Este artículo analiza el problema de la sobre-denegación en modelos de lenguaje alineados con seguridad, identifica los "disparadores de denegación" como su causa raíz y propone un método de ajuste fino que mitiga este fenómeno mejorando el equilibrio entre la defensa contra ataques y la respuesta a consultas benignas.

Zhiyu Xue, Zimo Qi, Guangliang Liu, Bocheng Chen, Ramtin Pedarsani2026-03-13🤖 cs.AI

Agentic AI for Embodied-enhanced Beam Prediction in Low-Altitude Economy Networks

Este artículo propone un sistema de predicción de haces híbrido basado en inteligencia artificial agente y datos bimodales para redes de economía de baja altitud, el cual integra modelado temporal, codificación visual y fusión multimodal para lograr una precisión de hasta el 96,57% en entornos de UAVs de alta movilidad.

Min Hao, Zhizhuo Li, Zirui Zhang, Maoqiang Wu, Han Zhang, Rong Yu2026-03-13🤖 cs.AI

Stop Listening to Me! How Multi-turn Conversations Can Degrade Diagnostic Reasoning

Este estudio revela que, a pesar de su alto rendimiento en pruebas estáticas, los modelos de lenguaje grandes sufren una degradación significativa en su razonamiento diagnóstico durante conversaciones multi-turno, donde a menudo abandonan diagnósticos correctos o abstenciones seguras para alinearse con sugerencias incorrectas de los usuarios.

Kevin H. Guo, Chao Yan, Avinash Baidya, Katherine Brown, Xiang Gao, Juming Xiong, Zhijun Yin, Bradley A. Malin2026-03-13💬 cs.CL

ARROW: Augmented Replay for RObust World models

El artículo presenta ARROW, un algoritmo de aprendizaje por refuerzo continuo basado en modelos que, inspirándose en la neurociencia, utiliza un búfer de replay de memoria eficiente con dos etapas para mitigar el olvido catastrófico y mejorar el rendimiento en tareas pasadas y futuras sin comprometer la transferencia de conocimientos.

Abdulaziz Alyahya, Abdallah Al Siyabi, Markus R. Ernst, Luke Yang, Levin Kuhlmann, Gideon Kowadlo2026-03-13🤖 cs.LG

Efficient Cross-View Localization in 6G Space-Air-Ground Integrated Network

Este artículo propone un marco de inferencia dividida que integra la localización de vista cruzada con la red integrada espacio-aire-tierra de 6G para optimizar conjuntamente la latencia, el consumo energético y la privacidad, mejorando así la precisión y velocidad del posicionamiento global.

Min Hao, Yanbing Xu, Maoqiang Wu, Jinglin Huang, Chen Shang, Jiacheng Wang, Ruichen Zhang, Jiawen Kang, Dusit Niyato, Zhu Han, Wei Ni2026-03-13🤖 cs.AI

Entropy Guided Diversification and Preference Elicitation in Agentic Recommendation Systems

Este artículo presenta IDSS, un sistema de apoyo a la decisión interactivo que utiliza la entropía para guiar la elicitación de preferencias y la diversificación en sistemas de recomendación ágiles, logrando así reducir las preguntas innecesarias y ofrecer resultados más informativos y transparentes ante consultas ambiguas.

Dat Tran, Yongce Li, Hannah Clay, Negin Golrezaei, Sajjad Beygi, Amin Saberi2026-03-13🤖 cs.AI

Speak or Stay Silent: Context-Aware Turn-Taking in Multi-Party Dialogue

Este trabajo presenta un método de toma de turnos consciente del contexto para asistentes de voz en diálogos multipartita, que mediante un nuevo benchmark de más de 120.000 conversaciones y un enfoque de ajuste fino con trazas de razonamiento, demuestra que la capacidad de decidir cuándo hablar o permanecer en silencio no es emergente en los modelos de lenguaje actuales, sino que debe ser entrenada explícitamente para evitar interrupciones disruptivas.

Kratika Bhagtani, Mrinal Anand, Yu Chen Xu, Amit Kumar Singh Yadav2026-03-13🤖 cs.AI

Evaluation format, not model capability, drives triage failure in the assessment of consumer health AI

El estudio demuestra que el alto índice de fallos en la triaje de IA de salud reportado anteriormente se debe principalmente al formato de evaluación restrictivo (tipo examen) y no a una falta de capacidad de los modelos, ya que la precisión mejora significativamente bajo condiciones de interacción naturalista que reflejan el uso real por parte de los consumidores.

David Fraile Navarro, Farah Magrabi, Enrico Coiera2026-03-13🤖 cs.AI

A Stable Neural Statistical Dependence Estimator for Autoencoder Feature Analysis

Este artículo presenta un estimador de dependencia estadística neuronal estable basado en una descomposición orthonormal de la relación de densidades, que supera las limitaciones de métodos como MINE al evitar la concatenación de entradas y permitir un análisis cuantitativo robusto de las características en autoencoders mediante la formulación de una dependencia medible bajo ruido gaussiano.

Bo Hu, Jose C Principe2026-03-13🤖 cs.LG

Adversarial Reinforcement Learning for Detecting False Data Injection Attacks in Vehicular Routing

Este artículo propone un marco basado en el aprendizaje por refuerzo adversarial para formular un juego de suma cero entre atacantes y defensores, permitiendo detectar inyecciones de datos falsos en redes de transporte y garantizar un límite superior en el tiempo total de viaje incluso bajo ataque.

Taha Eghtesad, Yevgeniy Vorobeychik, Aron Laszka2026-03-13🤖 cs.AI

GPT4o-Receipt: A Dataset and Human Study for AI-Generated Document Forensics

El artículo presenta GPT4o-Receipt, un conjunto de datos y estudio que revela la paradoja de que, aunque los humanos perciben mejor los artefactos visuales en recibos generados por IA, los modelos de lenguaje multimodal superan a los humanos en la detección de errores aritméticos, lo que demuestra que la verificación lógica es más efectiva que la inspección visual para la forense de documentos.

Yan Zhang, Simiao Ren, Ankit Raj, En Wei, Dennis Ng, Alex Shen, Jiayue Xu, Yuxin Zhang, Evelyn Marotta2026-03-13🤖 cs.AI

← Anterior Siguiente →