cs.AI artículos | Gist.Science

Diagnosing FP4 inference: a layer-wise and block-wise sensitivity analysis of NVFP4 and MXFP4

Este estudio realiza un análisis sistemático de la sensibilidad de la inferencia en formatos de punto flotante de 4 bits (MXFP4 y NVFP4) en modelos Qwen2.5 de distintas escalas, revelando que las capas de proyección del MLP son las más críticas y que la sensibilidad no se limita exclusivamente a los bloques finales del modelo.

Musa Cim, Burak Topcu, Mahmut Taylan Kandemir2026-03-11🤖 cs.AI

Permutation-Equivariant 2D State Space Models: Theory and Canonical Architecture for Multivariate Time Series

Este trabajo presenta el modelo VI 2D SSM, una arquitectura de espacio de estados bidimensional que garantiza la equivarianza a la permutación en series temporales multivariantes mediante una descomposición teórica en dinámicas locales e interacciones globales, eliminando dependencias secuenciales innecesarias y logrando un rendimiento superior en diversas tareas de predicción y clasificación.

Seungwoo Jeong, Heung-Il Suk2026-03-11🤖 cs.AI

Hindsight Credit Assignment for Long-Horizon LLM Agents

El documento presenta HCAPO, un marco innovador que integra la asignación de crédito retrospectiva mediante el propio LLM como crítico *post-hoc* para superar las limitaciones de los métodos sin valor en tareas de largo alcance, logrando mejoras significativas en benchmarks como WebShop y ALFWorld en comparación con GRPO.

Hui-Ze Tan, Xiao-Wen Yang, Hao Chen, Jie-Jing Shao, Yi Wen, Yuteng Shen, Weihong Luo, Xiku Du, Lan-Zhe Guo, Yu-Feng Li2026-03-11🤖 cs.AI

Turn: A Language for Agentic Computation

El artículo presenta Turn, un lenguaje de programación compilado y basado en actores diseñado específicamente para el software agéntico, que garantiza la seguridad y la autonomía mediante primitivas de tipo cognitivo, un operador de confianza, un modelo de procesos aislado, un sistema de identidad basado en capacidades y la absorción de esquemas en tiempo de compilación para integrar modelos de lenguaje grandes de forma segura y controlada.

Muyukani Kizito2026-03-11🤖 cs.AI

Generalized Reduction to the Isotropy for Flexible Equivariant Neural Fields

El artículo presenta una reducción generalizada que transforma funciones invariantes en espacios de producto bajo acciones de grupos transitivos en invariantes de un subgrupo de isotropía, permitiendo así extender los campos neuronales equivariantes a configuraciones geométricas heterogéneas sin restricciones estructurales.

Alejandro García-Castellanos, Gijs Bellaard, Remco Duits, Daniel Pelt, Erik J Bekkers2026-03-11🤖 cs.AI

EDMFormer: Genre-Specific Self-Supervised Learning for Music Structure Segmentation

El artículo presenta EDMFormer, un modelo transformer que utiliza aprendizaje auto-supervisado y el nuevo conjunto de datos EDM-98 para mejorar significativamente la segmentación estructural de la música electrónica de baile, abordando las limitaciones de los enfoques existentes que se basan en similitudes líricas o armónicas inadecuadas para este género.

Sahal Sajeer, Krish Patel, Oscar Chung, Joel Song Bae2026-03-11🤖 cs.AI

Clear, Compelling Arguments: Rethinking the Foundations of Frontier AI Safety Cases

Este artículo propone reevaluar y mejorar los marcos de los casos de seguridad para la IA de vanguardia, integrando lecciones de la industria de aseguramiento de seguridad crítica para superar las limitaciones de los enfoques actuales de la comunidad de alineación y ofrecer una metodología más robusta y defendible.

Shaun Feakins, Ibrahim Habli, Phillip Morgan2026-03-11🤖 cs.AI

Multi-level meta-reinforcement learning with skill-based curriculum

Este trabajo propone un marco de aprendizaje por refuerzo meta-multinivel que combina la compresión eficiente de procesos de decisión de Markov mediante jerarquías de habilidades con un aprendizaje curricular, logrando así reducir la complejidad de la búsqueda de políticas, facilitar la transferencia de habilidades entre tareas y niveles, y garantizar la consistencia teórica bajo suposiciones moderadas.

Sichen Yang (Johns Hopkins University), Mauro Maggioni (Johns Hopkins University)2026-03-11🤖 cs.AI

Large Language Model-Assisted Superconducting Qubit Experiments

Este trabajo presenta un marco basado en modelos de lenguaje grande que automatiza el control y la medición de cúbits superconductores mediante la generación de herramientas bajo demanda, permitiendo la ejecución autónoma de experimentos como la caracterización de resonadores y la reproducción de protocolos de medición cuántica no demolidora.

Shiheng Li, Jacob M. Miller, Phoebe J. Lee, Gustav Andersson, Christopher R. Conner, Yash J. Joshi, Bayan Karimi, Amber M. King, Howard L. Malc, Harsh Mishra, Hong Qiao, Minseok Ryu, Xuntao Wu, Siyuan Xing, Haoxiong Yan, Jian Shi, Andrew N. Cleland2026-03-11⚛️ quant-ph

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

El artículo presenta TDAD, una metodología que trata los prompts de agentes de IA como artefactos compilados mediante especificaciones conductuales y pruebas ocultas para garantizar el cumplimiento de comportamientos, prevenir regresiones silenciosas y mitigar el juego de especificaciones en agentes que utilizan herramientas.

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

El artículo presenta Scale-Plan, un marco escalable que combina modelos de lenguaje grandes con planificación simbólica para generar representaciones de problemas compactas y relevantes, superando así los desafíos de alucinación y escalabilidad en la planificación de tareas a largo plazo para equipos de robots heterogéneos.

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Este estudio demuestra mediante múltiples benchmarks y sistemas que las métricas de recuperación basadas en cobertura son indicadores fiables del alcance informativo en las respuestas generadas por sistemas RAG, especialmente cuando los objetivos de recuperación y generación están alineados.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van Durme2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

El informe técnico presenta Fish Audio S2, un sistema de texto a voz de código abierto que permite la generación multi-locutor y multi-turno con control mediante instrucciones en lenguaje natural, destacando por su alta eficiencia en inferencia en tiempo real y la disponibilidad pública de sus pesos y herramientas.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

El artículo presenta GenGNN, un marco modular de paso de mensajes que demuestra que los codificadores expresivos como los transformadores no son estrictamente necesarios para la generación de grafos discretos, ya que permite lograr una validez superior al 90% en conjuntos de datos complejos y un 99,49% en generación molecular con una velocidad de inferencia 2 a 5 veces mayor que las arquitecturas existentes.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

El artículo presenta MASEval, un marco de evaluación agnóstico que demuestra que las decisiones de implementación del sistema (como la topología y la lógica de orquestación) impactan el rendimiento tanto como la elección del modelo, permitiendo así una comparación sistemática de componentes completos de sistemas multiagente.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

El artículo presenta MuCTaL, un marco de aprendizaje profundo ligero y generalizable entrenado con datos de cuatro tipos de cáncer que logra una localización precisa de tumores en imágenes de patología digital y demuestra capacidad de adaptación a tipos tumorales no vistos, como el adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Este artículo presenta el Protocolo de Delegación de LLM (LDP), un protocolo nativo de IA que introduce mecanismos de identidad, negociación y trazabilidad para mejorar la eficiencia, la seguridad y la gobernanza en sistemas multiagente, demostrando mediante su implementación que estas primitivas reducen significativamente la latencia y el uso de tokens en tareas específicas.

Sunil Prakash2026-03-11🤖 cs.AI

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

Este estudio identifica que la interpretabilidad de las soluciones óptimas de empaquetado depende de tres propiedades estructurales cuantificables: la alineación con heurísticas voraces, la simplicidad composicional y la representación visual ordenada, lo que permite diseñar sistemas de optimización que equilibren la eficiencia algorítmica con la comprensión humana.

Dominik Pegler, Frank Jäkel, David Steyrl, Frank Scharnowski, Filip Melinscak2026-03-11🤖 cs.AI

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Este estudio presenta un marco de evaluación controlado (BCAS) para cuantificar cómo la profundidad de búsqueda, la estrategia de recuperación y el presupuesto de completado afectan la precisión y el costo en sistemas RAG agénticos, revelando que la recuperación híbrida y los presupuestos de completado adecuados optimizan el rendimiento bajo restricciones presupuestarias.

Kyle McCleary, James Ghawaly2026-03-11🤖 cs.AI

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Este artículo presenta FSbuHD, un nuevo modelo de selección de características para sistemas de información híbridos basado en la teoría de conjuntos difusos-rough que reformula el problema como una optimización utilizando distancias combinadas para superar las limitaciones de tiempo y ruido de los métodos tradicionales, demostrando su superioridad en modos normal y optimista mediante pruebas en conjuntos de datos UCI.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

← Anterior Siguiente →