cs.AI artículos | Gist.Science

Test-Driven AI Agent Definition (TDAD): Compiling Tool-Using Agents from Behavioral Specifications

El artículo presenta TDAD, una metodología que trata los prompts de agentes de IA como artefactos compilados mediante especificaciones conductuales y pruebas ocultas para garantizar el cumplimiento de comportamientos, prevenir regresiones silenciosas y mitigar el juego de especificaciones en agentes que utilizan herramientas.

Tzafrir Rehan2026-03-11🤖 cs.AI

Scale-Plan: Scalable Language-Enabled Task Planning for Heterogeneous Multi-Robot Teams

El artículo presenta Scale-Plan, un marco escalable que combina modelos de lenguaje grandes con planificación simbólica para generar representaciones de problemas compactas y relevantes, superando así los desafíos de alucinación y escalabilidad en la planificación de tareas a largo plazo para equipos de robots heterogéneos.

Piyush Gupta, Sangjae Bae, Jiachen Li, David Isele2026-03-11🤖 cs.AI

Beyond Relevance: On the Relationship Between Retrieval and RAG Information Coverage

Este estudio demuestra mediante múltiples benchmarks y sistemas que las métricas de recuperación basadas en cobertura son indicadores fiables del alcance informativo en las respuestas generadas por sistemas RAG, especialmente cuando los objetivos de recuperación y generación están alineados.

Saron Samuel, Alexander Martin, Eugene Yang, Andrew Yates, Dawn Lawrie, Ian Soborof, Laura Dietz, Benjamin Van Durme2026-03-11🤖 cs.AI

Fish Audio S2 Technical Report

El informe técnico presenta Fish Audio S2, un sistema de texto a voz de código abierto que permite la generación multi-locutor y multi-turno con control mediante instrucciones en lenguaje natural, destacando por su alta eficiencia en inferencia en tiempo real y la disponibilidad pública de sus pesos y herramientas.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

Are Expressive Encoders Necessary for Discrete Graph Generation?

El artículo presenta GenGNN, un marco modular de paso de mensajes que demuestra que los codificadores expresivos como los transformadores no son estrictamente necesarios para la generación de grafos discretos, ya que permite lograr una validez superior al 90% en conjuntos de datos complejos y un 99,49% en generación molecular con una velocidad de inferencia 2 a 5 veces mayor que las arquitecturas existentes.

Jay Revolinsky, Harry Shomer, Jiliang Tang2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

El artículo presenta MASEval, un marco de evaluación agnóstico que demuestra que las decisiones de implementación del sistema (como la topología y la lógica de orquestación) impactan el rendimiento tanto como la elección del modelo, permitiendo así una comparación sistemática de componentes completos de sistemas multiagente.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

A Lightweight Multi-Cancer Tumor Localization Framework for Deployable Digital Pathology

El artículo presenta MuCTaL, un marco de aprendizaje profundo ligero y generalizable entrenado con datos de cuatro tipos de cáncer que logra una localización precisa de tumores en imágenes de patología digital y demuestra capacidad de adaptación a tipos tumorales no vistos, como el adenocarcinoma pancreático.

Brian Isett, Rebekah Dadey, Aofei Li, Ryan C. Augustin, Kate Smith, Aatur D. Singhi, Qiangqiang Gu, Riyue Bao2026-03-11🤖 cs.AI

LDP: An Identity-Aware Protocol for Multi-Agent LLM Systems

Este artículo presenta el Protocolo de Delegación de LLM (LDP), un protocolo nativo de IA que introduce mecanismos de identidad, negociación y trazabilidad para mejorar la eficiencia, la seguridad y la gobernanza en sistemas multiagente, demostrando mediante su implementación que estas primitivas reducen significativamente la latencia y el uso de tokens en tareas específicas.

Sunil Prakash2026-03-11🤖 cs.AI

Unpacking Interpretability: Human-Centered Criteria for Optimal Combinatorial Solutions

Este estudio identifica que la interpretabilidad de las soluciones óptimas de empaquetado depende de tres propiedades estructurales cuantificables: la alineación con heurísticas voraces, la simplicidad composicional y la representación visual ordenada, lo que permite diseñar sistemas de optimización que equilibren la eficiencia algorítmica con la comprensión humana.

Dominik Pegler, Frank Jäkel, David Steyrl, Frank Scharnowski, Filip Melinscak2026-03-11🤖 cs.AI

Quantifying the Accuracy and Cost Impact of Design Decisions in Budget-Constrained Agentic LLM Search

Este estudio presenta un marco de evaluación controlado (BCAS) para cuantificar cómo la profundidad de búsqueda, la estrategia de recuperación y el presupuesto de completado afectan la precisión y el costo en sistemas RAG agénticos, revelando que la recuperación híbrida y los presupuestos de completado adecuados optimizan el rendimiento bajo restricciones presupuestarias.

Kyle McCleary, James Ghawaly2026-03-11🤖 cs.AI

A New Modeling to Feature Selection Based on the Fuzzy Rough Set Theory in Normal and Optimistic States on Hybrid Information Systems

Este artículo presenta FSbuHD, un nuevo modelo de selección de características para sistemas de información híbridos basado en la teoría de conjuntos difusos-rough que reformula el problema como una optimización utilizando distancias combinadas para superar las limitaciones de tiempo y ruido de los métodos tradicionales, demostrando su superioridad en modos normal y optimista mediante pruebas en conjuntos de datos UCI.

Mohammad Hossein Safarpour, Seyed Mohammad Alavi, Mohammad Izadikhah, Hossein Dibachi2026-03-11🤖 cs.AI

NetDiffuser: Deceiving DNN-Based Network Attack Detection Systems with Diffusion-Generated Adversarial Traffic

El artículo presenta NetDiffuser, un marco innovador que utiliza modelos de difusión y un algoritmo de categorización de características para generar ejemplos adversarios naturales que engañan eficazmente a los sistemas de detección de intrusiones basados en aprendizaje profundo.

Pratyay Kumar, Abu Saleh Md Tayeen, Satyajayant Misra, Huiping Cao, Jiefei Liu, Qixu Gong, Jayashree Harikumar2026-03-11🤖 cs.AI

Cross-Domain Uncertainty Quantification for Selective Prediction: A Comprehensive Bound Ablation with Transfer-Informed Betting

Este artículo presenta un marco ablativo integral para la predicción selectiva que introduce el método de apuestas informado por transferencia (TIB) para mejorar la cuantificación de incertidumbre en entornos con escasez de datos mediante el uso de perfiles de riesgo de dominios fuente, demostrando superioridad teórica y empírica sobre nueve familias de cotas existentes en múltiples benchmarks.

Abhinaba Basu2026-03-11🤖 cs.AI

FedLECC: Cluster- and Loss-Guided Client Selection for Federated Learning under Non-IID Data

El artículo presenta FedLECC, una estrategia ligera de selección de clientes para el aprendizaje federado que agrupa a los dispositivos según la similitud de sus distribuciones de etiquetas y prioriza aquellos con mayor pérdida local, logrando así mejorar la precisión, reducir las rondas de comunicación y disminuir la sobrecarga en entornos con datos no IID.

Daniel M. Jimenez-Gutierrez, Giovanni Giunta, Mehrdad Hassanzadeh, Aris Anagnostopoulos, Ioannis Chatzigiannakis, Andrea Vitaletti2026-03-11🤖 cs.AI

Uncovering a Winning Lottery Ticket with Continuously Relaxed Bernoulli Gates

Este artículo propone un enfoque totalmente diferenciable para descubrir boletos de lotería fuertes (SLT) mediante el uso de puertas de Bernoulli relajadas continuamente, lo que permite optimizar la esparsidad de redes neuronales sobreparametrizadas sin entrenamiento de pesos y lograr hasta un 90% de reducción de parámetros con mínima pérdida de precisión.

Itamar Tsayag, Ofir Lindenbaum2026-03-11🤖 cs.AI

Quantifying Uncertainty in AI Visibility: A Statistical Framework for Generative Search Measurement

Este artículo demuestra que las métricas de visibilidad en motores de búsqueda generativos son inherentemente estocásticas y variables, por lo que las estimaciones de un solo intento son engañosas y deben reemplazarse por un marco estadístico que cuantifique la incertidumbre mediante intervalos de confianza y análisis de distribuciones.

Ronald Sielinski2026-03-11🤖 cs.AI

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Este estudio presenta un nuevo enfoque que utiliza modelos fundacionales de visión y lenguaje (Gemma 3 y Qwen3-VL) para generar configuraciones JSON de simulaciones de plantas a partir de imágenes de drones, demostrando su potencial para escalar la creación de gemelos digitales agrícolas mediante aprendizaje en contexto, aunque también revela limitaciones en la precisión de los parámetros biofísicos cuando faltan pistas visuales claras.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason Earles2026-03-11🤖 cs.AI

Interpretable Markov-Based Spatiotemporal Risk Surfaces for Missing-Child Search Planning with Reinforcement Learning and LLM-Based Quality Assurance

El sistema Guardian presenta un marco de decisión interpretable que combina cadenas de Markov, aprendizaje por refuerzo y validación mediante modelos de lenguaje grandes para generar planes de búsqueda óptimos y dinámicos para casos de niños desaparecidos durante las primeras 72 horas.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

El artículo presenta PathoScribe, un marco unificado impulsado por modelos de lenguaje grandes que transforma los archivos de patología estáticos en una biblioteca viva y razonable, permitiendo la recuperación semántica, la construcción automatizada de cohortes y la integración clínica con una precisión y eficiencia significativamente superiores a los métodos tradicionales.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

El artículo presenta VoxEmo, un benchmark integral para la evaluación de modelos de lenguaje de voz en el reconocimiento de emociones, que aborda desafíos como la variabilidad de los prompts y la ambigüedad humana mediante un conjunto de datos multilingüe, un protocolo de etiquetas suaves y estrategias de consenso para alinear mejor los resultados generativos con la percepción subjetiva humana.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

← Anterior Siguiente →