cs.AI artículos | Gist.Science

KARL: Knowledge Agents via Reinforcement Learning

El artículo presenta KARL, un sistema de agentes de búsqueda empresarial entrenados mediante aprendizaje por refuerzo que, gracias a un nuevo paradigma de entrenamiento, datos sintéticos diversos y la evaluación en el nuevo benchmark KARLBench, logra un rendimiento superior y más eficiente en costo que los modelos comerciales más avanzados en tareas complejas de razonamiento y recuperación de conocimiento.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

El artículo presenta SPyCer, una red neuronal semi-supervisada y guiada por principios físicos que utiliza imágenes satelitales y modelos de balance energético para estimar con mayor precisión y coherencia espacial la temperatura del aire cerca de la superficie, superando las limitaciones de las redes de sensores terrestres dispersos.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

AI+HW 2035: Shaping the Next Decade

Esta visión presenta una hoja de ruta de diez años para el diseño conjunto de inteligencia artificial y hardware, proponiendo una estrategia coordinada que priorice la eficiencia energética, la integración sistémica y la sostenibilidad para lograr avances exponenciales en la próxima década.

Deming Chen, Jason Cong, Azalia Mirhoseini + 27 more2026-03-06🤖 cs.AI

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Este estudio demuestra que modificar la topología arquitectónica de los Transformers, específicamente imponiendo una topología esférica acotada y eliminando el enrutamiento de atención dependiente de los datos, permite eludir la fase de memorización y acelerar drásticamente la generalización en tareas de adición modular, revelando que la alineación entre los sesgos arquitectónicos y las simetrías intrínsecas de la tarea es fundamental para superar el fenómeno de "grokking".

Alper Yıldırım2026-03-06🤖 cs.AI

Not All Trust is the Same: Effects of Decision Workflow and Explanations in Human-AI Decision Making

Este estudio examina cómo el flujo de decisión, las explicaciones y la experiencia del usuario influyen en la confianza y el comportamiento de dependencia en la toma de decisiones asistida por IA, revelando que la configuración de dos pasos no reduce la sobreconfianza y que la confianza declarada y el comportamiento de dependencia son constructos distintos que deben evaluarse por separado.

Laura Spillner, Rachel Ringe, Robert Porzel + 1 more2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Este trabajo presenta ASR-TRA, un marco de adaptación en tiempo de prueba basado en aprendizaje por refuerzo que mejora la robustez de los sistemas de reconocimiento automático de voz frente a ruido y acentos diversos mediante la optimización de la alineación semántica audio-texto, superando así los sesgos de confirmación de los métodos existentes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

Recursive Inference Machines for Neural Reasoning

Este trabajo presenta las Máquinas de Inferencia Recursiva (RIMs), un marco de razonamiento neuronal que integra mecanismos de inferencia recursiva para mejorar el rendimiento de modelos como los TRM en tareas complejas de razonamiento y clasificación de datos tabulares.

Mieszko Komisarczyk, Saurabh Mathur, Maurice Kraus + 2 more2026-03-06🤖 cs.AI

Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning

Este artículo propone un método para recuperar y reutilizar la información de las capas intermedias subutilizadas del codificador de texto de CLIP, superando las limitaciones de enfoques previos que las eliminaban, con el fin de mejorar el aprendizaje de pocos ejemplos libre de fuentes en dominios cruzados mediante la guía de la rama visual durante los cambios de dominio.

Zhenyu Zhang, Guangyao Chen, Yixiong Zou + 2 more2026-03-06🤖 cs.AI

GCAgent: Enhancing Group Chat Communication through Dialogue Agents System

El sistema GCAgent, impulsado por modelos de lenguaje grandes, mejora la comunicación en chats grupales mediante agentes de diálogo personalizados que gestionan estados conversacionales y reducen barreras de interacción, logrando un aumento significativo en el volumen de mensajes y la participación de los usuarios.

Zijie Meng, Zheyong Xie, Zheyu Ye + 5 more2026-03-06🤖 cs.AI

Visual-Informed Speech Enhancement Using Attention-Based Beamforming

Este artículo presenta la VI-NBFNet, una red neuronal de formación de haces que integra señales de micrófono y movimientos labiales extraídos de un modelo visual para mejorar la robustez y el rendimiento de la realce de voz en entornos complejos con hablantes estáticos o dinámicos.

Chihyun Liu, Jiaxuan Fan, Mingtung Sun + 3 more2026-03-06🤖 cs.AI

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

El artículo presenta "The Whisperer", un marco de visual prompting que utiliza un curriculum de cuatro etapas basado en clonación conductual para entrenar preprocesadores difusivos que mejoran la entrada de modelos OCR congelados, logrando una reducción significativa en la tasa de error de caracteres sin modificar los pesos del modelo original.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

El artículo presenta X-RAY, un sistema de análisis explicable que utiliza sondas formalmente calibradas para mapear y revelar las capacidades de razonamiento de los modelos de lenguaje grandes, identificando una asimetría sistemática donde estos modelos son robustos ante el refinamiento de restricciones pero frágiles ante la reestructuración del espacio de soluciones.

Gao Tianxi, Cai Yufan, Yuan Yusi + 1 more2026-03-06🤖 cs.AI

STRUCTUREDAGENT: Planning with AND/OR Trees for Long-Horizon Web Tasks

El artículo presenta STRUCTUREDAGENT, un marco de planificación jerárquica que utiliza árboles AND/OR dinámicos y un módulo de memoria estructurada para superar las limitaciones de los agentes web actuales en tareas de navegación a largo plazo, mejorando significativamente su rendimiento y capacidad de depuración.

ELita Lobo, Xu Chen, Jingjing Meng + 5 more2026-03-06🤖 cs.AI

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

El artículo presenta WebChain, el conjunto de datos de código abierto más grande de trazas de interacción web anotadas por humanos, diseñado para acelerar la investigación reproducible en agentes web mediante un enfoque de alineación triple y una estrategia de entrenamiento dual que logra un rendimiento superior en benchmarks de interfaces gráficas.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

El artículo presenta WavSLM, un modelo de lenguaje de voz de un solo flujo que, mediante la cuantización y destilación de representaciones de WavLM sin supervisión textual, logra generar habla coherente y semánticamente consistente de manera eficiente y con inferencia en tiempo real.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

UniSTOK: Uniform Inductive Spatio-Temporal Kriging

El artículo presenta UniSTOK, un marco de aprendizaje inductivo que mejora la kriging espacio-temporal ante datos faltantes heterogéneos mediante una arquitectura de doble rama que integra observaciones originales y señales proxy generadas, fusionadas adaptativamente para preservar la estructura local y distinguir entre señales reales y artefactos de missingness.

Lewei Xie, Haoyu Zhang, Juan Yuan + 3 more2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 es una familia de modelos de lenguaje pequeños y eficientes que, entrenados con datos sintéticos de alta calidad, superan a sus modelos base y rivalizan con modelos avanzados como GPT-5 en la atribución de evidencia biomédica, permitiendo aplicaciones escalables como la detección de alucinaciones en respuestas generadas por IA y la identificación de errores en guías clínicas.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

Latent-Mark: An Audio Watermark Robust to Neural Resynthesis

Latent-Mark es un marco de marca de agua de audio de cero bits que logra una robustez sin precedentes frente a la resíntesis neuronal al incrustar la marca en el espacio latente invariante del códec mediante optimización cruzada, garantizando así su transferibilidad a códecs no vistos y su imperceptibilidad.

Yen-Shan Chen, Shih-Yu Lai, Ying-Jung Tsou + 5 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Este trabajo presenta PersianPunc, un gran conjunto de datos de 17 millones de muestras para la restauración de puntuación en persa, junto con un modelo eficiente basado en ParsBERT que supera a los grandes modelos de lenguaje al lograr un alto rendimiento sin correcciones excesivas ni altos costos computacionales.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

El artículo presenta GALACTIC, el primer marco unificado que combina explicaciones contrafactuales locales y globales para el agrupamiento de series temporales no supervisado, utilizando una optimización sensible a los clústeres y un algoritmo voraz basado en la Longitud Mínima de Descripción (MDL) para generar explicaciones mínimas y no redundantes con garantías teóricas.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI

← Anterior Siguiente →