KARL: Knowledge Agents via Reinforcement Learning

El artículo presenta KARL, un sistema de agentes de búsqueda empresarial entrenados mediante aprendizaje por refuerzo que, gracias a un nuevo paradigma de entrenamiento, datos sintéticos diversos y la evaluación en el nuevo benchmark KARLBench, logra un rendimiento superior y más eficiente en costo que los modelos comerciales más avanzados en tareas complejas de razonamiento y recuperación de conocimiento.

Jonathan D. Chang, Andrew Drozdov, Shubham Toshniwal + 23 more2026-03-06🤖 cs.AI

SPyCer: Semi-Supervised Physics-Guided Contextual Attention for Near-Surface Air Temperature Estimation from Satellite Imagery

El artículo presenta SPyCer, una red neuronal semi-supervisada y guiada por principios físicos que utiliza imágenes satelitales y modelos de balance energético para estimar con mayor precisión y coherencia espacial la temperatura del aire cerca de la superficie, superando las limitaciones de las redes de sensores terrestres dispersos.

Sofiane Bouaziz, Adel Hafiane, Raphael Canals + 1 more2026-03-06🤖 cs.AI

The Geometric Inductive Bias of Grokking: Bypassing Phase Transitions via Architectural Topology

Este estudio demuestra que modificar la topología arquitectónica de los Transformers, específicamente imponiendo una topología esférica acotada y eliminando el enrutamiento de atención dependiente de los datos, permite eludir la fase de memorización y acelerar drásticamente la generalización en tareas de adición modular, revelando que la alineación entre los sesgos arquitectónicos y las simetrías intrínsecas de la tarea es fundamental para superar el fenómeno de "grokking".

Alper Yıldırım2026-03-06🤖 cs.AI

Not All Trust is the Same: Effects of Decision Workflow and Explanations in Human-AI Decision Making

Este estudio examina cómo el flujo de decisión, las explicaciones y la experiencia del usuario influyen en la confianza y el comportamiento de dependencia en la toma de decisiones asistida por IA, revelando que la configuración de dos pasos no reduce la sobreconfianza y que la confianza declarada y el comportamiento de dependencia son constructos distintos que deben evaluarse por separado.

Laura Spillner, Rachel Ringe, Robert Porzel + 1 more2026-03-06🤖 cs.AI

Boosting ASR Robustness via Test-Time Reinforcement Learning with Audio-Text Semantic Rewards

Este trabajo presenta ASR-TRA, un marco de adaptación en tiempo de prueba basado en aprendizaje por refuerzo que mejora la robustez de los sistemas de reconocimiento automático de voz frente a ruido y acentos diversos mediante la optimización de la alineación semántica audio-texto, superando así los sesgos de confirmación de los métodos existentes.

Linghan Fang, Tianxin Xie, Li Liu2026-03-06🤖 cs.AI

Reclaiming Lost Text Layers for Source-Free Cross-Domain Few-Shot Learning

Este artículo propone un método para recuperar y reutilizar la información de las capas intermedias subutilizadas del codificador de texto de CLIP, superando las limitaciones de enfoques previos que las eliminaban, con el fin de mejorar el aprendizaje de pocos ejemplos libre de fuentes en dominios cruzados mediante la guía de la rama visual durante los cambios de dominio.

Zhenyu Zhang, Guangyao Chen, Yixiong Zou + 2 more2026-03-06🤖 cs.AI

Whispering to a Blackbox: Bootstrapping Frozen OCR with Visual Prompts

El artículo presenta "The Whisperer", un marco de visual prompting que utiliza un curriculum de cuatro etapas basado en clonación conductual para entrenar preprocesadores difusivos que mejoran la entrada de modelos OCR congelados, logrando una reducción significativa en la tasa de error de caracteres sin modificar los pesos del modelo original.

Samandar Samandarov, Nazirjon Ismoiljonov, Abdullah Sattorov + 1 more2026-03-06🤖 cs.AI

X-RAY: Mapping LLM Reasoning Capability via Formalized and Calibrated Probes

El artículo presenta X-RAY, un sistema de análisis explicable que utiliza sondas formalmente calibradas para mapear y revelar las capacidades de razonamiento de los modelos de lenguaje grandes, identificando una asimetría sistemática donde estos modelos son robustos ante el refinamiento de restricciones pero frágiles ante la reestructuración del espacio de soluciones.

Gao Tianxi, Cai Yufan, Yuan Yusi + 1 more2026-03-06🤖 cs.AI

WebChain: A Large-Scale Human-Annotated Dataset of Real-World Web Interaction Traces

El artículo presenta WebChain, el conjunto de datos de código abierto más grande de trazas de interacción web anotadas por humanos, diseñado para acelerar la investigación reproducible en agentes web mediante un enfoque de alineación triple y una estrategia de entrenamiento dual que logra un rendimiento superior en benchmarks de interfaces gráficas.

Sicheng Fan, Rui Wan, Yifei Leng + 4 more2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Med-V1 es una familia de modelos de lenguaje pequeños y eficientes que, entrenados con datos sintéticos de alta calidad, superan a sus modelos base y rivalizan con modelos avanzados como GPT-5 en la atribución de evidencia biomédica, permitiendo aplicaciones escalables como la detección de alucinaciones en respuestas generadas por IA y la identificación de errores en guías clínicas.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

GALACTIC: Global and Local Agnostic Counterfactuals for Time-series Clustering

El artículo presenta GALACTIC, el primer marco unificado que combina explicaciones contrafactuales locales y globales para el agrupamiento de series temporales no supervisado, utilizando una optimización sensible a los clústeres y un algoritmo voraz basado en la Longitud Mínima de Descripción (MDL) para generar explicaciones mínimas y no redundantes con garantías teóricas.

Christos Fragkathoulas, Eleni Psaroudaki, Themis Palpanas + 1 more2026-03-06🤖 cs.AI