cs.AI artículos | Gist.Science

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Este capítulo revisa cómo los modelos computacionales de aprendizaje auto-supervisado y visualmente fundamentado permiten explicar la adquisición temprana del lenguaje a partir de señales acústicas y audiovisuales sin recurrir a prios lingüísticos, demostrando que principios de aprendizaje compartidos pueden replicar tanto el comportamiento de los modelos como los hallazgos empíricos sobre el desarrollo infantil.

Okko Räsänen2026-03-10💬 cs.CL

M $^3$ -ACE: Rectifying Visual Perception in Multimodal Math Reasoning via Multi-Agentic Context Engineering

El artículo presenta M³-ACE, un marco de ingeniería de contexto multiagente que mejora el razonamiento matemático multimodal al corregir la percepción visual inexacta mediante la colaboración dinámica de agentes y herramientas de refinamiento, logrando nuevos récords en benchmarks como MathVision.

Peijin Xie, Zhen Xu, Bingquan Liu, Baoxun Wang2026-03-10💻 cs

A Hierarchical Error-Corrective Graph Framework for Autonomous Agents with LLM-Based Action Generation

El artículo presenta HECG, un marco jerárquico de grafos correctivo de errores para agentes autónomos que integra una estrategia transferible multidimensional, una clasificación matricial de errores detallada y una recuperación causal basada en grafos para optimizar la generación de acciones mediante LLM y mejorar la fiabilidad en tareas complejas.

Cong Cao, Jingyao Zhang, Kun Tong2026-03-10💻 cs

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Este trabajo presenta ToCoRL, un marco de aprendizaje por refuerzo que aprovecha la plasticidad conductual inherente de los modelos de lenguaje grandes mediante la generación condicional a tokens, permitiendo adaptar sus patrones de comportamiento (como cambiar del razonamiento paso a paso a respuestas directas) de manera estable y precisa sin degradar sus capacidades.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

A Recipe for Stable Offline Multi-agent Reinforcement Learning

Este trabajo aborda la inestabilidad de la descomposición no lineal de valores en el aprendizaje por refuerzo multiagente fuera de línea proponiendo la normalización de valores invariante a la escala (SVN) y derivando una receta práctica que estabiliza el entrenamiento y desbloquea el potencial completo de este paradigma.

Dongsu Lee, Daehee Lee, Amy Zhang2026-03-10🤖 cs.LG

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Este artículo demuestra que tanto los humanos como los modelos de lenguaje son vulnerables a la "ceguera de elección" en los sistemas de retroalimentación, lo que revela que las señales de preferencia utilizadas en el Aprendizaje por Refuerzo a partir de Retroalimentación Humana (RLHF) están distorsionadas por el contexto de elicitaación y no reflejan estados internos estables, comprometiendo así la eficacia del entrenamiento de modelos.

Wenbin Wu2026-03-10💬 cs.CL

Geometrically Constrained Outlier Synthesis

El artículo presenta GCOS, un marco de regularización que sintetiza outliers virtuales en el espacio de características respetando la estructura del manifold de los datos, mejorando así la detección robusta de datos fuera de distribución y permitiendo inferencia conformal con garantías de error formal.

Daniil Karzanov, Marcin Detyniecki2026-03-10🤖 cs.LG

Human-Aware Robot Behaviour in Self-Driving Labs

Este estudio presenta un método de percepción impulsado por IA con un modelo jerárquico de predicción de intenciones humanas que permite a los robots móviles en laboratorios autónomos anticipar las acciones de los investigadores para facilitar interacciones proactivas y mejorar la eficiencia en entornos compartidos.

Satheeshkumar Veeramani, Anna Kisil, Abigail Bentley, Hatem Fakhruldeen, Gabriella Pizzuto, Andrew I. Cooper2026-03-10💻 cs

SYNAPSE: Framework for Neuron Analysis and Perturbation in Sequence Encoding

El artículo presenta SYNAPSE, un marco de análisis sin reentrenamiento que evalúa la robustez interna y la interpretabilidad de los modelos Transformer mediante la identificación de neuronas clave y la aplicación de intervenciones controladas, revelando patrones de redundancia funcional y vulnerabilidades estructurales.

Jesús Sánchez Ochoa, Enrique Tomás Martínez Beltrán, Alberto Huertas Celdrán2026-03-10🤖 cs.LG

IronEngine: Towards General AI Assistant

El artículo presenta IronEngine, una plataforma de asistente de IA general que integra una arquitectura unificada de orquestación, gestión adaptativa de modelos y ejecución de herramientas para lograr una alta tasa de completitud en tareas heterogéneas mediante un pipeline de tres fases que separa la planificación de la ejecución.

Xi Mo2026-03-10🤖 cs.LG

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Este trabajo propone equipar a los agentes de LLM con capacidades de recuperación nativas mediante un cabezal de proyección ligero que mapea sus estados ocultos directamente al espacio de incrustaciones, eliminando la necesidad de un modelo de incrustación separado y manteniendo el 97% de la calidad de recuperación original.

Bo Jiang2026-03-10💬 cs.CL

Efficient Policy Learning with Hybrid Evaluation-Based Genetic Programming for Uncertain Agile Earth Observation Satellite Scheduling

Este artículo propone un método de Programación Genética basado en Evaluación Híbrida (HE-GP) que optimiza la programación de satélites ágiles de observación terrestre bajo incertidumbre, logrando reducir significativamente los costos computacionales y evitar óptimos locales mediante un mecanismo dinámico que alterna entre modos de evaluación exactos y aproximados.

Junhua Xue, Yuning Chen2026-03-10💻 cs

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Este estudio prospectivo de viabilidad demuestra que un sistema de inteligencia artificial conversacional basado en modelos de lenguaje (AMIE) es seguro, bien aceptado por pacientes y médicos, y capaz de generar diagnósticos diferenciales de calidad comparable a la de los médicos de atención primaria en un entorno clínico real, aunque los médicos superaron a la IA en la practicidad y rentabilidad de los planes de tratamiento.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

El artículo presenta LycheeCluster, un método innovador de gestión de caché KV que utiliza fragmentación consciente de límites y un índice jerárquico recursivo para acelerar la inferencia de modelos de lenguaje grandes en contextos largos hasta en un 3,6 veces sin comprometer significativamente su rendimiento.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

El estudio revela que la capacidad de un agente de aprendizaje por refuerzo para detectar la degradación gradual de sus observaciones depende de un umbral crítico universal que surge de la interacción entre el nivel de ruido, el detector y la dinámica específica del entorno, lo que explica tanto la existencia de un punto de ruptura agudo como la imposibilidad de detectar ciertos patrones de deriva o fallos catastróficos antes de que ocurran.

Zhe Hong2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

El artículo presenta R2F, un marco de navegación de objetos sin LLM que reinterpreta los frentes de rayo como hipótesis semánticas direccionales para lograr un rendimiento competitivo en tiempo real, eliminando la sobrecarga computacional de los modelos de lenguaje grandes.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

El artículo presenta X-AVDT, un detector de deepfakes robusto que aprovecha las señales de alineación audio-visual internas de los generadores obtenidas mediante inversión DDIM, junto con el nuevo conjunto de datos multimodal MMDF, para lograr un rendimiento superior y una mejor generalización frente a modelos de síntesis no vistos.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

El artículo propone la Alineación de Auto-Cumplimiento Visual (VSFA), un método sin etiquetas que entrena modelos de lenguaje-visión mediante la exposición repetida a imágenes relacionadas con amenazas para internalizar implícitamente una postura de vigilancia y mejorar su seguridad sin comprometer sus capacidades generales.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

Este trabajo propone un marco operatorio que unifica la proyección de gradientes, la compresión espectral y la viabilidad multiobjetivo mediante la codificación de restricciones estructurales en operadores autoadjuntos, revelando cómo estas limitaciones distorsionan la geometría de ascenso óptimo y concentran la dinámica en modos espectrales dominantes bajo computación acotada.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

El artículo presenta Echo2ECG, un marco de aprendizaje multimodal auto-supervisado que enriquece las representaciones de los electrocardiogramas (ECG) integrando la morfología cardíaca de ecocardiogramas multivista, logrando un rendimiento superior en tareas clínicas que requieren información estructural y superando a modelos de referencia mucho más grandes.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

← Anterior Siguiente →

cs.AI