cs.AI artículos | Gist.Science

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

El estudio revela que los modelos de lenguaje actuales divergen significativamente de los humanos en la selección de objetivos dentro de tareas abiertas, mostrando una tendencia a explotar soluciones únicas o un rendimiento bajo en lugar de explorar con la diversidad característica del comportamiento humano, lo que cuestiona su validez como sustitutos en aplicaciones críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

El artículo presenta PlugMem, un módulo de memoria plugin independiente de la tarea que mejora el rendimiento de los agentes LLM al transformar memorias episódicas en un grafo de conocimiento compacto y centrado en proposiciones, logrando una recuperación eficiente y superando tanto a diseños específicos de tarea como a métodos agnósticos existentes.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

El artículo presenta TTSR, un marco de entrenamiento auto-reflexivo en tiempo de prueba que utiliza un bucle continuo donde un modelo actúa como estudiante y profesor para identificar y corregir sus propias debilidades de razonamiento mediante la síntesis de preguntas variantes, logrando así una mejora consistente en tareas de razonamiento matemático.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

El artículo presenta TATRA, un método de ingeniería de prompts libre de entrenamiento que mejora el rendimiento de los modelos de lenguaje al generar dinámicamente ejemplos específicos para cada instancia mediante reformulación y agregación, superando a técnicas que requieren optimización costosa y datos etiquetados.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Este artículo presenta políticas de caché semántica para LLMs, demostrando que la política óptima es NP-dura, proponiendo heurísticas eficientes y validando experimentalmente que su nueva variante mejora la precisión semántica frente a los enfoques basados en frecuencia.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Este artículo propone un marco de arquitectura multiagente basado en Generación Aumentada por Recuperación (RAG) que integra modelos de lenguaje y visión para optimizar la gestión del conocimiento y la formación de la fuerza laboral en las oficinas de transporte estatales, permitiendo la recuperación contextualizada de manuales técnicos y figuras gráficas para mejorar la toma de decisiones y la transferencia de expertise.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

El artículo presenta HumanLM, un nuevo marco de entrenamiento que supera las limitaciones de los simuladores de usuarios actuales al alinear estados latentes psicológicamente fundamentados con respuestas reales mediante aprendizaje por refuerzo, logrando así una simulación de usuarios más precisa y humana validada mediante el benchmark Humanual.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Knowledge Graph and Hypergraph Transformers with Repository-Attention and Journey-Based Role Transport

Este trabajo presenta una arquitectura dual que entrena conjuntamente datos estructurados y oraciones manteniendo representaciones separadas, utilizando un repositorio de clave-valor con atención basada en el transporte de roles por trayectorias para unificar el recorrido de grafos de conocimiento e hipergrafos con la estructura lingüística.

Mahesh Godavarti2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

El artículo presenta la Decodificación Restringida Condicionada por Borrador (DCCD), un método de inferencia sin entrenamiento que separa la planificación semántica de la validación estructural mediante la generación de un borrador no restringido, logrando así una mayor precisión en tareas de generación estructurada y una eficiencia de parámetros superior a la decodificación restringida convencional.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

El estudio compara la generación de JSON (plano y con decodificación restringida) frente a la notación orientada a tokens TOON mediante aprendizaje en contexto, concluyendo que aunque TOON ofrece una prometedora relación precisión/consumo de tokens en tareas complejas, su ventaja se ve a menudo anulada por la sobrecarga del prompt en contextos cortos, mientras que la generación JSON plana demuestra la mayor precisión general y la decodificación restringida supera a TOON en estructuras simples.

Ivan Matveev2026-03-05🤖 cs.AI

TopicENA: Enabling Epistemic Network Analysis at Scale through Automated Topic-Based Coding

El estudio presenta TopicENA, un marco que integra BERTopic con el Análisis de Redes Epistémicas (ENA) para automatizar la codificación de conceptos y permitir el análisis de redes a gran escala, ofreciendo además directrices prácticas sobre la granularidad de los temas y los umbrales de inclusión para optimizar los resultados.

Owen H. T. Lu, Tiffany T. Y. Hsu2026-03-05🤖 cs.AI

Old Habits Die Hard: How Conversational History Geometrically Traps LLMs

Este trabajo presenta el marco History-Echoes, que demuestra mediante análisis probabilísticos y geométricos que la historia conversacional atrapa a los modelos de lenguaje grandes en un "bucle geométrico" en el espacio latente, lo que provoca una persistencia de comportamientos y sesgos en sus generaciones futuras.

Adi Simhi, Fazl Barez, Martin Tutek + 2 more2026-03-05🤖 cs.AI

Escaping the BLEU Trap: A Signal-Grounded Framework with Decoupled Semantic Guidance for EEG-to-Text Decoding

El artículo presenta SemKey, un marco innovador que supera las limitaciones actuales en la decodificación de EEG a texto mediante la guía semántica desacoplada y la alineación estricta con señales neurales, logrando así una generación libre de alucinaciones y una evaluación más robusta que las métricas tradicionales como BLEU.

Yuchen Wang, Haonan Wang, Yu Guo + 2 more2026-03-05🤖 cs.AI

How does fine-tuning improve sensorimotor representations in large language models?

Este estudio demuestra que el ajuste fino (fine-tuning) puede reducir la brecha de encarnación en los modelos de lenguaje grandes al alinear sus representaciones internas con experiencias sensoriomotoras humanas, aunque esta mejora generaliza entre idiomas pero depende críticamente del objetivo de aprendizaje específico.

Minghua Wu, Javier Conde, Pedro Reviriego + 1 more2026-03-05🤖 cs.AI

Towards Self-Robust LLMs: Intrinsic Prompt Noise Resistance via CoIPO

Este trabajo propone CoIPO, un método de optimización de preferencias inversa basado en aprendizaje contrastivo que mejora la resistencia intrínseca de los modelos de lenguaje grandes al ruido en los prompts, superando a las técnicas actuales y validándose mediante el nuevo benchmark NoisyPromptBench.

Xin Yang, Letian Li, Abudukelimu Wuerkaixi + 5 more2026-03-05🤖 cs.AI

M-QUEST -- Meme Question-Understanding Evaluation on Semantics and Toxicity

Este trabajo presenta M-QUEST, un marco semántico y un benchmark de 609 pares de preguntas y respuestas diseñado para evaluar la capacidad de los modelos de lenguaje para interpretar la toxicidad y el significado de los memes mediante el análisis de múltiples dimensiones, revelando que los modelos con ajuste de instrucciones y razonamiento superan a los demás, aunque siguen enfrentando desafíos en la inferencia pragmática.

Stefano De Giorgis, Ting-Chih Chen, Filip Ilievski2026-03-05🤖 cs.AI

The Influence of Iconicity in Transfer Learning for Sign Language Recognition

Este estudio demuestra que la transferencia de aprendizaje basada en la iconicidad entre pares de lenguas de señas (chino-árabe y griego-flamenco) mejora significativamente el reconocimiento, logrando un aumento del 7,02% en árabe y del 1,07% en flamenco al utilizar Mediapipe para extraer características espaciotemporales.

Keren Artiaga, Conor Lynch, Haithem Afli + 1 more2026-03-05🤖 cs.AI

Quantum-Inspired Self-Attention in a Large Language Model

Este artículo presenta un mecanismo de autoatención clásico inspirado en la cuántica (QISA) integrado en el modelo GPT-1, el cual supera significativamente a la autoatención estándar en métricas de error y pérdida, aunque con un tiempo de inferencia 2,6 veces mayor.

Nikita Kuznetsov, Niyaz Ismagilov, Ernesto Campos2026-03-05⚛️ quant-ph

Automated Concept Discovery for LLM-as-a-Judge Preference Analysis

Este trabajo presenta un método basado en autoencoders dispersos para descubrir automáticamente conceptos interpretables que explican los sesgos de los modelos de lenguaje utilizados como jueces, revelando nuevas tendencias en sus preferencias sin depender de taxonomías predefinidas.

James Wedgwood, Chhavi Yadav, Virginia Smith2026-03-05🤖 cs.AI

From We to Me: Theory Informed Narrative Shift with Abductive Reasoning

Este artículo presenta un enfoque neurosimbólico basado en la teoría de las ciencias sociales y el razonamiento abductivo que permite a los modelos de lenguaje grandes transformar eficazmente narrativas entre marcos individualistas y colectivistas, superando significativamente a los métodos de base cero mientras preservan la fidelidad del mensaje original.

Jaikrishna Manojkumar Patil, Divyagna Bavikadi, Kaustuv Mukherji + 5 more2026-03-05🤖 cs.AI

← Anterior Siguiente →