cs.AI artículos | Gist.Science

NeuroProlog: Multi-Task Fine-Tuning for Neurosymbolic Mathematical Reasoning via the Cocktail Effect

NeuroProlog es un marco neurosimbólico que mejora el razonamiento matemático mediante un entrenamiento multi-tarea tipo cóctel que optimiza conjuntamente la traducción de fórmulas, la síntesis de programas y la alineación de respuestas, logrando mejoras significativas en la precisión y la capacidad de autocorrección de modelos de lenguaje de diferentes escalas.

Pratibha Zunjare, Michael Hsiao2026-03-05🤖 cs.AI

Human-Certified Module Repositories for the AI Age

Este trabajo introduce los Repositorios de Módulos Certificados por Humanos (HCMR) como un modelo arquitectónico fundamental que combina supervisión humana y análisis automatizado para garantizar la confianza, la procedencia y la seguridad de los componentes de software en la era del desarrollo asistido por inteligencia artificial.

Szilárd Enyedi2026-03-05🤖 cs.AI

ITO: Images and Texts as One via Synergizing Multiple Alignment and Training-Time Fusion

El marco ITO mejora el aprendizaje de representaciones visuales mediante la alineación múltiple multimodal y una fusión ligera durante el entrenamiento que elimina la brecha entre modalidades y estabiliza el proceso, todo ello sin comprometer la eficiencia en la inferencia.

HanZpeng Liu, Yaqian Li, Zidan Wang + 6 more2026-03-05🤖 cs.AI

Learning to Generate and Extract: A Multi-Agent Collaboration Framework For Zero-shot Document-level Event Arguments Extraction

Este artículo presenta un marco de colaboración multiagente que simula un proceso cognitivo de "proponer-evaluar-revisar" mediante aprendizaje por refuerzo para mejorar la extracción de argumentos de eventos a nivel de documento en escenarios de cero disparos, superando las limitaciones de los métodos existentes mediante la generación y evaluación iterativa de datos sintéticos.

Guangjun Zhang, Hu Zhang, Yazhou Han + 4 more2026-03-05🤖 cs.AI

MoECLIP: Patch-Specialized Experts for Zero-shot Anomaly Detection

MoECLIP es un nuevo enfoque para la detección de anomalías sin entrenamiento previo que supera las limitaciones de los métodos actuales al utilizar una arquitectura de mezcla de expertos con adaptadores LoRA especializados por parche, regulados mediante separación ortogonal de características y una pérdida de marco equiangular, logrando un rendimiento superior en 14 conjuntos de datos industriales y médicos.

Jun Yeong Park, JunYoung Seo, Minji Kang + 1 more2026-03-05🤖 cs.AI

How to Model AI Agents as Personas?: Applying the Persona Ecosystem Playground to 41,300 Posts on Moltbook for Behavioral Insights

El estudio aplica el Persona Ecosystem Playground (PEP) a 41,300 publicaciones en Moltbook para generar y validar perfiles conversacionales mediante clustering y generación aumentada por recuperación, demostrando que este enfoque de modelado basado en personas puede representar eficazmente la diversidad conductual de las poblaciones de agentes de IA.

Danial Amin, Joni Salminen, Bernard J. Jansen2026-03-05🤖 cs.AI

AriadneMem: Threading the Maze of Lifelong Memory for LLM Agents

AriadneMem es un sistema de memoria estructurado para agentes LLM que, mediante un pipeline de dos fases con filtrado por entropía, coarsening consciente de conflictos y descubrimiento algorítmico de puentes, mejora significativamente la precisión en respuestas multi-hop y reduce el tiempo de ejecución en un 77,8% al gestionar eficientemente la evidencia desconectada y las actualizaciones de estado en diálogos a largo plazo.

Wenhui Zhu, Xiwen Chen, Zhipeng Wang + 11 more2026-03-05🤖 cs.AI

One Bias After Another: Mechanistic Reward Shaping and Persistent Biases in Language Reward Models

Este artículo identifica y categoriza diversas sesgos persistentes en los Modelos de Recompensa (RMs) para la alineación de modelos de lenguaje, proponiendo una intervención de "formación de recompensa mecánica" que mitiga eficazmente estos sesgos sin degradar la calidad de la recompensa ni requerir grandes cantidades de datos etiquetados.

Daniel Fein, Max Lamparth, Violet Xiang + 2 more2026-03-05🤖 cs.AI

From Conflict to Consensus: Boosting Medical Reasoning via Multi-Round Agentic RAG

El paper presenta MA-RAG, un marco de RAG multi-vuelta basado en agentes que mejora el razonamiento médico al transformar los conflictos semánticos en consultas iterativas para refinar la evidencia externa y el historial de razonamiento, logrando un consenso de alta fidelidad que supera significativamente a los métodos existentes en siete benchmarks médicos.

Wenhao Wu, Zhentao Tang, Yafu Li + 5 more2026-03-05🤖 cs.AI

Fine-Tuning and Evaluating Conversational AI for Agricultural Advisory

Este trabajo presenta una arquitectura híbrida de modelos de lenguaje que, mediante el ajuste fino con LoRA sobre conocimientos agrícolas verificados y una capa de adaptación cultural, mejora la precisión factual y la seguridad de los sistemas de asesoramiento para pequeños agricultores en Bihar, India, superando las limitaciones de los modelos genéricos a un costo reducido.

Sanyam Singh, Naga Ganesh, Vineet Singh + 8 more2026-03-05🤖 cs.AI

Language Model Goal Selection Differs from Humans' in an Open-Ended Task

El estudio revela que los modelos de lenguaje actuales divergen significativamente de los humanos en la selección de objetivos dentro de tareas abiertas, mostrando una tendencia a explotar soluciones únicas o un rendimiento bajo en lugar de explorar con la diversidad característica del comportamiento humano, lo que cuestiona su validez como sustitutos en aplicaciones críticas.

Gaia Molinaro, Dave August, Danielle Perszyk + 1 more2026-03-05🤖 cs.AI

PlugMem: A Task-Agnostic Plugin Memory Module for LLM Agents

El artículo presenta PlugMem, un módulo de memoria plugin independiente de la tarea que mejora el rendimiento de los agentes LLM al transformar memorias episódicas en un grafo de conocimiento compacto y centrado en proposiciones, logrando una recuperación eficiente y superando tanto a diseños específicos de tarea como a métodos agnósticos existentes.

Ke Yang, Zixi Chen, Xuan He + 6 more2026-03-05🤖 cs.AI

TTSR: Test-Time Self-Reflection for Continual Reasoning Improvement

El artículo presenta TTSR, un marco de entrenamiento auto-reflexivo en tiempo de prueba que utiliza un bucle continuo donde un modelo actúa como estudiante y profesor para identificar y corregir sus propias debilidades de razonamiento mediante la síntesis de preguntas variantes, logrando así una mejora consistente en tareas de razonamiento matemático.

Haoyang He, Zihua Rong, Liangjie Zhao + 3 more2026-03-05🤖 cs.AI

TATRA: Training-Free Instance-Adaptive Prompting Through Rephrasing and Aggregation

El artículo presenta TATRA, un método de ingeniería de prompts libre de entrenamiento que mejora el rendimiento de los modelos de lenguaje al generar dinámicamente ejemplos específicos para cada instancia mediante reformulación y agregación, superando a técnicas que requieren optimización costosa y datos etiquetados.

Bartosz Dziuba, Kacper Kuchta, Paweł Batorski + 2 more2026-03-05🤖 cs.AI

From Exact Hits to Close Enough: Semantic Caching for LLM Embeddings

Este artículo presenta políticas de caché semántica para LLMs, demostrando que la política óptima es NP-dura, proponiendo heurísticas eficientes y validando experimentalmente que su nueva variante mejora la precisión semántica frente a los enfoques basados en frecuencia.

Dvir David Biton, Roy Friedman2026-03-05🤖 cs.AI

Developing an AI Assistant for Knowledge Management and Workforce Training in State DOTs

Este artículo propone un marco de arquitectura multiagente basado en Generación Aumentada por Recuperación (RAG) que integra modelos de lenguaje y visión para optimizar la gestión del conocimiento y la formación de la fuerza laboral en las oficinas de transporte estatales, permitiendo la recuperación contextualizada de manuales técnicos y figuras gráficas para mejorar la toma de decisiones y la transferencia de expertise.

Divija Amaram, Lu Gao, Gowtham Reddy Gudla + 1 more2026-03-05🤖 cs.AI

HumanLM: Simulating Users with State Alignment Beats Response Imitation

El artículo presenta HumanLM, un nuevo marco de entrenamiento que supera las limitaciones de los simuladores de usuarios actuales al alinear estados latentes psicológicamente fundamentados con respuestas reales mediante aprendizaje por refuerzo, logrando así una simulación de usuarios más precisa y humana validada mediante el benchmark Humanual.

Shirley Wu, Evelyn Choi, Arpandeep Khatua + 7 more2026-03-05🤖 cs.AI

Knowledge Graph and Hypergraph Transformers with Repository-Attention and Journey-Based Role Transport

Este trabajo presenta una arquitectura dual que entrena conjuntamente datos estructurados y oraciones manteniendo representaciones separadas, utilizando un repositorio de clave-valor con atención basada en el transporte de roles por trayectorias para unificar el recorrido de grafos de conocimiento e hipergrafos con la estructura lingüística.

Mahesh Godavarti2026-03-05🤖 cs.AI

Draft-Conditioned Constrained Decoding for Structured Generation in LLMs

El artículo presenta la Decodificación Restringida Condicionada por Borrador (DCCD), un método de inferencia sin entrenamiento que separa la planificación semántica de la validación estructural mediante la generación de un borrador no restringido, logrando así una mayor precisión en tareas de generación estructurada y una eficiencia de parámetros superior a la decodificación restringida convencional.

Avinash Reddy, Thayne T. Walker, James S. Ide + 1 more2026-03-05🤖 cs.AI

Token-Oriented Object Notation vs JSON: A Benchmark of Plain and Constrained Decoding Generation

El estudio compara la generación de JSON (plano y con decodificación restringida) frente a la notación orientada a tokens TOON mediante aprendizaje en contexto, concluyendo que aunque TOON ofrece una prometedora relación precisión/consumo de tokens en tareas complejas, su ventaja se ve a menudo anulada por la sobrecarga del prompt en contextos cortos, mientras que la generación JSON plana demuestra la mayor precisión general y la decodificación restringida supera a TOON en estructuras simples.

Ivan Matveev2026-03-05🤖 cs.AI

← Anterior Siguiente →