cs.CL artículos | Gist.Science

Stochastic Self-Organization in Multi-Agent Systems

El marco SelfOrg propone un sistema de autoorganización estocástica para agentes basados en LLMs que, mediante el uso de valores de Shapley aproximados y la construcción dinámica de grafos acíclicos dirigidos, optimiza la comunicación entre agentes sin supervisión externa, logrando mejoras significativas en el rendimiento, especialmente en configuraciones con modelos débiles.

Nurbek Tastan, Samuel Horvath, Karthik NandakumarTue, 10 Ma🤖 cs.LG

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

El artículo presenta FOR-Prompting, un protocolo de prompting asimétrico que mejora el razonamiento y la auto-revisión de los modelos de lenguaje mediante un debate estructurado entre un Defensor, un Debatedor y un Anfitrión, logrando resultados superiores o comparables a métodos existentes sin necesidad de entrenamiento adicional.

He Zhang, Anzhou Zhang, Jian DaiTue, 10 Ma💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

El artículo presenta DialTree, un marco de aprendizaje por refuerzo basado en árboles que descubre autónomamente estrategias de ataque adversarial multi-turno más efectivas, superando significativamente a los métodos existentes al explorar dinámicas conversacionales complejas sin necesidad de datos curados manualmente.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan RothTue, 10 Ma🤖 cs.LG

Idiom Understanding as a Tool to Measure the Dialect Gap

Este artículo propone el uso de la comprensión de modismos regionales como herramienta para medir la brecha dialectal, presentando nuevos conjuntos de datos para el francés de Quebec y demostrando que, aunque los modelos de lenguaje dominan el francés metropolitano, la mayoría falla significativamente al interpretar las expresiones idiomáticas de Quebec.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard KhouryTue, 10 Ma💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

El artículo presenta ACE, un marco de edición de conocimiento basado en la atribución a nivel de neuronas que identifica y modifica las vías de consulta-valor críticas para mejorar significativamente la recuperación de hechos en múltiples pasos en modelos de lenguaje grandes.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao YueTue, 10 Ma💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

El artículo presenta R-WoM, un modelo de mundo aumentado por recuperación que integra conocimiento factual externo para mitigar las alucinaciones de los modelos de lenguaje y mejorar significativamente la toma de decisiones de los agentes informáticos en simulaciones de largo plazo.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong JiangTue, 10 Ma💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

El artículo presenta HypoSpace, una suite de diagnóstico que evalúa la creatividad de los modelos de lenguaje al generar conjuntos de hipótesis en problemas subdeterminados, midiendo la validez, la unicidad y la recuperación para revelar el colapso de modos que las métricas de corrección única pasan por alto.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo LiuTue, 10 Ma💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

El artículo presenta KrishokBondhu, un sistema de asesoramiento agrícola basado en voz y en un marco de generación aumentada por recuperación (RAG) diseñado para agricultores bengalíes en Bangladesh, el cual demuestra una mejora significativa en la calidad y riqueza contextual de las respuestas en comparación con benchmarks existentes.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed es un sistema de inferencia en Rust que ofrece latencias ultra bajas de 1,12 ms mediante la búsqueda estática de tokens y la serialización binaria, logrando un rendimiento robusto en tareas de detección de duplicados y similitud semántica para aplicaciones en tiempo real que no pueden soportar la inferencia completa de transformadores.

Edouard Lansiaux, Antoine Simonet, Eric WielTue, 10 Ma💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu AizawaTue, 10 Ma🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

El artículo presenta HatePrototypes, representaciones vectoriales interpretables y transferibles derivadas de modelos de lenguaje que permiten detectar tanto el discurso de odio explícito como el implícito mediante un enfoque eficiente y sin necesidad de reentrenamiento continuo.

Irina Proskurina, Marc-Antoine Carpentier, Julien VelcinTue, 10 Ma💬 cs.CL

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Este artículo presenta SPOT, el primer corpus anotado en francés y un benchmark para detectar "puntos de parada" en conversaciones en línea, demostrando que los modelos de codificadores ajustados superan a los grandes modelos de lenguaje en esta tarea y mejoran su rendimiento al incorporar metadatos contextuales.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

Multimodal LLMs Do Not Compose Skills Optimally Across Modalities

El estudio revela que los Modelos de Lenguaje Multimodales (MLLM) presentan una brecha significativa al componer habilidades entre diferentes modalidades, la cual solo se mitiga parcialmente mediante estrategias como el *chain-of-thought* o el ajuste fino, lo que indica la necesidad de más investigación para optimizar esta capacidad.

Paula Ontalvilla, Aitor Ormazabal, Gorka AzkuneTue, 10 Ma💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Este trabajo presenta "Stealth Fine-Tuning", un método de bajo costo que rompe la alineación de seguridad en Modelos de Lenguaje Visuales con Razonamiento (RVLMs) mediante interferencia a nivel de segmento y ajuste fino con datos generados por el propio modelo, logrando una tasa de éxito significativamente mayor que métodos anteriores mientras preserva la capacidad de razonamiento general.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao LiuTue, 10 Ma💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

Este artículo presenta Graphectory, un marco de análisis centrado en procesos que representa las trayectorias de sistemas agénticos como grafos para revelar patrones de razonamiento y estrategias, demostrando que el monitoreo y la intervención en tiempo real basados en este análisis mejoran significativamente las tasas de resolución y reducen la longitud de las trayectorias.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

SETUP: Sentence-level English-To-Uniform Meaning Representation Parser

Este artículo presenta SETUP, un nuevo parser que logra un rendimiento significativo en la conversión automática de texto al inglés a Representación de Significado Uniforme (UMR) mediante el ajuste fino de analizadores existentes y la conversión de dependencias universales.

Emma Markle, Javier Gutierrez Bach, Shira WeinTue, 10 Ma💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

El artículo presenta el Transformer de Decodificador Paralelo (PDT), una arquitectura que integra un mecanismo de coordinación interna mediante un espacio latente sembrado por un planificador y un protocolo de decodificación sincronizada, permitiendo que un modelo de lenguaje congelado resuelva subproblemas en paralelo de manera autónoma sin depender de orquestación externa.

Logan RobbinsTue, 10 Ma💬 cs.CL

CompanionCast: Toward Social Collaboration with Multi-Agent Systems in Shared Experiences

El artículo presenta CompanionCast, un marco general que orquesta múltiples agentes de IA especializados para replicar dinámicas grupales auténticas y mejorar la presencia social y el intercambio emocional durante experiencias compartidas en vivo, como la visualización de deportes.

Yiyang Wang, Chen Chen, Tica Lin, Vishnu Raj, Josh Kimball, Alex Cabral, Josiah HesterTue, 10 Ma💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Esta encuesta propone un marco unificado de cuatro paradigmas para estudiar la adaptación de agentes de IA tras el preentrenamiento, abarcando tanto la mejora del propio agente como la de sus herramientas, memorias y habilidades, con el fin de analizar métodos, comparar compensaciones y resumir prácticas de evaluación en diversos dominios.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei HanTue, 10 Ma💬 cs.CL

← Anterior Siguiente →