Stochastic Self-Organization in Multi-Agent Systems

El marco SelfOrg propone un sistema de autoorganización estocástica para agentes basados en LLMs que, mediante el uso de valores de Shapley aproximados y la construcción dinámica de grafos acíclicos dirigidos, optimiza la comunicación entre agentes sin supervisión externa, logrando mejoras significativas en el rendimiento, especialmente en configuraciones con modelos débiles.

Nurbek Tastan, Samuel Horvath, Karthik NandakumarTue, 10 Ma🤖 cs.LG

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

El artículo presenta DialTree, un marco de aprendizaje por refuerzo basado en árboles que descubre autónomamente estrategias de ataque adversarial multi-turno más efectivas, superando significativamente a los métodos existentes al explorar dinámicas conversacionales complejas sin necesidad de datos curados manualmente.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan RothTue, 10 Ma🤖 cs.LG

Idiom Understanding as a Tool to Measure the Dialect Gap

Este artículo propone el uso de la comprensión de modismos regionales como herramienta para medir la brecha dialectal, presentando nuevos conjuntos de datos para el francés de Quebec y demostrando que, aunque los modelos de lenguaje dominan el francés metropolitano, la mayoría falla significativamente al interpretar las expresiones idiomáticas de Quebec.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard KhouryTue, 10 Ma💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman BanerjeeTue, 10 Ma💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

El artículo presenta HypoSpace, una suite de diagnóstico que evalúa la creatividad de los modelos de lenguaje al generar conjuntos de hipótesis en problemas subdeterminados, midiendo la validez, la unicidad y la recuperación para revelar el colapso de modos que las métricas de corrección única pasan por alto.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo LiuTue, 10 Ma💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

El artículo presenta KrishokBondhu, un sistema de asesoramiento agrícola basado en voz y en un marco de generación aumentada por recuperación (RAG) diseñado para agricultores bengalíes en Bangladesh, el cual demuestra una mejora significativa en la calidad y riqueza contextual de las respuestas en comparación con benchmarks existentes.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman RafatTue, 10 Ma💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed es un sistema de inferencia en Rust que ofrece latencias ultra bajas de 1,12 ms mediante la búsqueda estática de tokens y la serialización binaria, logrando un rendimiento robusto en tareas de detección de duplicados y similitud semántica para aplicaciones en tiempo real que no pueden soportar la inferencia completa de transformadores.

Edouard Lansiaux, Antoine Simonet, Eric WielTue, 10 Ma💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu AizawaTue, 10 Ma🤖 cs.LG

SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Este artículo presenta SPOT, el primer corpus anotado en francés y un benchmark para detectar "puntos de parada" en conversaciones en línea, demostrando que los modelos de codificadores ajustados superan a los grandes modelos de lenguaje en esta tarea y mejoran su rendimiento al incorporar metadatos contextuales.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe CointetTue, 10 Ma💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Este trabajo presenta "Stealth Fine-Tuning", un método de bajo costo que rompe la alineación de seguridad en Modelos de Lenguaje Visuales con Razonamiento (RVLMs) mediante interferencia a nivel de segmento y ajuste fino con datos generados por el propio modelo, logrando una tasa de éxito significativamente mayor que métodos anteriores mientras preserva la capacidad de razonamiento general.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao LiuTue, 10 Ma💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

Este artículo presenta Graphectory, un marco de análisis centrado en procesos que representa las trayectorias de sistemas agénticos como grafos para revelar patrones de razonamiento y estrategias, demostrando que el monitoreo y la intervención en tiempo real basados en este análisis mejoran significativamente las tasas de resolución y reducen la longitud de las trayectorias.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan JabbarvandTue, 10 Ma💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

El artículo presenta el Transformer de Decodificador Paralelo (PDT), una arquitectura que integra un mecanismo de coordinación interna mediante un espacio latente sembrado por un planificador y un protocolo de decodificación sincronizada, permitiendo que un modelo de lenguaje congelado resuelva subproblemas en paralelo de manera autónoma sin depender de orquestación externa.

Logan RobbinsTue, 10 Ma💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Esta encuesta propone un marco unificado de cuatro paradigmas para estudiar la adaptación de agentes de IA tras el preentrenamiento, abarcando tanto la mejora del propio agente como la de sus herramientas, memorias y habilidades, con el fin de analizar métodos, comparar compensaciones y resumir prácticas de evaluación en diversos dominios.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei HanTue, 10 Ma💬 cs.CL