Retrieving Minimal and Sufficient Reasoning Subgraphs with Graph Foundation Models for Path-aware GraphRAG

El artículo presenta GFM-Retriever, un enfoque que utiliza modelos fundamentales de grafos preentrenados y un selector de subgrafos optimizado mediante el principio de cuello de botella de información para recuperar subgrafos mínimos y suficientes que mejoran el razonamiento y la generación de respuestas en escenarios de GraphRAG sin necesidad de datos etiquetados.

Haonan Yuan, Qingyun Sun, Junhua Shi, Mingjun Liu, Jiaqi Yuan, Ziwei Zhang, Xingcheng Fu, Jianxin LiTue, 10 Ma💻 cs

Detecting Cryptographically Relevant Software Packages with Collaborative LLMs

Este artículo presenta un marco colaborativo basado en modelos de lenguaje grandes (LLM) que opera localmente para identificar de manera eficiente paquetes de software relevantes para la criptografía en entornos heterogéneos, facilitando así la transición hacia la criptografía postcuántica mediante la reducción de la carga de trabajo manual.

Eduard Hirsch, Kristina Raab, Tobias J. Bauer, Daniel LoebenbergerTue, 10 Ma💻 cs

Retrieval-Augmented Generation for Predicting Cellular Responses to Gene Perturbation

El artículo presenta PT-RAG, un marco novedoso de generación aumentada por recuperación que utiliza un proceso de dos etapas con recuperación diferenciable y consciente del tipo celular para superar las limitaciones de generalización de los enfoques actuales y predecir con mayor precisión las respuestas celulares a las perturbaciones genéticas.

Andrea Giuseppe Di Francesco, Andrea Rubbi, Pietro LiòTue, 10 Ma🤖 cs.LG

Rethinking Deep Research from the Perspective of Web Content Distribution Matching

El artículo presenta WeDas, un marco que mejora a los agentes de investigación profunda al integrar las características estructurales de la distribución de contenido web y utilizar un mecanismo de sondeo para alinear dinámicamente las intenciones de razonamiento con los resultados de búsqueda, superando así las limitaciones de los enfoques actuales.

Zixuan Yu, Zhenheng Tang, Tongliang Liu, Chengqi Zhang, Xiaowen Chu, Bo HanTue, 10 Ma🤖 cs.LG

Do Deployment Constraints Make LLMs Hallucinate Citations? An Empirical Study across Four Models and Five Prompting Regimes

Este estudio empírico demuestra que las restricciones de despliegue en cuatro modelos de lenguaje grandes no mejoran la veracidad de las citas académicas, ya que la mayoría de las referencias generadas son inexistente o no verificables, lo que subraya la necesidad imperativa de verificar las citas después de la generación antes de integrarlas en revisiones de literatura o herramientas de ingeniería de software.

Chen Zhao, Yuan Tang, Yitian QianTue, 10 Ma💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artículo de sistematización de conocimientos (SoK) presenta el primer marco unificado para las arquitecturas de Recuperación Aumentada por Generación (RAG) agénticas, formalizándolas como procesos de decisión de Markov, proponiendo una taxonomía modular, identificando riesgos sistémicos críticos y delineando direcciones de investigación para garantizar sistemas autónomos fiables y escalables.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva GaireTue, 10 Ma💬 cs.CL

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

El artículo presenta Dial, un sistema de NL2SQL basado en conocimiento que aborda la heterogeneidad de los dialectos SQL mediante planificación lógica consciente del dialecto, una base de conocimiento jerárquica y un bucle de depuración, logrando mejoras significativas en precisión y cobertura de características en comparación con los métodos existentes.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan WuTue, 10 Ma🤖 cs.LG

GP-Tree: An in-memory spatial index combining adaptive grid cells with a prefix tree for efficient spatial querying

El artículo presenta GP-Tree, un índice espacial en memoria que combina celdas de cuadrícula adaptativas con una estructura de árbol de prefijos para superar las limitaciones de los índices tradicionales basados en rectángulos, logrando una eficiencia de consulta hasta un orden de magnitud superior en datos espaciales complejos.

Xiangyang Yang, Xuefeng Guan, Lanxue Dang, Yi Xie, Qingyang Xu, Huayi Wu, Jiayao WangTue, 10 Ma💻 cs

Verifiable Reasoning for LLM-based Generative Recommendation

Este trabajo presenta VRec, un nuevo paradigma de "razonar-verificar-recomendar" que mejora la recomendación generativa basada en LLMs mediante la intercalación de verificaciones fiables y multidimensionales para corregir la degradación del razonamiento y alinear mejor la generación de ítems con las preferencias del usuario.

Xinyu Lin, Hanqing Zeng, Hanchao Yu, Yinglong Xia, Jiang Zhang, Aashu Singh, Fei Liu, Wenjie Wang, Fuli Feng, Tat-Seng Chua, Qifan WangTue, 10 Ma💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo ShangTue, 10 Ma💬 cs.CL

UIS-Digger: Towards Comprehensive Research Agent Systems for Real-world Unindexed Information Seeking

Este artículo presenta UIS-Digger, un marco de agentes multi-sistema diseñado para superar las limitaciones de la búsqueda de información no indexada mediante la navegación dual y el análisis de archivos, junto con el primer benchmark dedicado (UIS-QA) que demuestra cómo esta solución supera a modelos de lenguaje más grandes en tareas de recuperación de datos ocultos.

Chang Liu, Chuqiao Kuang, Tianyi Zhuang, Yuxin Cheng, Huichi Zhou, Xiaoguang Li, Lifeng ShangTue, 10 Ma💻 cs

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

SPD-RAG es un marco jerárquico de agentes múltiples que mejora la calidad y la escalabilidad en la respuesta a preguntas complejas sobre múltiples documentos al asignar un agente dedicado a cada documento para la recuperación enfocada y sintetizar sus respuestas parciales mediante un coordinador, superando así a los métodos RAG estándar y de agentes individuales en el benchmark LOONG con un coste de API significativamente menor.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda AkpinarTue, 10 Ma💬 cs.CL

Unifying On- and Off-Policy Variance Reduction Methods

Este artículo establece una equivalencia formal entre los métodos de reducción de varianza utilizados en experimentación en línea y evaluación fuera de política, demostrando que los estimadores de diferencias de medias son idénticos a los de puntuación de propensión inversa con control variado óptimo, y que los ajustes de regresión son estructuralmente equivalentes a la estimación doblemente robusta.

Olivier JeunenTue, 10 Ma🤖 cs.LG