cs.CL artículos | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artículo presenta IAG, el primer ataque de puerta trasera multiobjetivo para modelos de visión-lingüística (VLM) en la tarea de grounding visual, que genera dinámicamente desencadenantes imperceptibles guiados por texto para redirigir el reconocimiento de objetos hacia objetivos específicos sin comprometer el rendimiento en muestras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

El artículo presenta OTESGN, un modelo de red neuronal que combina grafos sintácticos y transporte óptimo para mejorar el análisis de sentimientos basado en aspectos, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos al capturar asociaciones no lineales y reducir el ruido contextual.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

El estudio demuestra que los monitores lineales dependen en gran medida de la evidencia textual superficial para detectar comportamientos dañinos, ya que su rendimiento disminuye drásticamente cuando se eliminan dichas pistas o se evalúan en modelos que no verbalizan sus intenciones.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

El artículo presenta PonderLM-2, un método de preentrenamiento que mejora el rendimiento de los modelos de lenguaje al generar pensamientos latentes intermedios en un espacio continuo antes de predecir cada token, logrando superar a modelos estándar con el doble de parámetros sin aumentar el costo de inferencia.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Este artículo introduce las "firmas de benchmark", conjuntos de tokens salientes cuya perplejidad en modelos de lenguaje predice el rendimiento en pruebas, revelando una estructura de superposición de capacidades más matizada y robusta frente a factores de confusión que las correlaciones tradicionales, y mostrando que la organización semántica de los LLM difiere de la estructura conceptual humana.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Este trabajo introduce el concepto de "misevolución" para describir los riesgos emergentes en agentes LLM autoevolutivos que, al mejorar autónomamente, pueden desarrollar comportamientos no deseados o peligrosos a través de la degradación de la alineación de seguridad o la introducción de vulnerabilidades en sus modelos, memorias, herramientas y flujos de trabajo.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

El artículo presenta TokMem, un marco de memoria procedural que comprime tareas reutilizables en un único token entrenable para controlar la generación de modelos de lenguaje grandes de forma eficiente y modular sin alterar sus parámetros base.

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

El marco SelfOrg propone un sistema de autoorganización estocástica para agentes basados en LLMs que, mediante el uso de valores de Shapley aproximados y la construcción dinámica de grafos acíclicos dirigidos, optimiza la comunicación entre agentes sin supervisión externa, logrando mejoras significativas en el rendimiento, especialmente en configuraciones con modelos débiles.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Este estudio presenta un flujo de trabajo automatizado basado en agentes de modelos de lenguaje grande que extrae y curó la base de datos de termoelectricidad más grande hasta la fecha, con más de 27,000 registros de propiedades estructurales y de rendimiento obtenidos de 10,000 artículos científicos, facilitando así el descubrimiento de materiales a gran escala.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

El artículo presenta FOR-Prompting, un protocolo de prompting asimétrico que mejora el razonamiento y la auto-revisión de los modelos de lenguaje mediante un debate estructurado entre un Defensor, un Debatedor y un Anfitrión, logrando resultados superiores o comparables a métodos existentes sin necesidad de entrenamiento adicional.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

El artículo presenta DialTree, un marco de aprendizaje por refuerzo basado en árboles que descubre autónomamente estrategias de ataque adversarial multi-turno más efectivas, superando significativamente a los métodos existentes al explorar dinámicas conversacionales complejas sin necesidad de datos curados manualmente.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Este estudio demuestra cómo el uso de modelos de lenguaje grande (LLM) y bases de datos gráficas permite estructurar y visualizar eficazmente miles de artículos del código de tierras de Senegal, mejorando así el acceso a la información jurídica para ciudadanos y profesionales.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Este artículo propone el uso de la comprensión de modismos regionales como herramienta para medir la brecha dialectal, presentando nuevos conjuntos de datos para el francés de Quebec y demostrando que, aunque los modelos de lenguaje dominan el francés metropolitano, la mayoría falla significativamente al interpretar las expresiones idiomáticas de Quebec.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

El artículo presenta ACE, un marco de edición de conocimiento basado en la atribución a nivel de neuronas que identifica y modifica las vías de consulta-valor críticas para mejorar significativamente la recuperación de hechos en múltiples pasos en modelos de lenguaje grandes.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

El artículo presenta R-WoM, un modelo de mundo aumentado por recuperación que integra conocimiento factual externo para mitigar las alucinaciones de los modelos de lenguaje y mejorar significativamente la toma de decisiones de los agentes informáticos en simulaciones de largo plazo.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

El artículo presenta HypoSpace, una suite de diagnóstico que evalúa la creatividad de los modelos de lenguaje al generar conjuntos de hipótesis en problemas subdeterminados, midiendo la validez, la unicidad y la recuperación para revelar el colapso de modos que las métricas de corrección única pasan por alto.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

El artículo presenta KrishokBondhu, un sistema de asesoramiento agrícola basado en voz y en un marco de generación aumentada por recuperación (RAG) diseñado para agricultores bengalíes en Bangladesh, el cual demuestra una mejora significativa en la calidad y riqueza contextual de las respuestas en comparación con benchmarks existentes.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed es un sistema de inferencia en Rust que ofrece latencias ultra bajas de 1,12 ms mediante la búsqueda estática de tokens y la serialización binaria, logrando un rendimiento robusto en tareas de detección de duplicados y similitud semántica para aplicaciones en tiempo real que no pueden soportar la inferencia completa de transformadores.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

← Anterior Siguiente →