IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Este artículo presenta IAG, el primer ataque de puerta trasera multiobjetivo para modelos de visión-lingüística (VLM) en la tarea de grounding visual, que genera dinámicamente desencadenantes imperceptibles guiados por texto para redirigir el reconocimiento de objetos hacia objetivos específicos sin comprometer el rendimiento en muestras benignas.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

El artículo presenta OTESGN, un modelo de red neuronal que combina grafos sintácticos y transporte óptimo para mejorar el análisis de sentimientos basado en aspectos, logrando un rendimiento superior al estado del arte en múltiples conjuntos de datos al capturar asociaciones no lineales y reducir el ruido contextual.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Este artículo introduce las "firmas de benchmark", conjuntos de tokens salientes cuya perplejidad en modelos de lenguaje predice el rendimiento en pruebas, revelando una estructura de superposición de capacidades más matizada y robusta frente a factores de confusión que las correlaciones tradicionales, y mostrando que la organización semántica de los LLM difiere de la estructura conceptual humana.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Este trabajo introduce el concepto de "misevolución" para describir los riesgos emergentes en agentes LLM autoevolutivos que, al mejorar autónomamente, pueden desarrollar comportamientos no deseados o peligrosos a través de la degradación de la alineación de seguridad o la introducción de vulnerabilidades en sus modelos, memorias, herramientas y flujos de trabajo.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

Stochastic Self-Organization in Multi-Agent Systems

El marco SelfOrg propone un sistema de autoorganización estocástica para agentes basados en LLMs que, mediante el uso de valores de Shapley aproximados y la construcción dinámica de grafos acíclicos dirigidos, optimiza la comunicación entre agentes sin supervisión externa, logrando mejoras significativas en el rendimiento, especialmente en configuraciones con modelos débiles.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Este estudio presenta un flujo de trabajo automatizado basado en agentes de modelos de lenguaje grande que extrae y curó la base de datos de termoelectricidad más grande hasta la fecha, con más de 27,000 registros de propiedades estructurales y de rendimiento obtenidos de 10,000 artículos científicos, facilitando así el descubrimiento de materiales a gran escala.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

El artículo presenta DialTree, un marco de aprendizaje por refuerzo basado en árboles que descubre autónomamente estrategias de ataque adversarial multi-turno más efectivas, superando significativamente a los métodos existentes al explorar dinámicas conversacionales complejas sin necesidad de datos curados manualmente.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Idiom Understanding as a Tool to Measure the Dialect Gap

Este artículo propone el uso de la comprensión de modismos regionales como herramienta para medir la brecha dialectal, presentando nuevos conjuntos de datos para el francés de Quebec y demostrando que, aunque los modelos de lenguaje dominan el francés metropolitano, la mayoría falla significativamente al interpretar las expresiones idiomáticas de Quebec.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

El artículo presenta NANOMIND, un marco de diseño conjunto hardware-software que optimiza la inferencia de modelos multimodales grandes en dispositivos pequeños y autónomos mediante la ejecución modular en aceleradores heterogéneos, logrando una eficiencia energética superior y una autonomía de casi 21 horas sin conexión a red.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

El artículo presenta HypoSpace, una suite de diagnóstico que evalúa la creatividad de los modelos de lenguaje al generar conjuntos de hipótesis en problemas subdeterminados, midiendo la validez, la unicidad y la recuperación para revelar el colapso de modos que las métricas de corrección única pasan por alto.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

El artículo presenta KrishokBondhu, un sistema de asesoramiento agrícola basado en voz y en un marco de generación aumentada por recuperación (RAG) diseñado para agricultores bengalíes en Bangladesh, el cual demuestra una mejora significativa en la calidad y riqueza contextual de las respuestas en comparación con benchmarks existentes.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed es un sistema de inferencia en Rust que ofrece latencias ultra bajas de 1,12 ms mediante la búsqueda estática de tokens y la serialización binaria, logrando un rendimiento robusto en tareas de detección de duplicados y similitud semántica para aplicaciones en tiempo real que no pueden soportar la inferencia completa de transformadores.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

El artículo presenta a Jr. AI Scientist, un sistema autónomo que imita el flujo de trabajo de un investigador novato para generar contribuciones científicas válidas a partir de artículos base, demostrando su superioridad sobre sistemas automatizados anteriores mientras identifica sus limitaciones actuales y los riesgos asociados para la integridad de la investigación académica.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG