SPOT: An Annotated French Corpus and Benchmark for Detecting Critical Interventions in Online Conversations

Este artículo presenta SPOT, el primer corpus anotado en francés y un benchmark para detectar "puntos de parada" en conversaciones en línea, demostrando que los modelos de codificadores ajustados superan a los grandes modelos de lenguaje en esta tarea y mejoran su rendimiento al incorporar metadatos contextuales.

Manon Berriche, Célia Nouri, Chloée Clavel, Jean-Philippe Cointet2026-03-10💬 cs.CL

Stealth Fine-Tuning: Efficiently Breaking Alignment in RVLMs Using Self-Generated CoT

Este trabajo presenta "Stealth Fine-Tuning", un método de bajo costo que rompe la alineación de seguridad en Modelos de Lenguaje Visuales con Razonamiento (RVLMs) mediante interferencia a nivel de segmento y ajuste fino con datos generados por el propio modelo, logrando una tasa de éxito significativamente mayor que métodos anteriores mientras preserva la capacidad de razonamiento general.

Le Yu, Zhengyue Zhao, Yawen Zheng, Yunhao Liu2026-03-10💬 cs.CL

Process-Centric Analysis of Agentic Software Systems

Este artículo presenta Graphectory, un marco de análisis centrado en procesos que representa las trayectorias de sistemas agénticos como grafos para revelar patrones de razonamiento y estrategias, demostrando que el monitoreo y la intervención en tiempo real basados en este análisis mejoran significativamente las tasas de resolución y reducen la longitud de las trayectorias.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

El artículo presenta el Transformer de Decodificador Paralelo (PDT), una arquitectura que integra un mecanismo de coordinación interna mediante un espacio latente sembrado por un planificador y un protocolo de decodificación sincronizada, permitiendo que un modelo de lenguaje congelado resuelva subproblemas en paralelo de manera autónoma sin depender de orquestación externa.

Logan Robbins2026-03-10💬 cs.CL

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Esta encuesta propone un marco unificado de cuatro paradigmas para estudiar la adaptación de agentes de IA tras el preentrenamiento, abarcando tanto la mejora del propio agente como la de sus herramientas, memorias y habilidades, con el fin de analizar métodos, comparar compensaciones y resumir prácticas de evaluación en diversos dominios.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

A Two-Stage Multitask Vision-Language Framework for Explainable Crop Disease Visual Question Answering

Este trabajo presenta un marco ligero y explicable de visión-linguaje basado en dos etapas que combina un codificador Swin Transformer preentrenado multitarea con decodificadores de lenguaje para lograr un rendimiento casi perfecto en la identificación de enfermedades de cultivos y la generación de respuestas explicativas a preguntas visuales.

Md. Zahid Hossain, Most. Sharmin Sultana Samu, Md. Rakibul Islam, Md. Siam Ansary2026-03-10💬 cs.CL

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

NC-Bench es un nuevo marco de evaluación para modelos de lenguaje grande que, fundamentado en el IBM Natural Conversation Framework, mide la competencia conversacional analizando la estructura y el flujo de la interacción en lugar del contenido, revelando mediante pruebas iniciales que los modelos dominan las respuestas básicas pero tienen dificultades con tareas de reparación y solicitudes complejas.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

MAS-Orchestra: Understanding and Improving Multi-Agent Reasoning Through Holistic Orchestration and Controlled Benchmarks

El artículo presenta MAS-Orchestra, un marco de entrenamiento que optimiza la orquestación de sistemas multiagente mediante aprendizaje por refuerzo y abstracción funcional, junto con MASBENCH, una métrica controlada que demuestra que los beneficios de los sistemas multiagente dependen críticamente de la estructura de la tarea, logrando mejoras consistentes y una eficiencia superior a la de las bases de referencia existentes.

Zixuan Ke, Yifei Ming, Austin Xu, Ryan Chin, Xuan-Phi Nguyen, Prathyusha Jwalapuram, Jiayu Wang, Semih Yavuz, Caiming Xiong, Shafiq Joty2026-03-10💬 cs.CL

RedSage: A Cybersecurity Generalist LLM

El artículo presenta RedSage, un modelo de lenguaje abierto y localmente desplegable especializado en ciberseguridad que, gracias a un preentrenamiento con 11.8 mil millones de tokens y un ajuste fino mediante una pipeline de aumento agéntica, supera a los modelos base en benchmarks de ciberseguridad y razonamiento general, ofreciendo además un nuevo conjunto de evaluación llamado RedSage-Bench.

Naufal Suryanto, Muzammal Naseer, Pengfei Li, Syed Talal Wasim, Jinhui Yi, Juergen Gall, Paolo Ceravolo, Ernesto Damiani2026-03-10💬 cs.CL

Do Schwartz Higher-Order Values Help Sentence-Level Human Value Detection? A Study of Hierarchical Gating and Calibration

Este estudio demuestra que, en la detección de valores humanos a nivel de oración, la estructura de valores de orden superior de Schwartz funciona mejor como un sesgo inductivo que como una regla de enrutamiento rígida, siendo las mejoras más significativas obtenidas mediante técnicas de calibración y ensamble en lugar de arquitecturas jerárquicas complejas.

Víctor Yeste, Paolo Rosso2026-03-10🤖 cs.LG

LatentMem: Customizing Latent Memory for Multi-Agent Systems

El artículo presenta LatentMem, un marco de memoria multiagente aprendible que supera las limitaciones de homogeneización y sobrecarga de información mediante la síntesis de memorias latentes específicas para cada agente y la optimización de políticas, logrando mejoras significativas en el rendimiento sin modificar los sistemas existentes.

Muxin Fu, Xiangyuan Xue, Yafu Li, Zefeng He, Siyuan Huang, Xiaoye Qu, Yu Cheng, Yang Yang2026-03-10🤖 cs.LG