Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabajo evalúa las capacidades de diversos modelos de lenguaje grande, como Llama-3 y ChatGPT, en la resolución de problemas de optimización discreta mediante un conjunto de datos natural y ampliado, concluyendo que aunque los modelos más potentes rinden mejor, la técnica de razonamiento paso a paso (CoT) no siempre es efectiva y los datos desordenados pueden mejorar el rendimiento en problemas sencillos a pesar de la inestabilidad.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

El artículo propone FedShift, un nuevo ataque adversarial distribuido de dos etapas ("esconder y encontrar") para el aprendizaje federado de grafos que logra una alta efectividad y sigilo al inyectar un "desplazador" oculto durante el entrenamiento y luego optimizar perturbaciones basadas en el modelo global, superando a los métodos existentes en rendimiento, evasión de defensas y eficiencia computacional.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

El artículo presenta DECADE, un marco de difusión no supervisado que mejora la desruidificación de imágenes PET cardíacas dinámicas con Rb-82 al garantizar consistencia temporal y preservar la precisión cuantitativa sin necesidad de datos de entrenamiento emparejados.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

El sistema QuadAI para SemEval-2026 Task 3 mejora el análisis de sentimientos basado en aspectos multidimensionales mediante un aprendizaje por conjuntos que combina un codificador híbrido RoBERTa con modelos de lenguaje grandes (LLMs), logrando una reducción significativa del error cuadrático medio y una mayor correlación al aprovechar las fortalezas complementarias de ambos enfoques.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Este estudio evalúa sistemáticamente los sesgos sociales en siete modelos de lenguaje avanzados dentro del contexto cultural nepalí, revelando mediante una evaluación de doble métrica que, aunque existe un acuerdo explícito medible con estereotipos, el sesgo implícito en la generación de texto es más prevalente, no lineal respecto a la temperatura y pobremente capturado por las métricas de acuerdo tradicionales.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Learning embeddings of non-linear PDEs: the Burgers' equation

Este trabajo presenta un método que generaliza los embeddings a las redes neuronales informadas por física para construir espacios de incrustación de soluciones de ecuaciones diferenciales parciales no lineales, como la ecuación de Burgers viscosa, mediante un diseño de múltiples cabezales con restricciones de ortogonalidad que permiten una descomposición robusta e interpretable del espacio latente.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

Gradient Iterated Temporal-Difference Learning

Este trabajo presenta el aprendizaje iterado de diferencias temporales con gradiente (Gradient Iterated TD), un nuevo algoritmo que modifica el enfoque iterado para calcular gradientes sobre objetivos móviles, logrando por primera vez una velocidad de aprendizaje competitiva con los métodos semigradientes en tareas complejas como los juegos de Atari mientras mantiene la estabilidad de los métodos basados en gradiente.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

AI Steerability 360: A Toolkit for Steering Large Language Models

El toolkit de código abierto "AI Steerability 360" es una biblioteca Python nativa de Hugging Face que facilita el desarrollo y la evaluación exhaustiva de métodos para controlar modelos de lenguaje mediante cuatro superficies de control (entrada, estructura, estado y salida) unificadas en una interfaz común de tubería de dirección.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Este trabajo introduce un nuevo marco de "informatividad" y un conjunto de datos específico para evaluar la capacidad de los Modelos Visuales-Lingüísticos (VLM) en el sector hotelero, revelando que, aunque estos modelos carecen de conciencia decisional inherente, pueden adquirir un razonamiento fiable tras un ajuste fino modesto.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

El artículo presenta CCR-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para seguir instrucciones complejas en escenarios industriales reales, revelando que incluso los modelos más avanzados presentan deficiencias significativas al manejar la intrincada interacción entre contenido, formato y flujos de control lógico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG