cs.AI artículos | Gist.Science

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Este trabajo evalúa las capacidades de diversos modelos de lenguaje grande, como Llama-3 y ChatGPT, en la resolución de problemas de optimización discreta mediante un conjunto de datos natural y ampliado, concluyendo que aunque los modelos más potentes rinden mejor, la técnica de razonamiento paso a paso (CoT) no siempre es efectiva y los datos desordenados pueden mejorar el rendimiento en problemas sencillos a pesar de la inestabilidad.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

Hide and Find: A Distributed Adversarial Attack on Federated Graph Learning

El artículo propone FedShift, un nuevo ataque adversarial distribuido de dos etapas ("esconder y encontrar") para el aprendizaje federado de grafos que logra una alta efectividad y sigilo al inyectar un "desplazador" oculto durante el entrenamiento y luego optimizar perturbaciones basadas en el modelo global, superando a los métodos existentes en rendimiento, evasión de defensas y eficiencia computacional.

Jinshan Liu, Ken Li, Jiazhe Wei, Bin Shi, Bo Dong2026-03-10🤖 cs.LG

DECADE: A Temporally-Consistent Unsupervised Diffusion Model for Enhanced Rb-82 Dynamic Cardiac PET Image Denoising

El artículo presenta DECADE, un marco de difusión no supervisado que mejora la desruidificación de imágenes PET cardíacas dinámicas con Rb-82 al garantizar consistencia temporal y preservar la precisión cuantitativa sin necesidad de datos de entrenamiento emparejados.

Yinchi Zhou, Liang Guo, Huidong Xie, Yuexi Du, Ashley Wang, Menghua Xia, Tian Yu, Ramesh Fazzone-Chettiar, Christopher Weyman, Bruce Spottiswoode, Vladimir Panin, Kuangyu Shi, Edward J. Miller, Attila Feher, Albert J. Sinusas, Nicha C. Dvornek, Chi Liu2026-03-10💻 cs

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

El sistema QuadAI para SemEval-2026 Task 3 mejora el análisis de sentimientos basado en aspectos multidimensionales mediante un aprendizaje por conjuntos que combina un codificador híbrido RoBERTa con modelos de lenguaje grandes (LLMs), logrando una reducción significativa del error cuadrático medio y una mayor correlación al aprovechar las fortalezas complementarias de ambos enfoques.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ProgAgent:A Continual RL Agent with Progress-Aware Rewards

ProgAgent es un agente de aprendizaje por refuerzo continuo que unifica recompensas densas derivadas de videos expertos con una arquitectura nativa de alto rendimiento para mitigar el olvido catastrófico y acelerar el aprendizaje de habilidades robóticas complejas.

Jinzhou Tan, Gabriel Adineera, Jinoh Kim2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Este estudio evalúa sistemáticamente los sesgos sociales en siete modelos de lenguaje avanzados dentro del contexto cultural nepalí, revelando mediante una evaluación de doble métrica que, aunque existe un acuerdo explícito medible con estereotipos, el sesgo implícito en la generación de texto es más prevalente, no lineal respecto a la temperatura y pobremente capturado por las métricas de acuerdo tradicionales.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Learning embeddings of non-linear PDEs: the Burgers' equation

Este trabajo presenta un método que generaliza los embeddings a las redes neuronales informadas por física para construir espacios de incrustación de soluciones de ecuaciones diferenciales parciales no lineales, como la ecuación de Burgers viscosa, mediante un diseño de múltiples cabezales con restricciones de ortogonalidad que permiten una descomposición robusta e interpretable del espacio latente.

Pedro Tarancón-Álvarez, Leonid Sarieddine, Pavlos Protopapas, Raul Jimenez2026-03-10🤖 cs.LG

HybridStitch: Pixel and Timestep Level Model Stitching for Diffusion Acceleration

El artículo presenta HybridStitch, un nuevo paradigma para la generación de imágenes texto-a-imagen que acelera los modelos de difusión dividiendo la imagen en regiones simples y complejas para procesarlas simultáneamente con modelos pequeños y grandes, logrando una aceleración de 1,83 veces en Stable Diffusion 3.

Desen Sun, Jason Hon, Jintao Zhang, Sihang Liu2026-03-10💻 cs

Column Generation for the Micro-Transit Zoning Problem

Este artículo presenta un marco de generación de columnas con heurísticas de precios para resolver el problema de zonificación del microtránsito bajo un presupuesto global, demostrando mediante experimentos numéricos que ofrece soluciones de mayor calidad y mejor escalabilidad que los enfoques existentes.

Hins Hu, Rishav Sen, Jose Paolo Talusan, Abhishek Dubey, Aron Laszka, Samitha Samaranayake2026-03-10🔢 math

Gradient Iterated Temporal-Difference Learning

Este trabajo presenta el aprendizaje iterado de diferencias temporales con gradiente (Gradient Iterated TD), un nuevo algoritmo que modifica el enfoque iterado para calcular gradientes sobre objetivos móviles, logrando por primera vez una velocidad de aprendizaje competitiva con los métodos semigradientes en tareas complejas como los juegos de Atari mientras mantiene la estabilidad de los métodos basados en gradiente.

Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo2026-03-10🤖 cs.LG

AI Misuse in Education Is a Measurement Problem: Toward a Learning Visibility Framework

Este artículo propone el Marco de Visibilidad del Aprendizaje para abordar el mal uso de la IA en la educación, redefiniendo el problema no como uno de detección, sino como una pérdida de visibilidad sobre el proceso de aprendizaje que debe recuperarse mediante la transparencia y la evaluación de evidencias de proceso junto con los resultados.

Eduardo Davalos, Yike Zhang2026-03-10💻 cs

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

El artículo presenta DistillGuard, un marco de evaluación que demuestra que las defensas actuales contra la destilación de conocimiento de LLMs son mayormente ineficaces y altamente dependientes de la tarea, ya que la mayoría de las perturbaciones de salida no degradan significativamente la calidad del modelo estudiante.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

El toolkit de código abierto "AI Steerability 360" es una biblioteca Python nativa de Hugging Face que facilita el desarrollo y la evaluación exhaustiva de métodos para controlar modelos de lenguaje mediante cuatro superficies de control (entrada, estructura, estado y salida) unificadas en una interfaz común de tubería de dirección.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

Intentional Deception as Controllable Capability in LLM Agents

Este estudio demuestra que la decepción intencional en agentes LLM es una capacidad controlable que se aprovecha principalmente de la inferencia de la motivación del objetivo y del uso de desviación estratégica en lugar de falsedades, revelando que las defensas actuales basadas en la verificación de hechos son insuficientes.

Jason Starace, Terence Soule2026-03-10💻 cs

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

El artículo presenta SynPlanResearch-R1, un marco que mejora el rendimiento de los agentes de investigación al sintetizar trayectorias de uso de herramientas que fomentan una exploración más profunda durante el ajuste fino inicial, logrando así superar a los métodos actuales en múltiples benchmarks.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

Slumbering to Precision: Enhancing Artificial Neural Network Calibration Through Sleep-like Processes

Basado en procesos biológicos de sueño, el artículo presenta la Consolidación de Repetición de Sueño (SRC), un método post-entrenamiento que mejora la calibración y la confianza de las redes neuronales artificiales al replantear representaciones internas sin necesidad de reentrenamiento supervisado.

Jean Erik Delanois, Aditya Ahuja, Giri P. Krishnan, Maxim Bazhenov2026-03-10🤖 cs.LG

Hospitality-VQA: Decision-Oriented Informativeness Evaluation for Vision-Language Models

Este trabajo introduce un nuevo marco de "informatividad" y un conjunto de datos específico para evaluar la capacidad de los Modelos Visuales-Lingüísticos (VLM) en el sector hotelero, revelando que, aunque estos modelos carecen de conciencia decisional inherente, pueden adquirir un razonamiento fiable tras un ajuste fino modesto.

Jeongwoo Lee, Baek Duhyeong, Eungyeol Han, Soyeon Shin, Gukin han, Seungduk Kim, Jaehyun Jeon, Taewoo Jeong2026-03-10🤖 cs.LG

CCR-Bench: A Comprehensive Benchmark for Evaluating LLMs on Complex Constraints, Control Flows, and Real-World Cases

El artículo presenta CCR-Bench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de lenguaje grandes para seguir instrucciones complejas en escenarios industriales reales, revelando que incluso los modelos más avanzados presentan deficiencias significativas al manejar la intrincada interacción entre contenido, formato y flujos de control lógico.

Xiaona Xue, Yiqiao Huang, Jiacheng Li, Yuanhang Zheng, Huiqi Miao, Yunfei Ma, Rui Liu, Xinbao Sun, Minglu Liu, Fanyu Meng, Chao Deng, Junlan Feng2026-03-10💬 cs.CL

Reject, Resample, Repeat: Understanding Parallel Reasoning in Language Model Inference

Este artículo introduce un marco teórico basado en el filtrado de partículas para analizar rigurosamente los métodos de inferencia paralela en modelos de lenguaje, identificando garantías no asintóticas, mejoras algorítmicas y límites fundamentales, aunque sus hallazgos empíricos sugieren que la precisión final depende de factores más allá del error de muestreo.

Noah Golowich, Fan Chen, Dhruv Rohatgi, Raghav Singhal, Carles Domingo-Enrich, Dylan J. Foster, Akshay Krishnamurthy2026-03-10🤖 cs.LG

VLM-SubtleBench: How Far Are VLMs from Human-Level Subtle Comparative Reasoning?

Este trabajo presenta VLM-SubtleBench, un nuevo benchmark que evalúa la capacidad de los modelos de visión y lenguaje para realizar razonamiento comparativo sutil en diferencias finas y diversos dominios, revelando brechas significativas entre su rendimiento y el humano.

Minkyu Kim, Sangheon Lee, Dongmin Park2026-03-10🤖 cs.LG

← Anterior Siguiente →