cs.LG artículos | Gist.Science

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

El artículo presenta LexiSafe, un marco de aprendizaje por refuerzo seguro offline que utiliza una jerarquía lexicográfica para priorizar la seguridad sobre la recompensa, ofreciendo garantías teóricas de complejidad de muestra y mejor rendimiento empírico en sistemas ciberfísicos críticos.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

El artículo presenta ZACH-ViT, un transformador de visión compacto que elimina las codificaciones posicionales y el token [CLS] para lograr un procesamiento de parches invariante a permutaciones, demostrando que esta arquitectura adaptada a la estructura de los datos médicos alcanza un rendimiento competitivo en escenarios de pocos datos, especialmente cuando la disposición espacial es débilmente informativa.

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Este artículo propone nuevos benchmarks rigurosos basados en problemas aleatorios desde una perspectiva de física estadística para evaluar redes neuronales gráficas en problemas de satisfacción de restricciones, demostrando que, en comparación justa, los algoritmos clásicos siguen superando a las redes neuronales.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Este estudio demuestra que los analistas autónomos basados en modelos de lenguaje grande pueden replicar a gran escala y bajo costo la diversidad analítica humana, generando una amplia dispersión de resultados que subraya la necesidad de un nuevo estándar de transparencia que incluya informes de estilo "multiverso" y la divulgación completa de los prompts utilizados.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Este artículo propone un marco de consulta activa de valores para aproximar funciones de conjuntos subaditivas desconocidas minimizando el error aditivo entre sus completaciones mínima y máxima, abordando así la ambigüedad inherente a la especificación incompleta de estas funciones en aplicaciones como subastas combinatorias y aprendizaje automático.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

El estudio demuestra que los modelos de lenguaje grandes como OPT pueden quedar atrapados en errores tempranos y persistentes durante el entrenamiento debido a sesgos estadísticos de bigramas, lo que dificulta su capacidad para aprender correctamente ciertas reglas gramaticales incluso después de un extenso entrenamiento.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Este artículo presenta CARE, un marco de agentes basado en evidencia que mejora la responsabilidad clínica y la precisión en el razonamiento médico multimodal al descomponer la tarea en módulos especializados coordinados que generan y verifican evidencia visual explícita, superando significativamente a los modelos de vanguardia en benchmarks médicos.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

El artículo presenta CFG-Ctrl, un marco unificado que reinterpreta la Guía Libre de Clasificadores (CFG) como un control de flujo generativo y propone SMC-CFG, un método basado en control por modo deslizante que supera las limitaciones de inestabilidad y overshooting de los enfoques lineales existentes, logrando una mejor alineación semántica y convergencia en modelos de generación de imágenes.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Este artículo presenta la primera evaluación exhaustiva del ajuste fino eficiente en parámetros (PEFT) para el análisis de código multitarea, demostrando que un único módulo PEFT compartido puede igualar o superar al ajuste completo con una reducción drástica de costos computacionales y de almacenamiento, aunque su éxito depende críticamente de factores como la estabilidad de las tareas, la arquitectura del modelo y la calidad de los datos.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Este artículo presenta la Desaprendizaje Dirigido por Razonamiento (TRU), un nuevo enfoque que utiliza objetivos basados en el razonamiento para eliminar conocimientos no deseados en modelos de lenguaje grandes de manera precisa y explicable, preservando al mismo tiempo sus capacidades generales y mejorando su robustez frente a ataques.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

El artículo presenta MoE-SpAc, un marco de inferencia para modelos MoE en entornos de borde heterogéneos que utiliza la utilidad de activación especulativa para optimizar la gestión de memoria y la ejecución asíncrona, logrando mejoras significativas en el rendimiento frente a las soluciones actuales.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Este artículo presenta un marco que optimiza la transformación de características impulsada por modelos de lenguaje grande mediante la evolución de demostraciones en bucle cerrado y la selección de contextos diversos, superando así las limitaciones de eficiencia y diversidad de los métodos existentes para mejorar el rendimiento en tareas predictivas tabulares.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Este artículo presenta TAMUSA-Chat, un marco de investigación para desarrollar sistemas conversacionales de modelos de lenguaje grandes adaptados a contextos institucionales mediante técnicas de ajuste fino y generación aumentada por recuperación, priorizando la transparencia, el cumplimiento normativo y las prácticas de IA responsable.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Este estudio evalúa la robustez y seguridad pedagógica de modelos de lenguaje offline en la educación del idioma turco, demostrando mediante una suite de anomalías que los modelos de 8B a 14B parámetros ofrecen el mejor equilibrio entre costo y seguridad, ya que la resistencia a anomalías no depende únicamente de la escala del modelo.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Este estudio ofrece una fundamentación teórica sobre la comprensión semántica, el aprendizaje en contexto y el razonamiento paso a paso en los modelos de lenguaje grandes, demostrando que estas capacidades surgen de la inferencia de probabilidades de transición, la reducción de ambigüedad y la descomposición de tareas durante el proceso autoregresivo.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Este trabajo presenta la creación de LatamQA, un conjunto de datos de más de 26.000 preguntas y respuestas en español y portugués derivadas de Wikipedia y Wikidata, para evaluar y revelar sesgos socioculturales y geográficos en los modelos de lenguaje grande hacia las diversas culturas de América Latina.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

El artículo presenta SpreadsheetArena, una plataforma de evaluación mediante comparaciones ciegas que revela que, aunque los modelos de lenguaje avanzados generan hojas de cálculo, a menudo no se alinean consistentemente con las mejores prácticas específicas de dominios como las finanzas debido a la variabilidad de criterios de preferencia.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Este artículo demuestra que los detectores de mentiras actuales en modelos de lenguaje grandes fallan al identificar el engaño cuando este no implica afirmaciones falsas, revelando una limitación crítica en los enfoques mecanicistas que equiparan el engaño exclusivamente con la mentira.

Tom-Felix Berger2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

En la tarea compartida AbjadGenEval, el equipo GATech demostró que el ajuste fino del codificador multilingüe E5-large combinado con un simple promedio de pooling (que alcanzó un F1 de 0.75) superó a estrategias de agrupación más complejas, destacando además que los textos escritos por humanos tienden a ser significativamente más largos que los generados por máquinas.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Este artículo demuestra que los codificadores bidireccionales especializados, como AraBERTv2 con estrategias de agrupación híbridas, superan significativamente a los decodificadores causales en la clasificación de texto médico árabe de 82 clases, debido a su capacidad para capturar mejor los límites semánticos globales necesarios para esta tarea.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

← Anterior Siguiente →