cs.AI artículos | Gist.Science

Token Cleaning: Fine-Grained Data Selection for LLM Supervised Fine-Tuning

Este artículo propone un pipeline genérico de limpieza de tokens para el ajuste fino supervisado de modelos de lenguaje grandes que, al filtrar selectivamente los tokens no informativos basándose en su influencia durante la actualización del modelo, mejora el rendimiento en tareas posteriores sin sacrificar la información clave.

Jinlong Pang, Na Di, Zhaowei Zhu, Jiaheng Wei, Hao Cheng, Chen Qian, Yang Liu2026-03-12💬 cs.CL

Boosting Cross-problem Generalization in Diffusion-Based Neural Combinatorial Solver via Inference Time Adaptation

El artículo presenta DIFU-Ada, un marco de adaptación en tiempo de inferencia sin entrenamiento que permite a los solucionadores de optimización combinatoria basados en difusión lograr una generalización cero-shot entre diferentes problemas y escalas, demostrando que un modelo entrenado exclusivamente en el Problema del Viajante (TSP) puede resolver eficazmente variantes como el TSP de Recolección de Premios y el Problema de Orientación.

Haoyu Lei, Kaiwen Zhou, Yinchuan Li, Zhitang Chen, Farzan Farnia2026-03-12🤖 cs.LG

Talking like Piping and Instrumentation Diagrams (P&IDs)

Este artículo propone una metodología que integra los Diagramas de Tuberías e Instrumentación (P&ID) con Modelos de Lenguaje Grandes (LLM) mediante el uso del modelo de datos DEXPI y la generación aumentada por recuperación basada en grafos (graph-RAG), permitiendo la interacción con estos diagramas en lenguaje natural para mejorar la recuperación de información contextual y reducir las alucinaciones.

Achmad Anggawirya Alimin, Dominik P. Goldstein, Lukas Schulze Balhorn + 1 more2026-03-12🤖 cs.AI

SCAM: A Real-World Typographic Robustness Evaluation for Multimodal Foundation Models

Este artículo presenta SCAM, el conjunto de datos más grande y diverso hasta la fecha de ataques tipográficos del mundo real, para evaluar la vulnerabilidad de los modelos fundacionales multimodales y demostrar que, aunque los ataques tipográficos degradan significativamente su rendimiento, el uso de modelos de lenguaje más grandes reduce esta susceptibilidad.

Justus Westerhoff, Erblina Purelku, Jakob Hackstein + 4 more2026-03-12🤖 cs.AI

Offline Dynamic Inventory and Pricing Strategy: Addressing Censored and Dependent Demand

Este artículo propone dos algoritmos basados en datos para estimar políticas óptimas de precios e inventario en un entorno secuencial con demanda censurada y dependiente, abordando los desafíos de la pérdida de información y la no estacionariedad mediante aproximaciones de procesos de decisión de Markov de alto orden y análisis de supervivencia.

Korel Gundem, Zhengling Qi2026-03-12📊 stat

Scalable Multi-Task Learning through Spiking Neural Networks with Adaptive Task-Switching Policy for Intelligent Autonomous Agents

El artículo presenta SwitchMT, un método innovador que utiliza redes neuronales de espigas con conmutación de tareas adaptativa para mejorar el aprendizaje multitarea escalable de agentes autónomos, mitigando la interferencia entre tareas sin aumentar la complejidad de la red.

Rachmad Vidya Wicaksana Putra, Avaneesh Devkota, Muhammad Shafique2026-03-12🤖 cs.AI

Large Language Model Psychometrics: A Systematic Review of Evaluation, Validation, and Enhancement

Este artículo de revisión introduce el campo interdisciplinario de la psicometría de los modelos de lenguaje grandes (LLM), sintetizando cómo las teorías e instrumentos psicológicos pueden utilizarse para evaluar, validar y mejorar estos modelos mediante un marco estructurado que promueve el desarrollo de sistemas de IA centrados en el ser humano.

Haoran Ye, Jing Jin, Yuhang Xie, Xin Zhang, Guojie Song2026-03-12💬 cs.CL

REI-Bench: Can Embodied Agents Understand Vague Human Instructions in Task Planning?

Este trabajo presenta REI-Bench, el primer benchmark para la planificación de tareas robóticas que modela sistemáticamente las referencias vagas en las instrucciones humanas, demostrando que dicha vaguedad degrada significativamente el rendimiento de los modelos de lenguaje y proponiendo una solución basada en la cognición contextual orientada a tareas que logra un estado del arte al generar instrucciones claras.

Chenxi Jiang, Chuhao Zhou, Jianfei Yang2026-03-12💬 cs.CL

Training with Pseudo-Code for Instruction Following

El artículo propone un método de entrenamiento que mejora la capacidad de seguimiento de instrucciones de los modelos de lenguaje grande al fine-tunearlos con datos que incluyen representaciones de pseudo-código de las instrucciones naturales, logrando ganancias significativas en benchmarks de seguimiento de instrucciones y razonamiento sin sacrificar el rendimiento general.

Prince Kumar, Rudra Murthy, Riyaz Bhat, Danish Contractor2026-03-12💬 cs.CL

LLLMs: A Data-Driven Survey of Evolving Research on Limitations of Large Language Models

Este estudio presenta una encuesta basada en datos que analiza el crecimiento y las tendencias de la investigación sobre las limitaciones de los modelos de lenguaje grandes (LLLMs) entre 2022 y 2025, identificando mediante un enfoque semiautomático que el razonamiento es la limitación más estudiada y que el volumen de publicaciones sobre este tema ha aumentado significativamente, especialmente en arXiv.

Aida Kostikova, Zhipin Wang, Deidamea Bajri, Ole Pütz, Benjamin Paaßen, Steffen Eger2026-03-12💬 cs.CL

Consistency-based Abductive Reasoning over Perceptual Errors of Multiple Pre-trained Models in Novel Environments

Este artículo propone un marco de razonamiento abductivo basado en la consistencia que integra las predicciones de múltiples modelos preentrenados mediante reglas lógicas para mitigar la degradación del rendimiento en entornos novedosos, logrando mejoras significativas en precisión y recall frente a enfoques individuales y de conjunto estándar.

Mario Leiva, Noel Ngu, Joshua Shay Kricheli, Aditya Taparia, Ransalu Senanayake, Paulo Shakarian, Nathaniel Bastian, John Corcoran, Gerardo Simari2026-03-12🤖 cs.AI

Comparative Analysis of Modern Machine Learning Models for Retail Sales Forecasting

Este estudio demuestra que, en el contexto de la previsión de ventas minoristas con demanda intermitente y datos incompletos, los métodos basados en árboles como XGBoost superan a arquitecturas de aprendizaje profundo más sofisticadas, lo que sugiere que la selección del modelo debe priorizar la adecuación a las características del problema sobre la complejidad arquitectónica.

Luka Hobor, Mario Brcic, Lidija Polutnik, Ante Kapetanovic2026-03-12🤖 cs.LG

Self-Improving Loops for Visual Robotic Planning

El artículo presenta SILVR, un marco que permite a los modelos de video generativos mejorar continuamente su planificación robótica en línea mediante la iteración sobre trayectorias auto-generadas, logrando un alto rendimiento en tareas nuevas sin depender de recompensas humanas ni demostraciones expertas.

Calvin Luo, Zilai Zeng, Mingxi Jia, Yilun Du, Chen Sun2026-03-12🤖 cs.AI

Learning What Reinforcement Learning Can't: Interleaved Online Fine-Tuning for Hardest Questions

El artículo presenta ReLIFT, un nuevo enfoque de entrenamiento que alterna el aprendizaje por refuerzo con el ajuste fino en línea para superar las limitaciones del primero al incorporar nuevos conocimientos y patrones de razonamiento, logrando así mejoras significativas en benchmarks de alto nivel con una fracción mínima de datos de demostración.

Lu Ma, Hao Liang, Meiyi Qiang, Lexiang Tang, Xiaochen Ma, Zhen Hao Wong, Junbo Niu, Chengyu Shen, Runming He, Yanhao Li, Bin Cui, Wentao Zhang2026-03-12🤖 cs.AI

Differential Privacy in Machine Learning: A Survey from Symbolic AI to LLMs

Esta encuesta revisa la evolución de la privacidad diferencial desde sus fundamentos teóricos hasta su integración en modelos de aprendizaje automático, abarcando desde la IA simbólica hasta los grandes modelos de lenguaje, con el fin de ofrecer una visión integral para el desarrollo de sistemas de IA seguros y responsables.

Francisco Aguilera-Martínez, Fernando Berzal2026-03-12🤖 cs.AI

Locality-aware Parallel Decoding for Efficient Autoregressive Image Generation

El artículo presenta la Decodificación Paralela Consciente de la Localidad (LPD), un nuevo enfoque que acelera la generación de imágenes autoregresiva mediante un modelado flexible y un ordenamiento local optimizado, logrando una reducción drástica en los pasos de generación y la latencia sin comprometer la calidad.

Zhuoyang Zhang, Luke J. Huang, Chengyue Wu, Shang Yang, Kelly Peng, Yao Lu, Song Han2026-03-12🤖 cs.AI

Technological folie à deux: Feedback Loops Between AI Chatbots and Mental Illness

Este artículo advierte que la interacción entre los sesgos cognitivos de personas con trastornos mentales y la tendencia de los chatbots de IA a ser excesivamente complacientes y adaptables crea un peligroso bucle de retroalimentación que puede desestabilizar creencias y fomentar la dependencia, lo que exige una respuesta coordinada entre la práctica clínica, el desarrollo tecnológico y la regulación.

Sebastian Dohnány, Zeb Kurth-Nelson, Eleanor Spens, Lennart Luettgau, Alastair Reid, Iason Gabriel, Christopher Summerfield, Murray Shanahan, Matthew M Nour2026-03-12🧬 q-bio

What Makes Code Generation Ethically Sourced?

Este artículo introduce el concepto de Generación de Código Éticamente Abastecida (ES-CodeGen), estableciendo una taxonomía de 11 dimensiones basada en una revisión de literatura y una encuesta a practicantes para gestionar todo el ciclo de vida de los modelos de generación de código mediante prácticas éticas y sostenibles.

Zhuolin Xu, Chenglin Li, Qiushi Li, Shin Hwei Tan2026-03-12🤖 cs.AI

IntrinsicWeather: Controllable Weather Editing in Intrinsic Space

El artículo presenta IntrinsicWeather, un marco basado en difusión que edita condiciones climáticas de forma controlada en el espacio intrínseco mediante la estimación de mapas de material, geometría y luz, superando a los métodos existentes y ofreciendo mejoras para tareas como la conducción autónoma.

Yixin Zhu, Zuo-Liang Zhu, Jian Yang + 3 more2026-03-12🤖 cs.AI

Shadow in the Cache: Unveiling and Mitigating Privacy Risks of KV-cache in LLM Inference

Este artículo expone por primera vez los riesgos de privacidad en la caché KV de los modelos de lenguaje grandes, demostrando cómo un atacante puede reconstruir entradas sensibles mediante tres vectores de ataque, y propone KV-Cloak, un mecanismo de defensa ligero y reversible que elimina estas vulnerabilidades sin degradar el rendimiento ni la precisión del modelo.

Zhifan Luo, Shuo Shao, Su Zhang, Lijing Zhou, Yuke Hu, Chenxu Zhao, Zhihao Liu, Zhan Qin2026-03-12💬 cs.CL

← Anterior Siguiente →