cs.AI artículos | Gist.Science

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Este artículo presenta el "IsoCompute Playbook", un marco que optimiza la asignación de recursos computacionales para el aprendizaje por refuerzo de modelos de lenguaje grandes, demostrando que aumentar el número de rodajes paralelos por problema mejora la eficiencia de manera predecible y adaptándose a la dificultad del problema.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

GlyphBanana: Advancing Precise Text Rendering Through Agentic Workflows

El artículo presenta GlyphBanana, un enfoque sin entrenamiento que utiliza flujos de trabajo agénticos e inyección de plantillas de glifos para mejorar la precisión en la generación de texto complejo y fórmulas matemáticas en modelos de texto a imagen, respaldado por un nuevo benchmark y código público.

Zexuan Yan, Jiarui Jin, Yue Ma, Shijian Wang, Jiahui Hu, Wenxiang Jiao, Yuan Lu, Linfeng Zhang2026-03-13🤖 cs.AI

A Quantitative Characterization of Forgetting in Post-Training

Este trabajo proporciona una caracterización cuantitativa del olvido en el entrenamiento continuo de modelos generativos, demostrando teóricamente que los objetivos de divergencia KL inversa evitan el colapso de la masa de tareas anteriores y limitan el desplazamiento de componentes mediante la superposición de distribuciones, a diferencia de la KL directa que conduce al olvido masivo.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

BehaviorVLM: Unified Finetuning-Free Behavioral Understanding with Vision-Language Reasoning

BehaviorVLM es un marco unificado basado en modelos de visión-idioma que permite el entendimiento de comportamientos animales y la estimulación de poses sin necesidad de ajuste fino específico, utilizando razonamiento visual-lingüístico para reducir drásticamente la dependencia de anotaciones humanas.

Jingyang Ke, Weihan Li, Amartya Pradhan, Jeffrey Markowitz, Anqi Wu2026-03-13🤖 cs.AI

Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

El artículo introduce el benchmark MADQA y un protocolo de evaluación para demostrar que, aunque los agentes multimodales pueden igualar la precisión humana en la búsqueda de documentos, lo logran mediante búsquedas estocásticas y fuerza bruta en lugar de un razonamiento estratégico genuino, manteniendo una brecha significativa de rendimiento frente a un oráculo ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

Compiling Temporal Numeric Planning into Discrete PDDL+: Extended Version

Este trabajo presenta una compilación práctica y polinómica que traduce la planificación temporal con acciones durativas al lenguaje PDDL+, capturando su semántica completa y demostrando su relevancia experimental para problemas temporales numéricos complejos.

Andrea Micheli, Enrico Scala, Alessandro Valentini2026-03-13🤖 cs.AI

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

RDNet: Region Proportion-Aware Dynamic Adaptive Salient Object Detection Network in Optical Remote Sensing Images

El artículo presenta RDNet, una red de detección de objetos salientes para imágenes ópticas de teledetección que supera las limitaciones de escala y contexto de los métodos existentes mediante el uso de SwinTransformer y tres módulos innovadores: DAD, FCE y RPL.

Bin Wan, Runmin Cong, Xiaofei Zhou, Hao Fang, Yaoqi Sun, Sam Kwong2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Este artículo presenta Portfolio-CEGAR-SEQ, un algoritmo paralelo que aprovecha la potencia de los procesadores multinúcleo modernos combinando múltiples estrategias de disposición y programación de objetos para optimizar la impresión 3D secuencial, logrando un rendimiento superior y un menor uso de placas de impresión en comparación con el algoritmo CEGAR-SEQ original.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

El artículo presenta Idea-Catalyst, un marco impulsado por modelos de lenguaje que fomenta la creatividad científica interdisciplinaria al descomponer objetivos de investigación en problemas conceptuales para recuperar y sintetizar insights de dominios externos, logrando así un aumento significativo en la novedad y la profundidad de las ideas sin caer en soluciones prematuras.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

El artículo propone que en modelos grandes y bien preentrenados, los expertos específicos de tareas son tan densos alrededor de los pesos preentrenados que un método de post-entrenamiento simple, que muestrea y ensamble perturbaciones aleatorias, puede competir eficazmente con técnicas de optimización estructurada más complejas como PPO o GRPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Incremental Neural Network Verification via Learned Conflicts

Este trabajo propone una técnica de verificación incremental para redes neuronales que reutiliza conflictos aprendidos entre consultas relacionadas mediante un solucionador SAT, logrando aceleraciones de hasta 1.9 veces al reducir la exploración redundante en verificadores basados en ramificación y acotamiento como Marabou.

Raya Elsaleh, Liam Davis, Haoze Wu, Guy Katz2026-03-13🤖 cs.AI

Separable neural architectures as a primitive for unified predictive and generative intelligence

El artículo presenta las arquitecturas neuronales separables (SNA) como un primitivo unificado para la inteligencia predictiva y generativa que, al imponer sesgos inductivos estructurales para factorizar mapeos de alta dimensión, permite modelar eficazmente sistemas caóticos y secuencias discretas en dominios diversos como la navegación autónoma, la generación de microestructuras, la dinámica de fluidos y el procesamiento del lenguaje.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudio demuestra que, aunque los jueces de modelos de lenguaje con capacidades de razonamiento evitan el "reward hacking" y permiten entrenar políticas alineadas con un estándar de oro, estas políticas logran dicho rendimiento aprendiendo a generar salidas adversarias que engañan a otros jueces en evaluaciones estándar.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

El artículo presenta SciMDR, un marco de trabajo de síntesis y reanclaje que genera un conjunto de datos de 300.000 pares de preguntas y respuestas con cadenas de razonamiento explícitas a partir de 20.000 artículos científicos para entrenar modelos de razonamiento multimodal, logrando mejoras significativas en tareas de comprensión científica compleja.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Este artículo presenta un método libre de entrenamiento para el modelo FLUX.1 que descubre y explota un subespacio latente de color estructurado (Hue, Saturation, Lightness) en su espacio de representación VAE, permitiendo la predicción y el control preciso de los colores en imágenes generadas mediante manipulación matemática directa.

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata2026-03-13🤖 cs.LG

Explainability of Text Processing and Retrieval Methods: A Survey

Este artículo ofrece una amplia revisión de las investigaciones sobre la explicabilidad e interpretabilidad de los métodos de procesamiento del lenguaje natural y recuperación de información, abarcando desde representaciones de palabras y modelos de atención hasta transformadores y sistemas de clasificación de documentos, y concluye sugiriendo direcciones futuras para la investigación en este campo.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL

Improving Fairness with Ensemble Combination: Margin-Dependent Bounds

Este artículo propone una nueva medida de calidad de equidad llamada "riesgo discriminatorio" que integra la equidad individual y grupal, establece límites teóricos basados en márgenes para demostrar que la combinación de conjuntos puede mejorar la equidad y presenta métodos de poda de conjuntos para obtener modelos precisos y justos.

Yijun Bian2026-03-12🤖 cs.LG

← Anterior Siguiente →