Strategic Navigation or Stochastic Search? How Agents and Humans Reason Over Document Collections

El artículo introduce el benchmark MADQA y un protocolo de evaluación para demostrar que, aunque los agentes multimodales pueden igualar la precisión humana en la búsqueda de documentos, lo logran mediante búsquedas estocásticas y fuerza bruta en lugar de un razonamiento estratégico genuino, manteniendo una brecha significativa de rendimiento frente a un oráculo ideal.

Łukasz Borchmann, Jordy Van Landeghem, Michał Turski, Shreyansh Padarha, Ryan Othniel Kearns, Adam Mahdi, Niels Rogge, Clémentine Fourrier, Siwei Han, Huaxiu Yao, Artemis Llabrés, Yiming Xu, Dimosthenis Karatzas, Hao Zhang, Anupam Datta2026-03-13💬 cs.CL

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

El artículo presenta "Proof-Carrying Materials" (PCM), un marco de certificación de seguridad falsificable que combina falsificación adversaria, intervalos de confianza y verificación formal para superar las limitaciones de los potenciales interatómicos aprendidos por máquina, logrando un aumento del 25% en el descubrimiento de materiales estables mediante la detección de fallos arquitectónicos específicos y la reducción de falsos negativos.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

WORKSWORLD: A Domain for Integrated Numeric Planning and Scheduling of Distributed Pipelined Workflows

Este trabajo presenta WORKSWORLD, un nuevo dominio para planificadores numéricos independientes del dominio que automatiza la planificación y programación conjunta de flujos de trabajo de datos distribuidos, permitiendo definir orígenes y destinos sin especificar el grafo completo y logrando resolver cadenas lineales de hasta 14 componentes en ocho sitios con recursos de hardware estándar.

Taylor Paul, William Regli2026-03-13🤖 cs.AI

Portfolio of Solving Strategies in CEGAR-based Object Packing and Scheduling for Sequential 3D Printing

Este artículo presenta Portfolio-CEGAR-SEQ, un algoritmo paralelo que aprovecha la potencia de los procesadores multinúcleo modernos combinando múltiples estrategias de disposición y programación de objetos para optimizar la impresión 3D secuencial, logrando un rendimiento superior y un menor uso de placas de impresión en comparación con el algoritmo CEGAR-SEQ original.

Pavel Surynek2026-03-13🤖 cs.AI

Sparking Scientific Creativity via LLM-Driven Interdisciplinary Inspiration

El artículo presenta Idea-Catalyst, un marco impulsado por modelos de lenguaje que fomenta la creatividad científica interdisciplinaria al descomponer objetivos de investigación en problemas conceptuales para recuperar y sintetizar insights de dominios externos, logrando así un aumento significativo en la novedad y la profundidad de las ideas sin caer en soluciones prematuras.

Priyanka Kargupta, Shuhaib Mehri, Dilek Hakkani-Tur, Jiawei Han2026-03-13💬 cs.CL

Security Considerations for Artificial Intelligence Agents

Este artículo, basado en la experiencia de Perplexity con sistemas de agentes de IA, analiza las nuevas vulnerabilidades de seguridad introducidas por estas arquitecturas, mapea sus superficies de ataque y propone un enfoque de defensa en capas junto con brechas de investigación para alinear el diseño de sistemas multiagente con los principios de gestión de riesgos del NIST.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

El artículo presenta las arquitecturas neuronales separables (SNA) como un primitivo unificado para la inteligencia predictiva y generativa que, al imponer sesgos inductivos estructurales para factorizar mapeos de alta dimensión, permite modelar eficazmente sistemas caóticos y secuencias discretas en dominios diversos como la navegación autónoma, la generación de microestructuras, la dinámica de fluidos y el procesamiento del lenguaje.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Este estudio demuestra que, aunque los jueces de modelos de lenguaje con capacidades de razonamiento evitan el "reward hacking" y permiten entrenar políticas alineadas con un estándar de oro, estas políticas logran dicho rendimiento aprendiendo a generar salidas adversarias que engañan a otros jueces en evaluaciones estándar.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

SciMDR: Benchmarking and Advancing Scientific Multimodal Document Reasoning

El artículo presenta SciMDR, un marco de trabajo de síntesis y reanclaje que genera un conjunto de datos de 300.000 pares de preguntas y respuestas con cadenas de razonamiento explícitas a partir de 20.000 artículos científicos para entrenar modelos de razonamiento multimodal, logrando mejoras significativas en tareas de comprensión científica compleja.

Ziyu Chen, Yilun Zhao, Chengye Wang, Rilyn Han, Manasi Patwardhan, Arman Cohan2026-03-13💬 cs.CL

The Latent Color Subspace: Emergent Order in High-Dimensional Chaos

Este artículo presenta un método libre de entrenamiento para el modelo FLUX.1 que descubre y explota un subespacio latente de color estructurado (Hue, Saturation, Lightness) en su espacio de representación VAE, permitiendo la predicción y el control preciso de los colores en imágenes generadas mediante manipulación matemática directa.

Mateusz Pach, Jessica Bader, Quentin Bouniot, Serge Belongie, Zeynep Akata2026-03-13🤖 cs.LG

Explainability of Text Processing and Retrieval Methods: A Survey

Este artículo ofrece una amplia revisión de las investigaciones sobre la explicabilidad e interpretabilidad de los métodos de procesamiento del lenguaje natural y recuperación de información, abarcando desde representaciones de palabras y modelos de atención hasta transformadores y sistemas de clasificación de documentos, y concluye sugiriendo direcciones futuras para la investigación en este campo.

Sourav Saha, Debapriyo Majumdar, Mandar Mitra2026-03-12💬 cs.CL

An Updated Assessment of Reinforcement Learning for Macro Placement

Este estudio presenta una evaluación actualizada del enfoque de aprendizaje por refuerzo profundo de Google Brain para la colocación de macros, introduciendo nuevos benchmarks en tecnología sub-10nm, una línea base mejorada de recocido simulado y un análisis exhaustivo que revela desafíos pendientes en la escalabilidad y reproducibilidad de la metodología.

Chung-Kuan Cheng, Andrew B. Kahng, Sayak Kundu, Yucheng Wang, Zhiang Wang2026-03-12🤖 cs.LG

Mindstorms in Natural Language-Based Societies of Mind

Este trabajo presenta las Sociedades de Mente Basadas en Lenguaje Natural (NLSOMs), un marco inspirado en las teorías de Minsky y Schmidhuber donde múltiples agentes de redes neuronales colaboran mediante lenguaje natural para resolver tareas complejas de IA multimodal, al tiempo que explora las implicaciones sociales y económicas de escalar estos sistemas hacia sociedades de miles de millones de agentes.

Mingchen Zhuge, Haozhe Liu, Francesco Faccio, Dylan R. Ashley, Róbert Csordás, Anand Gopalakrishnan, Abdullah Hamdi, Hasan Abed Al Kader Hammoud, Vincent Herrmann, Kazuki Irie, Louis Kirsch, Bing Li, Guohao Li, Shuming Liu, Jinjie Mai, Piotr Pi\k{e}kos, Aditya Ramesh, Imanol Schlag, Weimin Shi, Aleksandar Stanic, Wenyi Wang, Yuhui Wang, Mengmeng Xu, Deng-Ping Fan, Bernard Ghanem, Jürgen Schmidhuber2026-03-12💬 cs.CL

Large Language Models for Travel Behavior Prediction

Este estudio demuestra que los modelos de lenguaje grandes (LLM) pueden predecir el comportamiento de viaje con una eficacia comparable a los modelos tradicionales, ya sea mediante estrategias de prompting sin entrenamiento o utilizando sus representaciones textuales para mejorar el aprendizaje supervisado en escenarios con pocos datos.

Baichuan Mo, Hanyong Xu, Ruoyun Ma, Jung-Hoon Cho, Dingyi Zhuang, Xiaotong Guo, Jinhua Zhao2026-03-12💬 cs.CL