FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

El artículo presenta FinSheet-Bench, un nuevo benchmark de datos financieros sintéticos que revela que, aunque los modelos de lenguaje actuales logran una precisión moderada en tareas simples, sus altos índices de error en hojas de cálculo complejas e industriales impiden su uso autónomo en aplicaciones financieras profesionales, lo que sugiere la necesidad de enfoques arquitectónicos que separen la comprensión del documento del cálculo determinista.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh2026-03-10💻 cs

Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts

El marco de Transición de Jerarquía de Normas (NHT) explica que el aprendizaje tardío de representaciones estructuradas y el fenómeno de "grokking" en redes neuronales surgen de la lenta traversía, impulsada por la regularización, desde soluciones de alto nivel basadas en atajos hacia representaciones de menor nivel, donde el retraso en esta transición crece logarítmicamente con la relación entre las normas de los atajos y las estructuras.

Truong Xuan Khanh, Truong Quynh Hoa2026-03-10🤖 cs.LG

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Este artículo propone una "tercera ambición" para la inteligencia artificial que utiliza los grandes modelos de lenguaje como instrumentos científicos para estudiar el comportamiento humano, la cultura y el razonamiento moral, analizando sus capacidades metodológicas, limitaciones epistémicas y el impacto de las intervenciones de alineación en la investigación de las ciencias sociales.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

Agora: Teaching the Skill of Consensus-Finding with AI Personas Grounded in Human Voice

El artículo presenta "Agora", una plataforma impulsada por IA que utiliza voces humanas auténticas para enseñar habilidades de búsqueda de consenso, demostrando en un estudio preliminar que su interfaz completa mejora las competencias de resolución de problemas y la calidad de los acuerdos en comparación con la visualización de datos agregados.

Suyash Fulay, Prerna Ravi, Emily Kubin, Shrestha Mohanty, Michiel Bakker, Deb Roy2026-03-10💻 cs

Learning Concept Bottleneck Models from Mechanistic Explanations

Este artículo presenta el Mecanismo de Conceptos (M-CBM), un nuevo enfoque para Modelos de Cuello de Botella Conceptual que extrae y nombra conceptos directamente de un modelo de caja negra mediante Autoencoders Dispersos y LLMs multimodales, logrando así un rendimiento superior y explicaciones más concisas que los métodos anteriores al controlar rigurosamente la fuga de información.

Antonio De Santis, Schrasing Tong, Marco Brambilla, Lalana Kagal2026-03-10🤖 cs.LG

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

El AgrI Challenge es una competencia centrada en los datos que introduce el paradigma de Validación Inter-Equipos (CTV) para demostrar que el entrenamiento colaborativo con conjuntos de datos heterogéneos recolectados independientemente mejora significativamente la generalización de los modelos de visión agrícola frente a los cambios de distribución, superando las limitaciones de los enfoques tradicionales basados en un solo origen de datos.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Este trabajo propone el uso de priores generativos con complejidad ajustable mediante *nested dropout* para resolver problemas inversos como la compresión sensorial, demostrando empíricamente que superan a los modelos de complejidad fija al reducir errores de reconstrucción y ofreciendo un análisis teórico sobre la sintonización óptima frente al ruido.

Sean Gunn, Jorio Cocola, Oliver De Candido, Vaggos Chatziafratis, Paul Hand2026-03-10🤖 cs.LG

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

Este estudio revela que en el régimen de modelos pequeños (menos de 20 millones de parámetros), las leyes de escalado siguen una potencia más pronunciada que en modelos grandes, pero con una estructura de errores distinta, saturación temprana y una calibración mejor en los tamaños más reducidos, lo que demuestra que la validación debe realizarse específicamente en el tamaño objetivo para despliegues en dispositivos de borde.

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Este artículo propone un marco de estimación de calidad para traducción automática en escenarios de bajos recursos y dominios específicos (como salud y legal) en idiomas indios, demostrando que la adaptación de capas intermedias de modelos de lenguaje grandes mediante técnicas como ALOPE y LoRMA supera a los enfoques basados únicamente en prompts, especialmente en modelos de pesos abiertos.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artículo de sistematización de conocimientos (SoK) presenta el primer marco unificado para las arquitecturas de Recuperación Aumentada por Generación (RAG) agénticas, formalizándolas como procesos de decisión de Markov, proponiendo una taxonomía modular, identificando riesgos sistémicos críticos y delineando direcciones de investigación para garantizar sistemas autónomos fiables y escalables.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Sparsity and Out-of-Distribution Generalization

Este artículo propone un marco teórico que explica la generalización fuera de distribución mediante la preferencia por hipótesis "esparcidas" (que dependen de pocas características) y demuestra un teorema que garantiza su validez cuando las distribuciones de entrenamiento y prueba se superponen en las características relevantes, extendiendo así los límites clásicos de complejidad de muestra.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

Adaptive Capacity Allocation for Vision Language Action Fine-tuning

El artículo presenta LoRA-SP, un método de ajuste fino adaptativo que asigna dinámicamente la capacidad de los parámetros en modelos de visión-idioma-acción mediante un enrutador basado en descomposición de valores singulares, logrando un rendimiento superior al ajuste completo y al LoRA estándar en tareas de manipulación robótica con menos parámetros entrenables.

Donghoon Kim, Minji Bae, Unghui Nam, Gyeonghun Kim, Suyun Lee, Kyuhong Shim, Byonghyo Shim2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

El artículo presenta UnSCAR, un marco de restauración de imágenes universal y escalable que utiliza una arquitectura de expertos mixtos con múltiples ramas para superar las limitaciones de interferencia y olvido catastrófico en la recuperación de imágenes bajo múltiples degradaciones, permitiendo un aprendizaje estable, una generalización robusta y un control adaptable para el usuario.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs