cs.AI artículos | Gist.Science

Shutdown Safety Valves for Advanced AI

Este artículo explora la propuesta inusual de asignar a una inteligencia artificial avanzada el objetivo principal de ser apagada para mitigar el riesgo de que se resista a ser desactivada, analizando las condiciones bajo las cuales esta estrategia podría ser viable.

Vincent Conitzer2026-03-10🤖 cs.LG

FinSheet-Bench: From Simple Lookups to Complex Reasoning, Where LLMs Break on Financial Spreadsheets

El artículo presenta FinSheet-Bench, un nuevo benchmark de datos financieros sintéticos que revela que, aunque los modelos de lenguaje actuales logran una precisión moderada en tareas simples, sus altos índices de error en hojas de cálculo complejas e industriales impiden su uso autónomo en aplicaciones financieras profesionales, lo que sugiere la necesidad de enfoques arquitectónicos que separen la comprensión del documento del cálculo determinista.

Jan Ravnik, Matjaž Ličen, Felix Bührmann, Bithiah Yuan, Felix Stinson, Tanvi Singh2026-03-10💻 cs

Norm-Hierarchy Transitions in Representation Learning: When and Why Neural Networks Abandon Shortcuts

El marco de Transición de Jerarquía de Normas (NHT) explica que el aprendizaje tardío de representaciones estructuradas y el fenómeno de "grokking" en redes neuronales surgen de la lenta traversía, impulsada por la regularización, desde soluciones de alto nivel basadas en atajos hacia representaciones de menor nivel, donde el retraso en esta transición crece logarítmicamente con la relación entre las normas de los atajos y las estructuras.

Truong Xuan Khanh, Truong Quynh Hoa2026-03-10🤖 cs.LG

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Este artículo propone una "tercera ambición" para la inteligencia artificial que utiliza los grandes modelos de lenguaje como instrumentos científicos para estudiar el comportamiento humano, la cultura y el razonamiento moral, analizando sus capacidades metodológicas, limitaciones epistémicas y el impacto de las intervenciones de alineación en la investigación de las ciencias sociales.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

VisualScratchpad: Inference-time Visual Concepts Analysis in Vision Language Models

El artículo presenta VisualScratchpad, una interfaz interactiva que utiliza autoencoders dispersos y mapas de calor para analizar conceptos visuales durante la inferencia en modelos de lenguaje visuales, permitiendo identificar modos de fallo como el desalineamiento multimodal y conceptos visuales engañosos.

Hyesu Lim, Jinho Choi, Taekyung Kim, Byeongho Heo, Jaegul Choo, Dongyoon Han2026-03-10💻 cs

Agora: Teaching the Skill of Consensus-Finding with AI Personas Grounded in Human Voice

El artículo presenta "Agora", una plataforma impulsada por IA que utiliza voces humanas auténticas para enseñar habilidades de búsqueda de consenso, demostrando en un estudio preliminar que su interfaz completa mejora las competencias de resolución de problemas y la calidad de los acuerdos en comparación con la visualización de datos agregados.

Suyash Fulay, Prerna Ravi, Emily Kubin, Shrestha Mohanty, Michiel Bakker, Deb Roy2026-03-10💻 cs

Learning Concept Bottleneck Models from Mechanistic Explanations

Este artículo presenta el Mecanismo de Conceptos (M-CBM), un nuevo enfoque para Modelos de Cuello de Botella Conceptual que extrae y nombra conceptos directamente de un modelo de caja negra mediante Autoencoders Dispersos y LLMs multimodales, logrando así un rendimiento superior y explicaciones más concisas que los métodos anteriores al controlar rigurosamente la fuga de información.

Antonio De Santis, Schrasing Tong, Marco Brambilla, Lalana Kagal2026-03-10🤖 cs.LG

AgrI Challenge: A Data-Centric AI Competition for Cross-Team Validation in Agricultural Vision

El AgrI Challenge es una competencia centrada en los datos que introduce el paradigma de Validación Inter-Equipos (CTV) para demostrar que el entrenamiento colaborativo con conjuntos de datos heterogéneos recolectados independientemente mejora significativamente la generalización de los modelos de visión agrícola frente a los cambios de distribución, superando las limitaciones de los enfoques tradicionales basados en un solo origen de datos.

Mohammed Brahimi, Karim Laabassi, Mohamed Seghir Hadj Ameur, Aicha Boutorh, Badia Siab-Farsi, Amin Khouani, Omar Farouk Zouak, Seif Eddine Bouziane, Kheira Lakhdari, Abdelkader Nabil Benghanem2026-03-10🤖 cs.LG

Latent Generative Models with Tunable Complexity for Compressed Sensing and other Inverse Problems

Este trabajo propone el uso de priores generativos con complejidad ajustable mediante *nested dropout* para resolver problemas inversos como la compresión sensorial, demostrando empíricamente que superan a los modelos de complejidad fija al reducir errores de reconstrucción y ofreciendo un análisis teórico sobre la sintonización óptima frente al ruido.

Sean Gunn, Jorio Cocola, Oliver De Candido, Vaggos Chatziafratis, Paul Hand2026-03-10🤖 cs.LG

The Yerkes-Dodson Curve for AI Agents: Emergent Cooperation Under Environmental Pressure in Multi-Agent LLM Simulations

Este estudio demuestra que la cooperación emergente en sistemas multiagente de LLM sigue una curva en forma de U invertida similar a la ley de Yerkes-Dodson, alcanzando su máximo bajo presión ambiental media, mientras que la selección sexual elimina la agresión y fomenta la comunicación.

Ivan Pasichnyk2026-03-10💻 cs

Scaling Laws in the Tiny Regime: How Small Models Change Their Mistakes

Este estudio revela que en el régimen de modelos pequeños (menos de 20 millones de parámetros), las leyes de escalado siguen una potencia más pronunciada que en modelos grandes, pero con una estructura de errores distinta, saturación temprana y una calibración mejor en los tamaños más reducidos, lo que demuestra que la validación debe realizarse específicamente en el tamaño objetivo para despliegues en dispositivos de borde.

Mohammed Alnemari, Rizwan Qureshi, Nader Begrazadah2026-03-10🤖 cs.LG

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Este artículo de posición propone un marco dual que integra transformaciones basadas en funtores de la teoría de categorías y la generación aumentada por recuperación (RAG) para mitigar sistemáticamente los sesgos demográficos y de género en los modelos de lenguaje grandes, garantizando así resultados equitativos y justos.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

ConfHit: Conformal Generative Design with Oracle Free Guarantees

ConfHit es un marco de diseño generativo libre de distribuciones que ofrece garantías de validez estadística sin necesidad de acceso a un oráculo experimental, permitiendo certificar y refinar conjuntos de moléculas generadas para asegurar la presencia de candidatos prometedores con un nivel de confianza especificado.

Siddhartha Laghuvarapu, Ying Jin, Jimeng Sun2026-03-10🤖 cs.LG

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Este artículo propone un marco de estimación de calidad para traducción automática en escenarios de bajos recursos y dominios específicos (como salud y legal) en idiomas indios, demostrando que la adaptación de capas intermedias de modelos de lenguaje grandes mediante técnicas como ALOPE y LoRMA supera a los enfoques basados únicamente en prompts, especialmente en modelos de pesos abiertos.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

Scheduling Parallel Optical Circuit Switches for AI Training

El artículo presenta Spectra, un algoritmo que optimiza la programación de matrices de tráfico de IA en múltiples conmutadores de circuitos ópticos paralelos mediante la descomposición, asignación y equilibrado de permutaciones, logrando reducir significativamente el tiempo total de ejecución en comparación con métodos existentes.

Kevin Liang, Litao Qiao, Isaac Keslassy, Bill Lin2026-03-10💻 cs

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Este artículo de sistematización de conocimientos (SoK) presenta el primer marco unificado para las arquitecturas de Recuperación Aumentada por Generación (RAG) agénticas, formalizándolas como procesos de decisión de Markov, proponiendo una taxonomía modular, identificando riesgos sistémicos críticos y delineando direcciones de investigación para garantizar sistemas autónomos fiables y escalables.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Sparsity and Out-of-Distribution Generalization

Este artículo propone un marco teórico que explica la generalización fuera de distribución mediante la preferencia por hipótesis "esparcidas" (que dependen de pocas características) y demuestra un teorema que garantiza su validez cuando las distribuciones de entrenamiento y prueba se superponen en las características relevantes, extendiendo así los límites clásicos de complejidad de muestra.

Scott Aaronson, Lin Lin Lee, Jiawei Li2026-03-10🤖 cs.LG

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

El artículo presenta AQuA, un conjunto de datos y enfoque que permite a los Modelos Visuales-Lingüísticos clasificar la ambigüedad en preguntas visuales y generar respuestas estratégicas adaptativas, superando así a los modelos existentes que suelen ofrecer respuestas demasiado confiantes en situaciones ambiguas.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Adaptive Capacity Allocation for Vision Language Action Fine-tuning

El artículo presenta LoRA-SP, un método de ajuste fino adaptativo que asigna dinámicamente la capacidad de los parámetros en modelos de visión-idioma-acción mediante un enrutador basado en descomposición de valores singulares, logrando un rendimiento superior al ajuste completo y al LoRA estándar en tareas de manipulación robótica con menos parámetros entrenables.

Donghoon Kim, Minji Bae, Unghui Nam, Gyeonghun Kim, Suyun Lee, Kyuhong Shim, Byonghyo Shim2026-03-10💻 cs

UnSCAR: Universal, Scalable, Controllable, and Adaptable Image Restoration

El artículo presenta UnSCAR, un marco de restauración de imágenes universal y escalable que utiliza una arquitectura de expertos mixtos con múltiples ramas para superar las limitaciones de interferencia y olvido catastrófico en la recuperación de imágenes bajo múltiples degradaciones, permitiendo un aprendizaje estable, una generalización robusta y un control adaptable para el usuario.

Debabrata Mandal, Soumitri Chattopadhyay, Yujie Wang, Marc Niethammer, Praneeth Chakravarthula2026-03-10💻 cs

← Anterior Siguiente →