BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

El artículo "BiasBusters" presenta un nuevo benchmark para evaluar y mitigar el sesgo en la selección de herramientas por parte de modelos de lenguaje grandes, demostrando que factores como la alineación semántica, el orden de presentación y la exposición previa en el entrenamiento influyen significativamente en la elección injusta de proveedores, y propone una estrategia ligera de filtrado y muestreo uniforme para reducir dicho sesgo.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

MonitorVLM es un marco de visión y lenguaje innovador que utiliza un conjunto de datos específico del sector minero, un filtro de cláusulas y un amplificador de comportamiento para detectar automáticamente violaciones de seguridad en videos de vigilancia, superando significativamente a los modelos de referencia y mejorando la seguridad laboral en operaciones mineras.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Este artículo presenta la primera evaluación sistemática del aprendizaje auto-supervisado para la estadificación del sueño con EEG portátil, demostrando que este enfoque supera a los modelos supervisados y a las redes neuronales de propósito general al lograr una precisión clínica con solo un 5% al 10% de datos etiquetados.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

El artículo presenta HyWA, un enfoque de detección de actividad vocal personalizada que utiliza una hiperred para generar pesos adaptados a un hablante específico en capas seleccionadas de un modelo estándar, logrando mejoras consistentes en el rendimiento y facilitando el despliegue al reutilizar la misma arquitectura.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

El artículo presenta MVCustom, un marco de difusión novedoso que resuelve el desafío de la personalización multivista al lograr simultáneamente consistencia geométrica y fidelidad en la identidad del sujeto mediante una representación de campo de características, renderizado consciente de la profundidad y completado de latentes coherentes.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Este artículo presenta un marco teórico basado en la "ansatz de estructura de autovalores Hermite" (HEA) que permite predecir las curvas de aprendizaje del regresión de kernel en conjuntos de datos reales utilizando únicamente estadísticas de datos brutos, demostrando que la estructura de datos anisotrópica se comporta de manera suficientemente gaussiana para aplicar aproximaciones analíticas y extendiendo estos hallazgos al aprendizaje de características en redes neuronales.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

Expert Evaluation of LLM World Models: A High-TcT_c Superconductivity Case Study

Este estudio evalúa la capacidad de seis sistemas de modelos de lenguaje para comprender la literatura científica sobre superconductividad de alta temperatura, demostrando que aquellos que utilizan recuperación aumentada generativa (RAG) sobre literatura curada superan a los modelos cerrados existentes en precisión, exhaustividad y soporte de evidencia.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

El artículo presenta DeepEyesV2, un modelo multimodal agente que, mediante un pipeline de entrenamiento en dos etapas (inicio en frío y aprendizaje por refuerzo) y un nuevo benchmark llamado RealX-Bench, demuestra una capacidad superior para integrar la percepción, la búsqueda y el razonamiento mediante la invocación adaptativa y selectiva de herramientas externas.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

El artículo presenta "What We Don't C", un enfoque novedoso basado en el ajuste de flujo latente que desentrelaza subespacios latentes al eliminar explícitamente la información de las variables condicionales, generando representaciones residuales significativas que facilitan el descubrimiento de factores de variación no capturados.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

El artículo presenta D-GAP, un método de aumento de datos agnóstico al conjunto de datos y guiado por gradientes que mejora la robustez fuera de dominio al aplicar perturbaciones adaptativas tanto en el espectro de amplitud (espacio de frecuencia) como en los valores de píxel para reducir el sesgo de aprendizaje y restaurar detalles espaciales.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

El artículo presenta REMSA, un agente consciente de restricciones que, aprovechando la primera base de datos estructurada de modelos fundamentales de teledetección (RS-FMD), automatiza la selección de modelos óptimos para tareas específicas mediante consultas en lenguaje natural y una evaluación rigurosa basada en expertos.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Este artículo presenta un marco de olvido selectivo jerárquico de doble estrategia que, mediante actualizaciones de gradiente geométricamente restringidas e intervenciones a nivel de tokens conscientes de conceptos, elimina eficazmente conocimientos médicos específicos de grandes modelos de lenguaje preservando sus competencias fundamentales y garantizando la privacidad con una modificación mínima de parámetros.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

El artículo presenta CostNav, un nuevo benchmark que evalúa la viabilidad económica real de los agentes de IA física para la navegación mediante el análisis de costos y beneficios utilizando datos regulatorios y financieros de la industria, revelando que los métodos actuales, aunque exitosos en tareas simplificadas, no son económicamente viables en escenarios del mundo real.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

El artículo presenta IndiMathBench, un nuevo conjunto de pruebas de 312 problemas matemáticos de las Olimpiadas de Matemáticas de la India formalizados en Lean 4 mediante un pipeline híbrido de IA y verificación humana, diseñado para evaluar y destacar las limitaciones actuales de los modelos de lenguaje en la demostración automática de teoremas.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

El artículo presenta C3, un método de cuantificación de incertidumbre que entrena modelos de video generativos para estimar y visualizar de forma calibrada la confianza a nivel de subparche, permitiendo detectar y localizar alucinaciones en tareas de generación de video controlado y aprendizaje robótico.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

El artículo presenta Trio, un marco de generación molecular que integra modelado de lenguaje, aprendizaje por refuerzo y búsqueda en árbol Monte Carlo para lograr un diseño de ligandos dirigido, interpretable y en bucle cerrado que supera a los métodos actuales en afinidad de unión, propiedades farmacológicas y diversidad química.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI