cs.AI artículos | Gist.Science

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Este artículo presenta K-CAST, un método de direccionamiento de activaciones basado en kNN que mitiga dinámicamente los sesgos de contenido en el razonamiento de los modelos de lenguaje grandes, mejorando significativamente su precisión lógica sin afectar sus capacidades lingüísticas.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

El artículo presenta AdAEM, un algoritmo de evaluación autoextensible que genera y adapta dinámicamente preguntas de prueba para medir con mayor precisión y diferenciación las diferencias de valores entre los grandes modelos de lenguaje, superando las limitaciones de las métricas estáticas actuales.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

El artículo presenta ESGenius, el primer benchmark integral que evalúa y mejora el conocimiento de los modelos de lenguaje grande sobre sostenibilidad y ESG mediante un corpus de fuentes autorizadas y un conjunto de preguntas validadas, demostrando que la recuperación aumentada (RAG) es esencial para superar las limitaciones de conocimiento en este dominio especializado.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

El artículo presenta KramaBench, un nuevo benchmark que evalúa la capacidad de los sistemas de IA para orquestar pipelines completos de "datos a conocimientos" sobre lagos de datos reales, revelando que, aunque los sistemas actuales pueden generar borradores plausibles, su precisión para ejecutar pipelines integrales y funcionales sigue siendo limitada.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

El artículo presenta VisioMath, un nuevo benchmark de 1.800 problemas matemáticos de nivel K-12 que evalúa la capacidad de los Modelos Multimodales Grandes para realizar razonamiento comparativo basado en diagramas visualmente similares, revelando que su principal limitación es la desalineación entre imagen y texto y demostrando que estrategias de alineación pueden mejorar significativamente su rendimiento.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Este artículo presenta un nuevo marco de evaluación multidimensional para la competencia moral de los modelos de lenguaje, revelando que, aunque estos superan a los humanos en escenarios éticos predefinidos, su capacidad para discernir la relevancia moral en situaciones con información ruidosa es significativamente inferior, lo que sugiere que las evaluaciones actuales sobreestiman sus habilidades de razonamiento moral.

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

ContextBench: Modifying Contexts for Targeted Latent Activation

El artículo presenta ContextBench, un marco de evaluación para la modificación de contextos que busca generar entradas lingüísticamente fluidas que activen características latentes específicas en modelos de lenguaje, demostrando que variantes mejoradas de la optimización de prompts evolutiva logran el mejor equilibrio entre eficacia de activación y fluidez.

Robert Graham, Edward Stevinson, Leo Richter, Alexander Chia, Joseph Miller, Joseph Isaac Bloom2026-03-09🤖 cs.AI

Sysformer: Safeguarding Frozen Large Language Models with Adaptive System Prompts

El paper presenta Sysformer, un enfoque novedoso que utiliza un modelo transformador para adaptar dinámicamente los prompts del sistema en LLMs congelados, logrando mejorar significativamente su robustez ante ataques de jailbreaking y su cumplimiento de estándares de seguridad sin necesidad de costoso ajuste de parámetros.

Kartik Sharma, Yiqiao Jin, Vineeth Rakesh, Yingtong Dou, Menghai Pan, Mahashweta Das, Srijan Kumar2026-03-09🤖 cs.AI

Iterative Quantum Feature Maps

El artículo presenta los Mapas de Características Cuánticas Iterativos (IQFMs), un marco híbrido cuántico-clásico que construye arquitecturas profundas conectando mapas de características cuánticos superficiales mediante pesos de aumento clásicos y aprendizaje contrastivo, logrando así un rendimiento superior en hardware ruidoso sin necesidad de optimizar parámetros cuánticos variacionales.

Nasa Matsumoto, Quoc Hoan Tran, Koki Chinzei, Yasuhiro Endo, Hirotaka Oshima2026-03-09⚛️ quant-ph

SPARC: Concept-Aligned Sparse Autoencoders for Cross-Model and Cross-Modal Interpretability

El artículo presenta SPARC, un marco de autoencoders dispersos alineados que establece un espacio latente unificado compartido entre diversas arquitecturas y modalidades, permitiendo la interpretación cruzada de conceptos y aplicaciones prácticas como la localización espacial guiada por texto.

Ali Nasiri-Sarvi, Hassan Rivaz, Mahdi S. Hosseini2026-03-09🤖 cs.AI

Bridging MOOCs, Smart Teaching, and AI: A Decade of Evolution Toward a Unified Pedagogy

Este artículo propone un marco pedagógico unificado que integra MOOCs, enseñanza inteligente e IA en tres dimensiones complementarias —exposición estructurada, asignación adaptativa y amplificación de la eficiencia— para superar la adopción aislada de estas tecnologías y optimizar el dominio del conocimiento en la educación superior.

Bo Yuan, Jiazi Hu2026-03-09🤖 cs.AI

ExDD: Explicit Dual Distribution Learning for Surface Defect Detection via Diffusion Synthesis

El artículo presenta ExDD, un marco innovador para la detección de defectos industriales que supera las limitaciones de los enfoques de una sola clase mediante el modelado explícito de distribuciones duales de características, el uso de modelos de difusión para sintetizar defectos y una puntuación de ratio que fusiona métricas de distancia para lograr un rendimiento superior en el conjunto de datos KSDD2.

Muhammad Aqeel, Federico Leonardi, Francesco Setti2026-03-09🤖 cs.AI

A Multi-Agent System Enables Versatile Information Extraction from the Chemical Literature

Este trabajo presenta un sistema multiagente basado en modelos de lenguaje grandes multimodales que supera significativamente al estado del arte en la extracción automatizada y robusta de información química de la literatura, logrando un puntaje F1 del 76,27% en gráficos de reacciones complejos y demostrando una amplia versatilidad en diversas tareas de extracción de datos.

Yufan Chen, Ching Ting Leung, Bowen Yu, Jianwei Sun, Yong Huang, Linyan Li, Hao Chen, Hanyu Gao2026-03-09🤖 cs.AI

MAP: Mitigating Hallucinations in Large Vision-Language Models with Map-Level Attention Processing

Este trabajo presenta MAP, un método de decodificación sin entrenamiento que mitiga las alucinaciones en los Modelos Grandes de Visión y Lenguaje interpretando sus estados ocultos como un mapa semántico 2D y refinando las representaciones mediante operaciones de atención a nivel de mapa para mejorar la consistencia factual.

Chenxi Li, Yichen Guo, Benfang Qian, Jinhao You, Kai Tang, Yaosong Du, Zonghao Zhang, Xiande Huang2026-03-09🤖 cs.AI

VLMQ: Token Saliency-Driven Post-Training Quantization for Vision-language Models

El artículo presenta VLMQ, un marco de cuantización post-entrenamiento diseñado específicamente para modelos de visión y lenguaje que aborda el exceso de tokens visuales y la brecha modal mediante la priorización selectiva de tokens salientes, logrando un rendimiento superior en configuraciones de bajo bit.

Yufei Xue, Yushi Huang, Jiawei Shao, Lunjie Zhu, Chi Zhang, Xuelong Li, Jun Zhang2026-03-09🤖 cs.AI

SGDFuse: SAM-Guided Diffusion Model for High-Fidelity Infrared and Visible Image Fusion

El artículo presenta SGDFuse, un modelo de difusión condicional guiado por Segment Anything Model (SAM) que utiliza máscaras semánticas como priores explícitos para lograr una fusión de imágenes infrarrojas y visibles de alta fidelidad, preservando objetivos clave y mejorando el rendimiento en tareas visuales posteriores.

Xiaoyang Zhang, jinjiang Li, Guodong Fan, Yakun Ju, Linwei Fan, Jun Liu, Alex C. Kot2026-03-09🤖 cs.AI

Handling Infinite Domain Parameters in Planning Through Best-First Search with Delayed Partial Expansions

Este artículo propone un algoritmo de búsqueda heurística de mejor primero con expansiones parciales diferidas que trata explícitamente los parámetros de control de dominio infinito como puntos de decisión, demostrando ser una alternativa competitiva y completa en el límite frente a los enfoques existentes.

Ángel Aso-Mollar, Diego Aineto, Enrico Scala + 1 more2026-03-09⚡ eess

Reasoned Safety Alignment: Ensuring Jailbreak Defense via Answer-Then-Check

Este artículo presenta un nuevo enfoque de alineación de seguridad llamado "Answer-Then-Check", respaldado por el conjunto de datos ReSA, que entrena a los modelos de lenguaje para razonar y evaluar críticamente la seguridad de sus respuestas antes de generarlas, logrando así una mayor robustez ante ataques de jailbreak sin comprometer sus capacidades generales ni aumentar las rechazos innecesarios.

Chentao Cao, Xiaojun Xu, Bo Han, Hang Li2026-03-09🤖 cs.AI

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Este artículo presenta una meta-evaluación exhaustiva de las métricas de latencia para la traducción simultánea de voz a texto, identificando sesgos estructurales existentes e introduciendo las nuevas métricas YAAL y LongYAAL junto con la herramienta SoftSegmenter para lograr evaluaciones más precisas en formatos cortos y largos.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

LikePhys: Evaluating Intuitive Physics Understanding in Video Diffusion Models via Likelihood Preference

El artículo presenta LikePhys, un método libre de entrenamiento que evalúa la comprensión de la física intuitiva en modelos de difusión de video mediante una métrica de preferencia basada en la verosimilitud, demostrando una fuerte alineación con las preferencias humanas y revelando que, aunque los modelos actuales tienen dificultades con dinámicas complejas, su comprensión física mejora a medida que aumenta la capacidad del modelo y la configuración de inferencia.

Jianhao Yuan, Fabio Pizzati, Francesco Pinto, Lars Kunze, Ivan Laptev, Paul Newman, Philip Torr, Daniele De Martini2026-03-09🤖 cs.AI

← Anterior Siguiente →