cs.AI artículos | Gist.Science

The Density of Cross-Persistence Diagrams and Its Applications

Este trabajo presenta el primer estudio sistemático sobre la densidad de diagramas de persistencia cruzada, estableciendo sus fundamentos teóricos y un marco de aprendizaje automático que, sorprendentemente, utiliza el ruido para mejorar la distinción entre nubes de puntos y superar a las técnicas existentes en tareas de predicción y clasificación.

Alexander Mironenko, Evgeny. Burnaev, Serguei Barannikov2026-03-13🤖 cs.AI

MedPruner: Training-Free Hierarchical Token Pruning for Efficient 3D Medical Image Understanding in Vision-Language Models

MedPruner es un marco de poda de tokens jerárquico y sin entrenamiento diseñado para mejorar la eficiencia computacional de los modelos de visión y lenguaje en imágenes médicas 3D, eliminando redundancias mediante un filtrado inter-rodajas y una selección dinámica de tokens que permite reducir drásticamente el número de tokens visuales sin comprometer el rendimiento.

Shengyuan Liu, Zanting Ye, Yunrui Lin, Chen Hu, Wanting Geng, Xu Han, Bulat Ibragimov, Yefeng Zheng, Yixuan Yuan2026-03-13🤖 cs.AI

VisDoT : Enhancing Visual Reasoning through Human-Like Interpretation Grounding and Decomposition of Thought

El artículo presenta VisDoT, un marco que mejora el razonamiento visual en modelos de lenguaje y visión al imitar la percepción humana mediante la descomposición de tareas en subpreguntas de percepción y lógica, logrando resultados de vanguardia en benchmarks de comprensión de gráficos.

Eunsoo Lee, Jeongwoo Lee, Minki Hong, Jangho Choi, Jihie Kim2026-03-13🤖 cs.AI

Tokenization Allows Multimodal Large Language Models to Understand, Generate and Edit Architectural Floor Plans

El artículo presenta HouseMind, un modelo de lenguaje grande multimodal que utiliza tokens discretos de instancias de habitaciones para unificar la comprensión, generación y edición de planos arquitectónicos, logrando diseños coherentes y controlables mediante instrucciones de texto.

Sizhong Qin, Ramon Elias Weber, Xinzheng Lu2026-03-13🤖 cs.AI

IDRL: An Individual-Aware Multimodal Depression-Related Representation Learning Framework for Depression Diagnosis

El marco IDRL propone un enfoque de aprendizaje multimodal consciente del individuo que mejora el diagnóstico de la depresión mediante la separación de representaciones en espacios relevantes e irrelevantes y una fusión dinámica adaptada a las características específicas de cada persona.

Chongxiao Wang, Junjie Liang, Peng Cao, Jinzhu Yang, Osmar R. Zaiane2026-03-13🤖 cs.AI

Stable Spike: Dual Consistency Optimization via Bitwise AND Operations for Spiking Neural Networks

Este artículo presenta "Stable Spike", un método que optimiza la consistencia dual en redes neuronales de espigas mediante operaciones lógicas AND para desacoplar el esqueleto de espigas estables del ruido temporal, mejorando significativamente la precisión y la generalización en tareas de reconocimiento neuromórfico de ultra-baja latencia.

Yongqi Ding, Kunshan Yang, Linze Li, Yiyang Zhang, Mengmeng Jing, Lin Zuo2026-03-13🤖 cs.AI

From Control to Foresight: Simulation as a New Paradigm for Human-Agent Collaboration

Este artículo propone el paradigma de "simulación en el bucle" para transformar la colaboración humano-agente, pasando de un control reactivo y puntual a una interacción proactiva que permite a los usuarios explorar trayectorias futuras simuladas antes de tomar decisiones.

Gaole He, Brian Y. Lim2026-03-13💬 cs.CL

LLMs can construct powerful representations and streamline sample-efficient supervised learning

El artículo propone un pipeline agencial que utiliza LLMs para generar rúbricas programáticas que estandarizan representaciones de datos heterogéneos, logrando un aprendizaje supervisado eficiente en muestras y superando a modelos tradicionales y fundacionales en diversas tareas clínicas.

Ilker Demirel, Larry Shi, Zeshan Hussain, David Sontag2026-03-13🤖 cs.AI

Entropy-Preserving Reinforcement Learning

Este artículo propone métodos de aprendizaje por refuerzo que preservan la entropía, como REPO y ADAPO, para evitar la pérdida de diversidad en las trayectorias exploradas por los algoritmos de gradiente de política, logrando así modelos más eficaces y adaptables a nuevos entornos.

Aleksei Petrenko, Ben Lipkin, Kevin Chen, Erik Wijmans, Marco Cusumano-Towner, Raja Giryes, Philipp Krähenbühl2026-03-13🤖 cs.LG

Causal Prosody Mediation for Text-to-Speech:Counterfactual Training of Duration, Pitch, and Energy in FastSpeech2

Este artículo propone un marco novedoso de mediación causal de prosodia para la síntesis de voz (TTS) que, al integrar un modelo causal estructural y objetivos de entrenamiento contrafactual en la arquitectura FastSpeech2, logra disociar la emoción del contenido lingüístico para mejorar la expresividad, la manipulación controlada de la prosodia y la consistencia del hablante sin comprometer la inteligibilidad.

Suvendu Sekhar Mohanty2026-03-13🤖 cs.AI

SemBench: A Universal Semantic Framework for LLM Evaluation

El artículo presenta SemBench, un marco universal y eficiente que genera automáticamente benchmarks sintéticos para evaluar la comprensión semántica de los modelos de lenguaje grandes en múltiples idiomas, utilizando únicamente definiciones de diccionario y un codificador de oraciones.

Mikel Zubillaga, Naiara Perez, Oscar Sainz, German Rigau2026-03-13💬 cs.CL

Explicit Logic Channel for Validation and Enhancement of MLLMs on Zero-Shot Tasks

Este artículo propone un Canal de Lógica Explícito que, en paralelo a los modelos de lenguaje multimodal (MLLM) existentes, utiliza razonamiento lógico y evidencia visual para validar, seleccionar y mejorar el rendimiento de estos modelos en tareas de cero disparos sin necesidad de anotaciones de ground-truth, aumentando así su explicabilidad y confiabilidad.

Mei Chee Leong, Ying Gu, Hui Li Tan, Liyuan Li, Nancy Chen2026-03-13🤖 cs.AI

STAIRS-Former: Spatio-Temporal Attention with Interleaved Recursive Structure Transformer for Offline Multi-task Multi-agent Reinforcement Learning

El artículo presenta STAIRS-Former, una arquitectura Transformer con atención espaciotemporal y estructura recursiva intercalada que supera a los métodos anteriores en el aprendizaje por refuerzo multiagente multi-tarea offline al capturar dependencias temporales de largo alcance y generalizar eficazmente a poblaciones de agentes variables.

Jiwon Jeon, Myungsik Cho, Youngchul Sung2026-03-13🤖 cs.AI

OSCBench: Benchmarking Object State Change in Text-to-Video Generation

Este artículo presenta OSCBench, un nuevo benchmark diseñado para evaluar la capacidad de los modelos de generación de video a partir de texto para realizar cambios de estado en objetos, revelando que, a pesar de sus avances, los modelos actuales aún luchan con la consistencia temporal y la precisión en estas transformaciones, especialmente en escenarios novedosos y composicionales.

Xianjing Han, Bin Zhu, Shiqi Hu, Franklin Mingzhe Li, Patrick Carrington, Roger Zimmermann, Jingjing Chen2026-03-13💬 cs.CL

Scaling Laws for Educational AI Agents

Este artículo propone la "Ley de Escalamiento de Agentes", un marco que define el crecimiento de la capacidad de los agentes educativos mediante dimensiones estructuradas como la claridad de roles y la profundidad de habilidades, validado empíricamente por la plataforma EduClaw, la cual demuestra que el rendimiento escala predeciblemente con la riqueza de perfiles estructurados en lugar de depender únicamente del tamaño del modelo.

Mengsong Wu, Hao Hao, Shuzhen Bi, Keqian Li, Wentao Liu, Siyu Song, Hongbo Zhao, Aimin Zhou2026-03-13🤖 cs.AI

Affect Decoding in Phonated and Silent Speech Production from Surface EMG

Este estudio presenta un nuevo conjunto de datos y demuestra que la electromiografía de superficie (sEMG) puede decodificar con fiabilidad la frustración tanto en el habla fonada como en la silenciosa, revelando que las señales afectivas persisten en la actividad motora facial incluso sin vocalización.

Simon Pistrosch, Kleanthis Avramidis, Tiantian Feng, Jihwan Lee, Monica Gonzalez-Machorro, Shrikanth Narayanan, Björn W. Schuller2026-03-13⚡ eess

When OpenClaw Meets Hospital: Toward an Agentic Operating System for Dynamic Clinical Workflows

Este trabajo propone una arquitectura basada en OpenClaw para un Sistema Operativo Agente en hospitales que, mediante un entorno de ejecución restringido, una memoria indexada por páginas y una biblioteca de habilidades médicas curadas, habilita la coordinación segura y auditada de flujos de trabajo clínicos dinámicos.

Wenxian Yang, Hanzheng Qiu, Bangqun Zhang, Chengquan Li, Zhiyong Huang, Xiaobin Feng, Rongshan Yu, Jiahong Dong2026-03-13🤖 cs.AI

Adapting Dijkstra for Buffers and Unlimited Transfers

Este trabajo presenta el algoritmo Transfer Aware Dijkstra (TAD), una modificación del Dijkstra dependiente del tiempo que supera a los métodos basados en RAPTOR al manejar correctamente los tiempos de espera en las paradas y ofrecer una velocidad de cálculo superior sin sacrificar la optimalidad de las rutas.

Denys Katkalo, Andrii Rohovyi, Toby Walsh2026-03-13🤖 cs.AI

Gender Bias in Generative AI-assisted Recruitment Processes

Este estudio evalúa el sesgo de género en el uso de la IA generativa (GPT-5) para la contratación de graduados italianos menores de 35 años y descubre que, aunque no hay diferencias significativas en los puestos sugeridos, el modelo refuerza estereotipos al atribuir rasgos emocionales a las mujeres y analíticos a los hombres.

Martina Ullasci, Marco Rondina, Riccardo Coppola, Antonio Vetrò2026-03-13🤖 cs.AI

CINDI: Conditional Imputation and Noisy Data Integrity with Flows in Power Grid Data

El artículo presenta CINDI, un marco probabilístico no supervisado basado en flujos normalizadores condicionales que unifica la detección de anomalías y la imputación de datos en series temporales multivariantes de redes eléctricas, logrando restaurar la integridad de los datos ruidosos preservando sus propiedades físicas y estadísticas.

David Baumgartner, Helge Langseth, Heri Ramampiaro2026-03-13🤖 cs.AI

← Anterior Siguiente →