cs.AI artículos | Gist.Science

Topological Alignment of Shared Vision-Language Embedding Space

El artículo presenta ToMCLIP, un marco que mejora la alineación multilingüe en modelos visión-idioma mediante restricciones topológicas basadas en homología persistente, logrando una mayor coherencia estructural y un mejor rendimiento en tareas de recuperación y clasificación.

Junwon You, Dasol Kang, Jae-Hun Jung2026-03-05🤖 cs.AI

Circuit Insights: Towards Interpretability Beyond Activations

El artículo presenta WeightLens y CircuitLens, dos métodos complementarios que superan las limitaciones de los enfoques basados únicamente en activaciones para la interpretabilidad mecánica al analizar directamente los pesos y las interacciones entre componentes, logrando así un descubrimiento de circuitos más robusto, escalable y eficiente.

Elena Golimblevskaia, Aakriti Jain, Bruno Puri + 3 more2026-03-05🤖 cs.AI

AMiD: Knowledge Distillation for LLMs with $α$ -mixture Assistant Distribution

El artículo presenta AMiD, un marco unificado de destilación de conocimiento para modelos de lenguaje grandes que introduce una distribución de asistente de mezcla- $\alpha$ generalizada y una familia de divergencias optimizada para mejorar el rendimiento y la estabilidad del entrenamiento al superar las limitaciones de los enfoques anteriores.

Donghyeok Shin, Yeongmin Kim, Suhyeon Jo + 2 more2026-03-05🤖 cs.AI

Kaleido: Open-Sourced Multi-Subject Reference Video Generation Model

Kaleido es un modelo de generación de video basado en múltiples imágenes de referencia que supera las limitaciones actuales en consistencia y fidelidad mediante un pipeline de construcción de datos optimizado y una nueva técnica de codificación posicional rotatoria (R-RoPE) para la integración de referencias.

Zhenxing Zhang, Jiayan Teng, Zhuoyi Yang + 6 more2026-03-05🤖 cs.AI

REVISION:Reflective Intent Mining and Online Reasoning Auxiliary for E-commerce Visual Search System Optimization

El marco REVISION optimiza la búsqueda visual en el comercio electrónico de Taobao integrando la minería de intenciones implícitas mediante modelos grandes en una fase offline con la ejecución de decisiones adaptativas en línea, logrando así reducir significativamente la tasa de solicitudes sin clics al resolver la discrepancia entre las intenciones del usuario y la respuesta del sistema.

Yiwen Tang, Qiuyu Zhao, Zenghui Sun + 3 more2026-03-05🤖 cs.AI

Key and Value Weights Are Probably All You Need: On the Necessity of the Query, Key, Value weight Triplet in Self-Attention Transformers

Este artículo demuestra teórica y empíricamente que en los transformadores se pueden eliminar las matrices de pesos de las consultas (Query) o claves (Key) reemplazándolas por matrices identidad, lo que reduce los parámetros de atención en un 25% y simplifica la optimización sin sacrificar el rendimiento.

Marko Karbevski, Antonij Mijoski2026-03-05🤖 cs.AI

MuSaG: A Multimodal German Sarcasm Dataset with Full-Modal Annotations

Este artículo presenta MuSaG, el primer conjunto de datos multimodal en alemán para la detección de sarcasmo, que incluye anotaciones humanas alineadas de texto, audio y video, y revela una brecha significativa entre el rendimiento de los modelos actuales (que dependen principalmente del texto) y el de los humanos (que se basan fuertemente en el audio), motivando así el desarrollo de sistemas más robustos para escenarios realistas.

Aaron Scott, Maike Züfle, Jan Niehues2026-03-05🤖 cs.AI

Agent Data Protocol: Unifying Datasets for Diverse, Effective Fine-tuning of LLM Agents

Este trabajo presenta el Protocolo de Datos de Agentes (ADP), un lenguaje de representación ligero que unifica conjuntos de datos fragmentados en un formato estandarizado, permitiendo el ajuste fino efectivo de modelos de lenguaje para agentes y logrando un rendimiento superior en diversas tareas sin necesidad de optimización específica por dominio.

Yueqi Song, Ketan Ramaneti, Zaid Sheikh + 18 more2026-03-05🤖 cs.AI

Implicit Bias of Per-sample Adam on Separable Data: Departure from the Full-batch Regime

Este trabajo demuestra que el sesgo implícito del algoritmo Adam con actualizaciones por muestra individual en datos separables puede desviarse del régimen de lote completo, convergiendo en algunos casos hacia clasificadores de margen máximo $\ell_2$ en lugar de $\ell_\infty$ , mientras que el algoritmo Signum mantiene una convergencia invariable hacia el margen máximo $\ell_\infty$ independientemente del tamaño del lote.

Beomhan Baek, Minhak Song, Chulhee Yun2026-03-05🤖 cs.AI

SpotIt: Evaluating Text-to-SQL Evaluation with Formal Verification

Este trabajo presenta SpotIt, un nuevo pipeline de evaluación para Text-to-SQL que utiliza verificación de equivalencia formal para identificar diferencias entre consultas generadas y de referencia que los métodos basados en pruebas tradicionales pasan por alto.

Rocky Klopfenstein, Yang He, Andrew Tremante + 3 more2026-03-05🤖 cs.AI

Cognition Envelopes for Bounded Decision Making in Autonomous UAS Operations

Este artículo presenta los "sobres cognitivos", un marco que establece límites de razonamiento para restringir las decisiones erróneas de modelos de IA en sistemas ciberfísicos, validando su eficacia mediante un pipeline de análisis de pistas en misiones de búsqueda y rescate con drones autónomos y abordando los desafíos de ingeniería de software para su implementación.

Pedro Antonio Alarcon Granadeno, Arturo Miguel Bernal Russell, Sofia Nelson + 5 more2026-03-05🤖 cs.AI

CareMedEval dataset: Evaluating Critical Appraisal and Reasoning in the Biomedical Field

El artículo presenta CareMedEval, un nuevo conjunto de datos derivado de exámenes médicos franceses diseñado para evaluar la capacidad de razonamiento crítico y la comprensión de artículos científicos en modelos de lenguaje, revelando que, aunque el razonamiento intermedio mejora el rendimiento, los modelos actuales aún tienen dificultades significativas en tareas especializadas de evaluación biomédica.

Doria Bonzi, Alexandre Guiggi, Frédéric Béchet + 2 more2026-03-05🤖 cs.AI

Improving Multi-View Reconstruction via Texture-Guided Gaussian-Mesh Joint Optimization

Este artículo presenta un marco unificado que optimiza simultáneamente la geometría de mallas y los colores de los vértices mediante una renderización diferenciable guiada por Gaussianas, mejorando la reconstrucción 3D multi-vista para facilitar tareas de edición posteriores como el re-iluminado y la deformación.

Zhejia Cai, Puhua Jiang, Shiwei Mao + 2 more2026-03-05🤖 cs.AI

Can a Small Model Learn to Look Before It Leaps? Dynamic Learning and Proactive Correction for Hallucination Detection

Este artículo presenta LEAP, un marco que supera las limitaciones de las estrategias fijas de detección de alucinaciones mediante el aprendizaje dinámico de estrategias y una corrección proactiva, logrando que modelos pequeños y eficientes superen a los métodos actuales en precisión y adaptabilidad.

Zepeng Bao, Shen Zhou, Qiankun Pi + 5 more2026-03-05🤖 cs.AI

AudAgent: Automated Auditing of Privacy Policy Compliance in AI Agents

AudAgent es una herramienta automatizada que monitorea en tiempo real el cumplimiento de las políticas de privacidad de los agentes de IA mediante la formalización de políticas, la anotación de datos sensibles y la verificación de conformidad, permitiendo detectar violaciones y bloquear operaciones no autorizadas sobre información confidencial.

Ye Zheng, Yimin Chen, Yidan Hu2026-03-05🤖 cs.AI

Multimodal Large Language Models for Low-Resource Languages: A Case Study for Basque

Este artículo presenta el desarrollo de un modelo de lenguaje multimodal robusto para el euskera, demostrando que es posible lograr buenos resultados con una mezcla de datos donde el euskera representa solo el 20% y sin necesidad de utilizar un modelo base previamente adaptado a este idioma.

Lukas Arana, Julen Etxaniz, Ander Salaberria + 1 more2026-03-05🤖 cs.AI

DecNefSimulator: A Modular, Interpretable Framework for Decoded Neurofeedback Simulation Using Generative Models

El artículo presenta DecNefSimulator, un marco de simulación modular e interpretable que utiliza modelos generativos para formalizar el neurofeedback decodificado como un problema de aprendizaje automático, permitiendo a los investigadores analizar sus dinámicas, reproducir fenómenos empíricos y optimizar protocolos de forma virtual antes de su implementación en humanos.

Alexander Olza, Roberto Santana, David Soto2026-03-05🤖 cs.AI

Implicit Bias of the JKO Scheme

Este artículo caracteriza el sesgo implícito del esquema JKO en segundo orden, demostrando que aproxima el flujo de gradiente de Wasserstein de una energía modificada que incluye un término de desaceleración basado en la curvatura métrica de la energía original.

Peter Halmos, Boris Hanin2026-03-05🤖 cs.AI

SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition

El artículo presenta SpatialBench, un marco de evaluación jerárquico y una métrica unificada que revelan que, aunque los modelos de lenguaje multimodal grandes tienen una fuerte percepción espacial, aún carecen de capacidades avanzadas de razonamiento simbólico, inferencia causal y planificación en comparación con la abstracción selectiva humana.

Peiran Xu, Sudong Wang, Yao Zhu + 3 more2026-03-05🤖 cs.AI

Training High-Level Schedulers with Execution-Feedback Reinforcement Learning for Long-Horizon GUI Automation

Este artículo presenta CES, un marco de agentes multi-nivel que entrena modelos de planificación y seguimiento de estado mediante aprendizaje por refuerzo con retroalimentación de ejecución para mejorar significativamente la capacidad de los agentes de GUI en tareas de largo alcance.

Zehao Deng, Tianjie Ju, Zheng Wu + 2 more2026-03-05🤖 cs.AI

← Anterior Siguiente →

cs.AI