cs.AI artículos | Gist.Science

PnLCalib: Sports Field Registration via Points and Lines Optimization

El artículo presenta PnLCalib, un método de calibración de cámaras para videos deportivos que supera las limitaciones de los enfoques tradicionales mediante una optimización basada en un modelo 3D de campo de fútbol y líneas detectadas, logrando una mayor precisión y robustez en escenarios de transmisión con múltiples vistas y oclusiones.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

El artículo presenta CoHet, un algoritmo que utiliza motivación intrínseca basada en Redes Neuronales de Grafos para mejorar la cooperación descentralizada entre agentes heterogéneos en entornos de aprendizaje por refuerzo multiagente con observabilidad parcial y recompensas escasas.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Sparse Variational Student-t Processes for Heavy-tailed Modeling

El artículo presenta los Procesos de Student-t Variacionales Dispersos (SVTP), un marco novedoso que combina la robustez ante valores atípicos de los procesos Student-t con la escalabilidad de los métodos de puntos inducidos, logrando una convergencia más rápida y menores errores de predicción en comparación con los procesos gaussianos dispersos en conjuntos de datos grandes y con colas pesadas.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Este artículo presenta un marco unificado que modela la cuantización y la dispersión como ruido aditivo y utiliza una transformada de descuantización por regresión de crestas para establecer un camino de gradiente explícito, permitiendo el entrenamiento robusto y estable de redes neuronales a precisiones arbitrarias y niveles de dispersión, incluidos modelos A1W1 y sub-1-bit.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

El artículo presenta DRUPI, un método de condensación de datasets que mejora el rendimiento al sintetizar información privilegiada (como etiquetas de características o atención) junto con los datos reducidos, logrando ganancias significativas en diversas tareas de visión por computadora.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

On the Impact of the Utility in Semivalue-based Data Valuation

Este artículo introduce la "firma espacial" de un conjunto de datos como una herramienta geométrica para evaluar y garantizar la robustez de la valoración de datos basada en semivalores frente a cambios en la función de utilidad, ofreciendo una métrica práctica para que los profesionales comprendan cómo estas variaciones afectan los resultados.

Mélissa Tamine, Benjamin Heymann, Maxime Vono, Patrick LoiseauWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

El documento presenta MKE-Coder, un marco innovador que mejora la codificación automática de la CIE en registros médicos electrónicos chinos mediante la integración de conocimiento multi-eje basado en enfermedades y la verificación rigurosa de la evidencia clínica, logrando así una mayor precisión y velocidad en la práctica real.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

El artículo presenta LLM-Advisor, un marco basado en modelos de lenguaje que actúa como asesor de post-procesamiento para refinar rutas de planificación de costos en terrenos diversos, logrando mejoras significativas en la eficiencia sin modificar los planificadores subyacentes y superando las limitaciones de razonamiento espacial de los LLMs en modo cero disparos.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

HyConEx: Hypernetwork classifier with counterfactual explanations for tabular data

El artículo presenta HyConEx, un clasificador basado en hiperredes diseñado para datos tabulares que, de forma única, genera simultáneamente predicciones de clase y explicaciones contrafactuales locales en una sola red neuronal.

Patryk Marszałek, Kamil Ksi\k{a}\.zek, Oleksii Furman, Ulvi Movsum-zada, Przemysław Spurek, Marek SmiejaWed, 11 Ma🤖 cs.AI

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

El artículo presenta GateLens, un agente de IA basado en modelos de lenguaje que utiliza el álgebra relacional como representación intermedia formal para traducir consultas en lenguaje natural a código Python optimizado, logrando así un análisis de datos tabulares más rápido, transparente y preciso en el contexto de la industria automotriz en comparación con los enfoques tradicionales.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Este artículo propone un marco de evaluación de clasificación binaria basado en la teoría de la decisión y el uso de reglas de puntuación propias como la puntuación Brier, respaldado por una herramienta práctica en Python y una variante técnica mejorada, para superar la dependencia actual de métricas de umbral fijo en la literatura de aprendizaje automático.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. WilsonWed, 11 Ma🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

El artículo presenta MCP Bridge, un proxy RESTful ligero y agnóstico a los modelos que habilita la conexión segura y multiplataforma con servidores MCP en entornos restringidos, complementado con la optimización de modelos Qwen mediante técnicas de aprendizaje por refuerzo para lograr un rendimiento superior en la ejecución de herramientas.

Arash Ahmadi, Sarah Sharif, Yaser M. BanadWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

El artículo presenta SGPO, un marco de optimización de políticas que mitiga la limitación de GRPO de no aprender de grupos de respuestas incorrectas al introducir diversidad mediante un modelo juez paso a paso, logrando así mejorar el rendimiento de modelos de razonamiento al permitirles aprender de sus errores sin requerir soluciones correctas.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Este trabajo presenta MathQ-Verify, una pipeline de cinco etapas que valida rigurosamente la corrección y completitud de problemas matemáticos para filtrar preguntas mal planteadas, mejorando significativamente la calidad de los conjuntos de datos y el rendimiento de los modelos de lenguaje grandes.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

El artículo presenta UltraEdit, un método de edición de modelos de lenguaje sin entrenamiento, sujeto ni memoria que logra actualizaciones rápidas y escalables con bajo consumo de recursos, superando a los enfoques anteriores y validándose mediante un nuevo conjunto de datos masivo llamado UltraEditBench.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

El artículo presenta Saturn, un marco de aprendizaje por refuerzo basado en problemas de satisfacibilidad booleana (SAT) que supera las limitaciones de escalabilidad, verificabilidad y control de dificultad de las tareas existentes, logrando mejoras significativas en las capacidades de razonamiento de modelos de lenguaje grandes tanto en problemas SAT como en tareas matemáticas y de programación.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong DongWed, 11 Ma🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

El artículo presenta Daily-Omni, un nuevo benchmark de preguntas y respuestas audio-visuales diseñado para evaluar la capacidad de razonamiento temporal sincronizado entre modalidades en modelos de lenguaje multimodales, revelando que la mayoría de los modelos actuales aún luchan con la alineación temporal cruzada.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang JiangWed, 11 Ma🤖 cs.AI

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

El artículo presenta TSRating, un marco unificado que aprovecha el conocimiento de los modelos de lenguaje grandes (LLM) y un esquema de meta-aprendizaje para evaluar de manera eficiente y adaptable la calidad de datos de series temporales procedentes de dominios diversos.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong NgWed, 11 Ma🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Este trabajo propone CORA, un método de asignación de ventajas en el aprendizaje por refuerzo multiagente cooperativo que utiliza la teoría de juegos cooperativos y el concepto de "núcleo" para asignar créditos basados en las contribuciones de las coaliciones, mejorando así la optimización de las políticas y el comportamiento coordinado.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

El artículo presenta ChannelTokenFormer, un marco unificado basado en Transformers que aborda simultáneamente la dependencia entre canales, la asincronía en la muestreo y los valores faltantes para lograr un pronóstico robusto y preciso de series temporales multivariadas en escenarios del mundo real.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI