cs.AI articoli | Gist.Science

PnLCalib: Sports Field Registration via Points and Lines Optimization

Il paper propone PnLCalib, un metodo di calibrazione della camera basato sull'ottimizzazione di punti e linee che supera le limitazioni dei metodi tradizionali per la registrazione dei campi sportivi in video broadcast, dimostrando maggiore robustezza e precisione su dataset reali come SoccerNet-Calibration e WorldCup 2014.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

Enhancing Heterogeneous Multi-Agent Cooperation in Decentralized MARL via GNN-driven Intrinsic Rewards

Il paper propone CoHet, un algoritmo di apprendimento per rinforzo multi-agente decentralizzato che utilizza una ricompensa intrinseca basata su Reti Neurali su Grafi per migliorare la cooperazione tra agenti eterogenei in ambienti con osservabilità parziale e segnali di reward radi, ottenendo prestazioni superiori rispetto allo stato dell'arte.

Jahir Sadik Monon, Deeparghya Dutta Barua, Md. Mosaddek KhanWed, 11 Ma🤖 cs.AI

Sparse Variational Student-t Processes for Heavy-tailed Modeling

Il paper presenta gli Sparse Variational Student-t Processes (SVTP), un nuovo framework che estende i processi a punti induttori sparsi ai processi Student-t, offrendo un metodo scalabile e robusto per la modellazione di dati con code pesanti e outlier che supera le prestazioni dei processi Gaussiani sparsi.

Jian Xu, Delu Zeng, John PaisleyWed, 11 Ma🤖 cs.AI

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Questo paper introduce un quadro unificato che modella la quantizzazione e la sparsificazione come rumore additivo, proponendo una trasformata di dequantizzazione basata sulla regressione ridge per fornire un percorso di gradiente ben definito che permette l'addestramento stabile di reti neurali ad alta efficienza con precisione arbitraria e livelli di sparsità estremi, superando i limiti degli approcci esistenti come lo Straight-Through Estimator.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Il paper introduce DRUPI, un metodo di condensazione del dataset che migliora le prestazioni dei modelli sintetizzando informazioni privilegiate (come etichette di feature o attenzione) insieme ai dati ridotti, ottenendo significativi guadagni su diversi benchmark.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

On the Impact of the Utility in Semivalue-based Data Valuation

Il paper introduce il concetto di "firma spaziale" per mappare i punti dati in uno spazio geometrico che semplifica l'analisi della robustezza delle valutazioni basate sui semivalori rispetto alle variazioni della funzione di utilità, proponendo una metrica pratica per quantificare tale stabilità.

Mélissa Tamine, Benjamin Heymann, Maxime Vono, Patrick LoiseauWed, 11 Ma🤖 cs.AI

MKE-Coder: Multi-Axial Knowledge with Evidence Verification in ICD Coding for Chinese EMRs

Il paper presenta MKE-Coder, un nuovo framework che migliora la codifica automatica ICD nelle cartelle cliniche elettroniche cinesi integrando conoscenze multi-assiali con la verifica delle evidenze cliniche, superando le sfide linguistiche e strutturali specifiche di questo contesto.

Xinxin You, Xien Liu, Xue Yang, Ziyi Wang, Ji WuWed, 11 Ma🤖 cs.AI

LLM-Advisor: An LLM Benchmark for Cost-efficient Path Planning across Multiple Terrains

Il paper presenta LLM-Advisor, un framework basato su prompt che utilizza i grandi modelli linguistici come consulenti post-elaborazione per ottimizzare l'efficienza dei costi nella pianificazione di percorsi su terreni eterogenei, superando le limitazioni spaziali dei modelli attuali senza modificare i pianificatori sottostanti.

Ling Xiao, Toshihiko YamasakiWed, 11 Ma🤖 cs.AI

HyConEx: Hypernetwork classifier with counterfactual explanations for tabular data

Il paper introduce HyConEx, un classificatore basato su hypernetwork progettato per dati tabulari che combina previsioni accurate e spiegazioni locali sotto forma di esempi controfattuali in un'unica rete neurale.

Patryk Marszałek, Kamil Ksi\k{a}\.zek, Oleksii Furman, Ulvi Movsum-zada, Przemysław Spurek, Marek SmiejaWed, 11 Ma🤖 cs.AI

GateLens: A Reasoning-Enhanced LLM Agent for Automotive Software Release Analytics

Il paper introduce GateLens, un agente LLM che utilizza l'Algebra Relazionale come rappresentazione intermedia formale per garantire analisi rapide, trasparenti e affidabili di dati tabulari complessi nel settore automobilistico, superando i limiti dei sistemi basati su Chain-of-Thought e riducendo i tempi di analisi dell'80% senza necessità di esempi few-shot.

Arsham Gholamzadeh Khoee, Shuai Wang, Robert Feldt, Dhasarathy Parthasarathy, Yinan YuWed, 11 Ma🤖 cs.AI

A Consequentialist Critique of Binary Classification Evaluation: Theory, Practice, and Tools

Questo articolo propone una critica consequenzialista alle pratiche di valutazione della classificazione binaria, sostenendo l'adozione di regole di scoring adeguate come il punteggio Brier attraverso un nuovo framework decisionale e il pacchetto Python `briertools`, che colmano il divario tra teoria e pratica dominata da metriche a soglia fissa.

Gerardo Flores, Abigail Schiff, Alyssa H. Smith, Julia A Fukuyama, Ashia C. WilsonWed, 11 Ma🤖 cs.AI

MCP Bridge: A Lightweight, LLM-Agnostic RESTful Proxy for Model Context Protocol Servers

Il documento presenta MCP Bridge, un proxy RESTful leggero e agnostico rispetto ai modelli LLM che abilita l'uso del Model Context Protocol su dispositivi con risorse limitate grazie a un modello di esecuzione sicuro, accompagnato da modelli Qwen ottimizzati che raggiungono prestazioni superiori rispetto a sistemi molto più grandi nel benchmark MCPToolBench++.

Arash Ahmadi, Sarah Sharif, Yaser M. BanadWed, 11 Ma🤖 cs.AI

Stepwise Guided Policy Optimization: Coloring your Incorrect Reasoning in GRPO

Il paper introduce SGPO, un framework che risolve il limite di GRPO di non aggiornare la politica quando tutti i campioni di un gruppo sono errati, migliorando l'apprendimento per rinforzo nei modelli linguistici attraverso una diversificazione guidata da un modello giudice passo-passo che permette di apprendere anche dagli errori senza richiedere soluzioni corrette.

Peter Chen, Xiaopeng Li, Ziniu Li, Xi Chen, Tianyi LinWed, 11 Ma🤖 cs.AI

Let's Verify Math Questions Step by Step

Il paper presenta MathQ-Verify, una pipeline innovativa a cinque stadi che verifica rigorosamente la validità e la completezza delle domande matematiche per filtrare problemi mal posti, migliorando significativamente le prestazioni rispetto ai metodi di verifica diretti e facilitando la creazione di dataset matematici affidabili.

Chengyu Shen, Zhen Hao Wong, Runming He, Hao Liang, Meiyi Qiang, Zimo Meng, Zhengyang Zhao, Bohan Zeng, Zhengzhou Zhu, Bin Cui, Wentao ZhangWed, 11 Ma🤖 cs.AI

UltraEdit: Training-, Subject-, and Memory-Free Lifelong Editing in Language Models

Il paper presenta UltraEdit, un metodo innovativo per l'editing continuo dei modelli linguistici che, eliminando la necessità di addestramento, soggetti specifici o memoria esterna, raggiunge velocità e efficienza superiori rispetto agli stati dell'arte, permettendo di eseguire fino a 2 milioni di modifiche su modelli da 7B con risorse hardware limitate.

Xiaojie Gu, Ziying Huang, Jia-Chen Gu, Kai ZhangWed, 11 Ma🤖 cs.AI

SATURN: SAT-based Reinforcement Learning to Unleash LLMs Reasoning

Il paper presenta SATURN, un framework di apprendimento per rinforzo basato su problemi di soddisfacibilità booleana (SAT) che supera le limitazioni di scalabilità, verificabilità e controllo della difficoltà delle attività esistenti, permettendo di potenziare significativamente le capacità di ragionamento dei modelli linguistici su compiti matematici e di programmazione attraverso un curriculum learning progressivo.

Huanyu Liu, Ge Li, Jia Li, Hao Zhu, Kechi Zhang, Yihong DongWed, 11 Ma🤖 cs.AI

Daily-Omni: Towards Audio-Visual Reasoning with Temporal Alignment across Modalities

Il paper introduce Daily-Omni, un nuovo benchmark audio-visivo per valutare la capacità di ragionamento temporale sincrono tra modalità nei modelli linguistici multimodali, evidenziando attraverso una valutazione estensiva che la maggior parte dei modelli attuali fatica ancora a gestire efficacemente l'allineamento temporale cross-modale.

Ziwei Zhou, Rui Wang, Zuxuan Wu, Yu-Gang JiangWed, 11 Ma🤖 cs.AI

Rating Quality of Diverse Time Series Data by Meta-learning from LLM Judgment

Il paper propone TSRating, un framework unificato che sfrutta il giudizio dei modelli linguistici su larga scala (LLM) e l'apprendimento meta per valutare in modo efficiente e adattabile la qualità di serie temporali provenienti da domini diversi, superando i limiti delle metodologie esistenti.

Shunyu Wu, Dan Li, Wenjie Feng, Haozheng Ye, Jian Lou, See-Kiong NgWed, 11 Ma🤖 cs.AI

Cooperative Game-Theoretic Credit Assignment for Multi-Agent Policy Gradients via the Core

Il lavoro propone CORA, un metodo di assegnazione del credito per l'apprendimento per rinforzo multi-agente cooperativo che utilizza il nucleo della teoria dei giochi cooperativi e il campionamento casuale delle coalizioni per allocare in modo più efficace i vantaggi globali e promuovere comportamenti coordinati ottimali.

Mengda Ji, Genjiu Xu, Keke Jia, Zekun Duan, Yong Qiu, Jianjun Ge, Mingqiang LiWed, 11 Ma🤖 cs.AI

Towards Robust Real-World Multivariate Time Series Forecasting: A Unified Framework for Dependency, Asynchrony, and Missingness

Il paper presenta ChannelTokenFormer, un framework basato su Transformer che affronta simultaneamente le sfide della dipendenza tra canali, del campionamento asincrono e dei valori mancanti per migliorare l'accuratezza e la robustezza delle previsioni di serie temporali multivariate in scenari reali.

Jinkwan Jang, Hyungjin Park, Jinmyeong Choi, Taesup KimWed, 11 Ma🤖 cs.AI