cs.AI articoli | Gist.Science

Dr. Seg: Revisiting GRPO Training for Visual Large Language Models through Perception-Oriented Design

Il paper introduce Dr. Seg, un framework plug-and-play basato su GRPO che, superando l'errata assunzione di trasferibilità diretta dei paradigmi di ragionamento linguistico alla percezione visiva, migliora le prestazioni dei modelli VLLM attraverso un meccanismo di "Look-to-Confirm" e una ricompensa basata sul ranking distribuzionale.

Haoxiang Sun, Tao Wang, Chenwei Tang + 2 more2026-03-06💻 cs

AlignVAR: Towards Globally Consistent Visual Autoregression for Image Super-Resolution

Il paper propone AlignVAR, un nuovo framework di autoregressione visiva per la super-risoluzione delle immagini che risolve i problemi di coerenza globale e accumulo di errori attraverso la regressione autoregressiva con coerenza spaziale e vincoli di coerenza gerarchica, ottenendo risultati strutturalmente superiori con un'inferenza 10 volte più veloce e un numero di parametri ridotto rispetto ai metodi basati su diffusione.

Cencen Liu, Dongyang Zhang, Wen Yin + 6 more2026-03-06💻 cs

Improving Text-to-Image Generation with Intrinsic Self-Confidence Rewards

Il paper presenta SOLACE, un framework di post-addestramento per la generazione di immagini da testo che utilizza un segnale intrinseco di auto-convinzione, derivato dalla capacità del modello di recuperare il rumore iniettato, per ottimizzare le prestazioni in modo completamente non supervisionato e migliorare l'allineamento testo-immagine senza necessità di dati esterni o reward model.

Seungwook Kim, Minsu Cho2026-03-06💻 cs

AutoSkill: Experience-Driven Lifelong Learning via Skill Self-Evolution

Il paper presenta AutoSkill, un framework di apprendimento continuo basato sull'esperienza che permette agli agenti LLM di derivare, evolvere e riutilizzare automaticamente competenze dai dialoghi senza riaddestrare il modello sottostante, trasformando le interazioni effimere in capacità riutilizzabili e personalizzate.

Yutao Yang, Junsong Li, Qianjun Pan + 9 more2026-03-06💻 cs

Agents Learn Their Runtime: Interpreter Persistence as Training-Time Semantics

Lo studio dimostra che la persistenza dello stato dell'interprete è una semantica fondamentale che, se disallineata tra addestramento e deployment, non compromette la qualità delle soluzioni ma causa significativi inefficienze nei costi token e instabilità operative negli agenti LLM.

Victor May, Aaditya Salgarkar, Yishan Wang + 2 more2026-03-06💻 cs

ToolRLA: Multiplicative Reward Decomposition for Tool-Integrated Agents

Il paper presenta ToolRLA, un metodo di post-addestramento a tre stadi che utilizza una decomposizione moltiplicativa delle ricompense per migliorare significativamente l'accuratezza, la conformità normativa e il completamento dei compiti negli agenti integrati con strumenti per applicazioni finanziarie ad alto rischio.

Pengbo Liu2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Il paper presenta FreeAct, un nuovo framework di quantizzazione che supera i limiti dei metodi statici tradizionali adattando dinamicamente le trasformazioni delle attivazioni in base al tipo di token, migliorando significativamente le prestazioni dei modelli LLM multimodali e basati su diffusione.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Real Money, Fake Models: Deceptive Model Claims in Shadow APIs

Questo studio presenta la prima audit sistematica delle "shadow API", rivelando che molti servizi di terze parti che promettono accesso a modelli LLM avanzati utilizzano pratiche ingannevoli, con risultati significativamente diversi e non sicuri rispetto alle API ufficiali, minando così la validità della ricerca scientifica e l'affidabilità per gli utenti.

Yage Zhang, Yukun Jiang, Zeyuan Chen, Michael Backes, Xinyue Shen, Yang Zhang2026-03-06🔒 cs.CR

MatRIS: Toward Reliable and Efficient Pretrained Machine Learning Interatomic Potentials

Il lavoro presenta MatRIS, un potenziale interatomico basato su machine learning invariante che, grazie a un meccanismo di attenzione scalabile, raggiunge un'accuratezza paragonabile ai modelli equivarianti più avanzati a un costo computazionale significativamente inferiore.

Yuanchang Zhou, Siyu Hu, Xiangyu Zhang + 3 more2026-03-06💻 cs

Kiwi-Edit: Versatile Video Editing via Instruction and Reference Guidance

Il paper introduce Kiwi-Edit, un nuovo approccio all'editing video basato su istruzioni e riferimenti visivi che supera le limitazioni attuali grazie a una pipeline di generazione dati scalabile, al dataset RefVIE e a un'architettura unificata che raggiunge lo stato dell'arte nel controllo preciso delle modifiche video.

Yiqi Lin, Guoqiang Liang, Ziyun Zeng + 3 more2026-03-06💻 cs

IoUCert: Robustness Verification for Anchor-based Object Detectors

Il paper introduce IoUCert, un nuovo framework di verifica formale che supera le difficoltà legate alle trasformazioni non lineari e alla metrica IoU per garantire la robustezza di modelli di rilevamento oggetti basati su anchor come SSD e YOLO.

Benedikt Brückner, Alejandro J. Mercado, Yanghao Zhang, Panagiotis Kouvaros, Alessio Lomuscio2026-03-06🔒 cs.CR

AOI: Turning Failed Trajectories into Training Signals for Autonomous Cloud Diagnosis

Il paper presenta AOI, un framework multi-agente addestrabile che trasforma le traiettorie operative fallite in segnali di supervisione per migliorare la diagnosi autonoma dei cloud, superando le limitazioni dei dati proprietari e della sicurezza attraverso l'uso di ottimizzazione GRPO, un'architettura di esecuzione separata e un ciclo di evoluzione degli errori.

Pei Yang, Wanyi Chen, Asuka Yuxi Zheng + 11 more2026-03-06💻 cs

RADAR: Learning to Route with Asymmetry-aware DistAnce Representations

Il paper introduce RADAR, un framework neurale scalabile che risolve i problemi di instradamento dei veicoli asimmetrici migliorando le rappresentazioni delle distanze statiche tramite SVD e modellando le interazioni dinamiche con la normalizzazione di Sinkhorn, ottenendo così prestazioni superiori e una migliore generalizzazione rispetto ai metodi esistenti.

Hang Yi, Ziwei Huang, Yining Ma + 1 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Questo studio propone un modello teorico computazionale basato su una funzione d'insieme a valori insiemistici per descrivere formalmente la dinamica non lineare dello spostamento del genere grammaticale e della formazione delle parole, offrendo un quadro unificato che spiega le variazioni morfologiche osservate, ad esempio, nella lingua Riffiana.

Mohamed El Idrissi2026-03-06💻 cs

Baseline Performance of AI Tools in Classifying Cognitive Demand of Mathematical Tasks

Questo studio valuta le prestazioni di undici strumenti di intelligenza artificiale, sia generali che specifici per l'educazione, nella classificazione della domanda cognitiva dei compiti matematici, rivelando un'accuratezza media del 63% con una tendenza sistematica a sovrastimare le categorie intermedie e a privilegiare le caratteristiche testuali superficiali rispetto ai processi cognitivi sottostanti.

Danielle S. Fox, Brenda L. Robles, Elizabeth DiPietro Brovey + 1 more2026-03-06💻 cs

DMD-augmented Unpaired Neural Schrödinger Bridge for Ultra-Low Field MRI Enhancement

Gli autori propongono un framework di traduzione neurale non accoppiato basato sul ponte di Schrödinger, potenziato da un allineamento distributivo guidato da diffusione e da un regolarizzatore per la preservazione anatomica, per migliorare la qualità delle immagini risonanza magnetica a ultra-basso campo (64 mT) rendendole comparabili a quelle a 3 T senza richiedere dati di addestramento accoppiati.

Youngmin Kim, Jaeyun Shin, Jeongchan Kim + 5 more2026-03-06💻 cs

Zero-Knowledge Proof (ZKP) Authentication for Offline CBDC Payment System Using IoT Devices

Il lavoro propone un modello di pagamento CBDC offline basato su dispositivi IoT che integra elementi sicuri, prove a conoscenza zero e sincronizzazione intermittente per garantire transazioni private, sicure e conformi alle normative AML/CFT anche in ambienti privi di connettività.

Santanu Mondal, T. Chithralekha2026-03-06🔒 cs.CR

Measuring AI R&D Automation

Questo lavoro propone un insieme di metriche empiriche per monitorare l'automazione della ricerca e sviluppo nell'intelligenza artificiale (AIRDA), al fine di valutarne l'impatto sui progressi tecnologici e sulla sicurezza, colmando così il divario tra i dati esistenti e la comprensione delle reali conseguenze di tale automazione.

Alan Chan, Ranay Padarath, Joe Kwon + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Questo studio presenta Bielik-Q2-Sharp, la prima valutazione sistematica della quantizzazione estrema a 2 bit su un modello linguistico polacco da 11 miliardi di parametri, confrontando sei metodi all'avanguardia e dimostrando che la variante QuIP# mantiene prestazioni quasi equivalenti al baseline IQ2_XXS preservando al contempo capacità di ragionamento superiore, il tutto realizzato con un budget di soli 285 dollari.

Jakub Prejzner2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Il paper introduce FinRetrieval, un benchmark di 500 domande per valutare la capacità degli agenti AI di recuperare dati numerici finanziari, rivelando che la disponibilità di strumenti strutturati è il fattore determinante per le prestazioni e che le modalità di ragionamento offrono benefici variabili in base alla capacità di base del modello.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

← Precedente Successivo →