cs.AI articoli | Gist.Science

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

Il paper presenta GTR-Turbo, un metodo efficiente che utilizza un modello "insegnante" gratuito generato dalla fusione di checkpoint durante l'addestramento per migliorare le prestazioni degli agenti VLM e ridurre costi e tempi, eliminando la dipendenza da modelli proprietari costosi.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Il paper introduce il "Pretrained Battery Transformer" (PBT), un modello fondazionale che supera i limiti attuali nella previsione della vita delle batterie grazie all'addestramento su dati eterogenei, ottenendo prestazioni all'avanguardia su diverse tecnologie di batterie.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Questo studio presenta un quadro innovativo che combina YOLOv8 e Finer-CAM per analizzare la classificazione delle specie arboree tramite nuvole di punti TLS, dimostrando un'accuratezza del 96% e rivelando come il modello utilizzi in modo interpretabile diverse caratteristiche strutturali, come chiome e fusti, a seconda della specie.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

Questo studio dimostra che i piccoli trasformatori realizzano l'inferenza bayesiana attraverso un meccanismo geometrico specifico, utilizzando stream residui come substrato delle credenze e reti feed-forward per l'aggiornamento, superando di gran lunga le architetture MLP in ambienti controllati chiamati "gallerie del vento bayesiane" dove la vera posterior è nota.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Questo lavoro dimostra che l'addestramento con entropia incrociata nei transformer scolpisce dinamicamente la geometria interna delle teste di attenzione, creando una procedura a due scale temporali analoga all'EM che allinea l'ottimizzazione del gradiente ai manifold bayesiani necessari per il ragionamento probabilistico in contesto.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Lo studio dimostra che i moderni modelli linguistici preservano un substrato geometrico che codifica la struttura bayesiana, organizzando le loro stime di incertezza lungo un asse dominante delle rappresentazioni di valore che può essere manipolato selettivamente senza però costituire un collo di bottiglia computazionale unico.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Questo lavoro analizza sistematicamente il fenomeno dell'"over-searching" nei modelli linguistici potenziati dalla ricerca, evidenziando come l'invocazione eccessiva degli strumenti di ricerca comprometta l'efficienza e la qualità delle risposte, proponendo al contempo una nuova metrica di valutazione (TPC), strategie di mitigazione e un nuovo dataset (OverSearchQA) per promuovere lo sviluppo di sistemi più efficienti.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Questo studio presenta un'architettura multi-tenant sicura (SMTA) combinata con un meccanismo "Burn-After-Use" (BAU) per prevenire la fuoriuscita di dati negli ambienti aziendali di LLM, garantendo l'isolamento dei contesti conversazionali e la loro distruzione automatica dopo l'uso, come dimostrato da valutazioni sperimentali che conferiscono elevate percentuali di successo nella difesa da attacchi di perdita dati.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Il paper presenta un attacco DoS economico e stealth per agenti LLM che, sfruttando il protocollo MCP e l'ottimizzazione MCTS su catene di chiamate agli strumenti, amplifica drasticamente costi e consumo di risorse pur mantenendo l'aspetto benigno del payload finale.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Questo articolo propone un agente per il gioco Dark Souls III che, rappresentando il combattimento come un grafo diretto di abilità e addestrandole in modo gerarchico, migliora l'efficienza del campionamento e permette un adattamento selettivo a nuove fasi di gioco senza dover riaddestrare l'intero sistema da zero.

Ali Najar2026-03-12🤖 cs.AI

MemOCR: Layout-Aware Visual Memory for Efficient Long-Horizon Reasoning

Il paper introduce MemOCR, un agente multimodale che ottimizza il ragionamento a lungo termine sotto vincoli di contesto limitati trasformando la memoria strutturata in un'immagine visiva che priorizza le informazioni cruciali e comprime i dettagli superflui, superando così i metodi basati esclusivamente sul testo.

Yaorui Shi, Shugui Liu, Yu Yang, Wenyu Mao, Yuxin Chen, Qi GU, Hui Su, Xunliang Cai, Xiang Wang, An Zhang2026-03-12🤖 cs.AI

MHDash: An Online Platform for Benchmarking Mental Health-Aware AI Assistants

Il paper presenta MHDash, una piattaforma open-source progettata per il benchmarking e l'audit di assistenti AI consapevoli della salute mentale, evidenziando come le valutazioni aggregate tradizionali siano insufficienti per rilevare i fallimenti critici nei casi ad alto rischio e nelle interazioni multi-turno.

Yihe Zhang, Cheyenne N Mohawk, Kaiying Han + 3 more2026-03-12🤖 cs.AI

Hallucination is a Consequence of Space-Optimality: A Rate-Distortion Theorem for Membership Testing

Questo lavoro teorizza che l'allucinazione nei modelli linguistici è una conseguenza inevitabile dell'ottimizzazione dello spazio di memoria, dimostrando attraverso un teorema di rate-distorsione che, in condizioni di capacità limitata, la strategia informazionalmente ottimale richiede di assegnare alta confidenza a fatti non veri piuttosto che astenersi o dimenticare.

Anxin Guo, Jingwei Li2026-03-12💬 cs.CL

Evaluating Long-Horizon Memory for Multi-Party Collaborative Dialogues

Il paper introduce EverMemBench, il primo benchmark progettato per valutare la memoria a lungo termine nei dialoghi collaborativi multi-attore, rivelando le limitazioni fondamentali dei sistemi attuali nell'attribuzione multi-attore, nel ragionamento temporale e nella consapevolezza della memoria in contesti realistici complessi.

Chuanrui Hu, Tong Li, Xingze Gao, Hongda Chen, Yi Bai, Dannong Xu, Tianwei Lin, Xiaohong Li, Yunyun Han, Jian Pei, Yafeng Deng2026-03-12💬 cs.CL

Moving On, Even When You're Broken: Fail-Active Trajectory Generation via Diffusion Policies Conditioned on Embodiment and Task

Il paper presenta DEFT, un generatore di traiettorie basato su diffusione che permette ai robot di completare i compiti in modo sicuro anche in caso di guasti agli attuatori, superando significativamente i metodi classici sia in simulazione che nel mondo reale grazie alla sua capacità di generalizzare a condizioni di malfunzionamento non viste durante l'addestramento.

Gilberto G. Briscoe-Martinez, Yaashia Gautam, Rahul Shetty, Anuj Pasricha, Marco M. Nicotra, Alessandro Roncone2026-03-12🤖 cs.AI

DMS2F-HAD: A Dual-branch Mamba-based Spatial-Spectral Fusion Network for Hyperspectral Anomaly Detection

Il paper presenta DMS2F-HAD, una rete innovativa basata su Mamba con due rami e fusione dinamica che supera le tecniche esistenti per la rilevazione di anomalie iperspettrali, offrendo prestazioni all'avanguardia e un'efficienza computazionale significativamente superiore.

Aayushma Pant, Lakpa Tamang, Tsz-Kwan Lee + 1 more2026-03-12🤖 cs.AI

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Questo articolo presenta FGO, un algoritmo di apprendimento per rinforzo che comprime in modo efficiente il ragionamento a catena di pensiero (CoT) nei modelli linguistici di grandi dimensioni, risolvendo al contempo le limitazioni di GRPO relative all'uso dei dati e al collasso dell'entropia senza compromettere le prestazioni.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

UniWeTok: An Unified Binary Tokenizer with Codebook Size $\mathit{2^{128}}$ for Unified Multimodal Large Language Model

Il paper presenta UniWeTok, un tokenizzatore binario unificato con un codice di dimensione $2^{128}$ e un'architettura ibrida che, grazie a nuove tecniche di distillazione e formazione, supera lo stato dell'arte nella ricostruzione ad alta fedeltà, nell'estrazione semantica e nella generazione di immagini con un costo computazionale significativamente inferiore.

Shaobin Zhuang, Yuang Ai, Jiaming Han, Weijia Mao, Xiaohui Li, Fangyikang Wang, Xiao Wang, Yan Li, Shanchuan Lin, Kun Xu, Zhenheng Yang, Huaibo Huang, Xiangyu Yue, Hao Chen, Yali Wang2026-03-12🤖 cs.AI

TikArt: Stabilizing Aperture-Guided Fine-Grained Visual Reasoning with Reinforcement Learning

Il paper presenta TikArt, un agente multimodale basato su reinforcement learning che stabilizza il ragionamento visivo fine-granulare attraverso un ciclo "Pensa-Apertura-Osserva" che combina zoom e segmentazione per acquisire evidenze locali in modo sequenziale e interpretabile.

Hao Ding, Zhichuan Yang, Weijie Ge, Ziqin Gao, Chaoyi Lu, Lei Zhao2026-03-12🤖 cs.AI

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Il paper presenta GOT-JEPA, un framework di pre-addestramento basato su un'architettura predittiva a embedding congiunto che migliora la generalizzazione e la gestione delle occlusioni nel tracciamento generico di oggetti, integrando un modulo chiamato OccuSolver per stimare la visibilità e affinare i modelli di tracciamento in ambienti dinamici.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

← Precedente Successivo →

cs.AI