cs.AI articoli | Gist.Science

What We Don't C: Manifold Disentanglement for Structured Discovery

Il paper introduce "What We Don't C", un approccio innovativo basato sul flusso latente che disaccoppia i sottospazi latenti rimuovendo esplicitamente le informazioni delle variabili di condizionamento, generando così rappresentazioni residue significative per l'analisi e il controllo di fattori di variazione non ancora catturati.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Il paper propone D-GAP, un metodo di augmentation dataset-agnostico e guidato dal gradiente che migliora la robustezza fuori distribuzione applicando perturbazioni mirate nello spettro di ampiezza e nei valori dei pixel per ridurre i bias di apprendimento specifici del dominio e ripristinare i dettagli spaziali.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Il paper presenta STREAM-VAE, un modello variational autoencoder che utilizza un'architettura a doppio percorso per separare le dinamiche lente (deriva) da quelle rapide (picchi) nei dati telemetrici veicolari, migliorando così l'accuratezza e la robustezza del rilevamento delle anomalie rispetto ai metodi esistenti.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Il paper presenta REMSA, un agente consapevole dei vincoli che, sfruttando il nuovo database strutturato RS-FMD contenente oltre 160 modelli fondazione per il telerilevamento, automatizza la selezione del modello più adatto a specifiche richieste in linguaggio naturale, superando le soluzioni esistenti in termini di accuratezza e utilità pratica.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Questo articolo presenta un framework di disapprendimento gerarchico a doppia strategia che, integrando aggiornamenti del gradiente vincolati geometricamente e interventi a livello di token consapevoli dei concetti, rimuove selettivamente conoscenze mediche specifiche da modelli linguistici preservando le competenze fondamentali e garantendo la privacy con modifiche minime ai parametri.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Il paper introduce CostNav, il primo benchmark fisico-economico che valuta l'efficienza commerciale degli agenti di navigazione fisica integrando dati finanziari e medici reali, rivelando che le attuali strategie di successo del task non garantiscono la sostenibilità economica necessaria per il dispiegamento commerciale.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Il paper introduce IndiMathBench, un benchmark verificato da esperti composto da 312 teoremi Lean 4 derivati dalle Olimpiadi Indiane di Matematica, creato tramite una pipeline ibrida uomo-AI per valutare le sfide attuali nell'autoformalizzazione e nella dimostrazione di teoremi matematici.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Il paper propone C3, un metodo di quantificazione dell'incertezza che addestra modelli video generativi controllabili a stimare la propria confidenza a livello di sottopatch, permettendo di localizzare e visualizzare le regioni inaffidabili e di rilevare dati fuori distribuzione per mitigare le allucinazioni in compiti critici come la robotica.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Il paper presenta Trio, un framework di generazione molecolare che integra modellazione linguistica, apprendimento per rinforzo e ricerca ad albero Monte Carlo per realizzare una progettazione mirata di farmaci a ciclo chiuso, superando le limitazioni degli approcci esistenti grazie a una maggiore validità chimica, proprietà farmacologiche migliorate e una diversità molecolare significativamente ampliata.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Questo lavoro introduce varianti efficienti e statisticamente coerenti delle foreste casuali basate sul principio di minimizzazione del rischio massimo (MaxRM) per migliorare la generalizzazione fuori distribuzione, fornendo nuove garanzie teoriche e validando l'approccio su dati simulati e reali.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

GTR-Turbo: Merged Checkpoint is Secretly a Free Teacher for Agentic VLM Training

Il paper presenta GTR-Turbo, un metodo efficiente che utilizza un modello "insegnante" gratuito generato dalla fusione di checkpoint durante l'addestramento per migliorare le prestazioni degli agenti VLM e ridurre costi e tempi, eliminando la dipendenza da modelli proprietari costosi.

Tong Wei, Yijun Yang, Changhao Zhang, Junliang Xing, Yuanchun Shi, Zongqing Lu, Deheng Ye2026-03-12🤖 cs.AI

Pretrained battery transformer (PBT): A foundation model for universal battery life prediction

Il paper introduce il "Pretrained Battery Transformer" (PBT), un modello fondazionale che supera i limiti attuali nella previsione della vita delle batterie grazie all'addestramento su dati eterogenei, ottenendo prestazioni all'avanguardia su diverse tecnologie di batterie.

Ruifeng Tan, Weixiang Hong, Jia Li, Jiaqiang Huang, Tong-Yi Zhang2026-03-12🤖 cs.LG

Enhancing Tree Species Classification: Insights from YOLOv8 and Explainable AI Applied to TLS Point Cloud Projections

Questo studio presenta un quadro innovativo che combina YOLOv8 e Finer-CAM per analizzare la classificazione delle specie arboree tramite nuvole di punti TLS, dimostrando un'accuratezza del 96% e rivelando come il modello utilizzi in modo interpretabile diverse caratteristiche strutturali, come chiome e fusti, a seconda della specie.

Adrian Straker, Paul Magdon, Marco Zullich, Maximilian Freudenberg, Christoph Kleinn, Johannes Breidenbach, Stefano Puliti, Nils Noelke2026-03-12🤖 cs.AI

The Bayesian Geometry of Transformer Attention

Questo studio dimostra che i piccoli trasformatori realizzano l'inferenza bayesiana attraverso un meccanismo geometrico specifico, utilizzando stream residui come substrato delle credenze e reti feed-forward per l'aggiornamento, superando di gran lunga le architetture MLP in ambienti controllati chiamati "gallerie del vento bayesiane" dove la vera posterior è nota.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Gradient Dynamics of Attention: How Cross-Entropy Sculpts Bayesian Manifolds

Questo lavoro dimostra che l'addestramento con entropia incrociata nei transformer scolpisce dinamicamente la geometria interna delle teste di attenzione, creando una procedura a due scale temporali analoga all'EM che allinea l'ottimizzazione del gradiente ai manifold bayesiani necessari per il ragionamento probabilistico in contesto.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12📊 stat

Geometric Scaling of Bayesian Inference in LLMs

Lo studio dimostra che i moderni modelli linguistici preservano un substrato geometrico che codifica la struttura bayesiana, organizzando le loro stime di incertezza lungo un asse dominante delle rappresentazioni di valore che può essere manipolato selettivamente senza però costituire un collo di bottiglia computazionale unico.

Naman Agarwal, Siddhartha R. Dalal, Vishal Misra2026-03-12🤖 cs.LG

Over-Searching in Search-Augmented Large Language Models

Questo lavoro analizza sistematicamente il fenomeno dell'"over-searching" nei modelli linguistici potenziati dalla ricerca, evidenziando come l'invocazione eccessiva degli strumenti di ricerca comprometta l'efficienza e la qualità delle risposte, proponendo al contempo una nuova metrica di valutazione (TPC), strategie di mitigazione e un nuovo dataset (OverSearchQA) per promuovere lo sviluppo di sistemi più efficienti.

Roy Xie, Deepak Gopinath, David Qiu, Dong Lin, Haitian Sun, Saloni Potdar, Bhuwan Dhingra2026-03-12🤖 cs.LG

Burn-After-Use for Preventing Data Leakage through a Secure Multi-Tenant Architecture in Enterprise LLM

Questo studio presenta un'architettura multi-tenant sicura (SMTA) combinata con un meccanismo "Burn-After-Use" (BAU) per prevenire la fuoriuscita di dati negli ambienti aziendali di LLM, garantendo l'isolamento dei contesti conversazionali e la loro distruzione automatica dopo l'uso, come dimostrato da valutazioni sperimentali che conferiscono elevate percentuali di successo nella difesa da attacchi di perdita dati.

Qiang Zhang, Elena Emma Wang, Jiaming Li, Xichun Wang2026-03-12🤖 cs.AI

Beyond Max Tokens: Stealthy Resource Amplification via Tool Calling Chains in LLM Agents

Il paper presenta un attacco DoS economico e stealth per agenti LLM che, sfruttando il protocollo MCP e l'ottimizzazione MCTS su catene di chiamate agli strumenti, amplifica drasticamente costi e consumo di risorse pur mantenendo l'aspetto benigno del payload finale.

Kaiyu Zhou, Yongsen Zheng, Yicheng He, Meng Xue, Xueluan Gong, Yuji Wang, Xuanye Zhang, Kwok-Yan Lam2026-03-12🤖 cs.AI

Learning Transferable Skills in Action RPGs via Directed Skill Graphs and Selective Adaptation

Questo articolo propone un agente per il gioco Dark Souls III che, rappresentando il combattimento come un grafo diretto di abilità e addestrandole in modo gerarchico, migliora l'efficienza del campionamento e permette un adattamento selettivo a nuove fasi di gioco senza dover riaddestrare l'intero sistema da zero.

Ali Najar2026-03-12🤖 cs.AI

← Precedente Successivo →