cs.AI articoli | Gist.Science

BiasBusters: Uncovering and Mitigating Tool Selection Bias in Large Language Models

Il paper "BiasBusters" identifica e quantifica i pregiudizi sistematici nella selezione degli strumenti da parte dei modelli linguistici di grandi dimensioni, ne analizza le cause principali (come l'allineamento semantico e l'esposizione pre-addestramento) e propone una strategia di mitigazione efficace per garantire un'equa distribuzione tra fornitori di strumenti equivalenti.

Thierry Blankenstein, Jialin Yu, Zixuan Li, Vassilis Plachouras, Sunando Sengupta, Philip Torr, Yarin Gal, Alasdair Paren, Adel Bibi2026-03-12🤖 cs.AI

MonitorVLM:A Vision Language Framework for Safety Violation Detection in Mining Operations

Il paper presenta MonitorVLM, un innovativo framework visione-linguaggio che rileva automaticamente le violazioni della sicurezza nelle operazioni minerarie analizzando i flussi video, grazie a un dataset specifico, un modulo di filtraggio delle clausole e un ingranditore comportamentale che migliorano significativamente precisione e richiamo rispetto ai modelli di base.

Jiang Wu, Sichao Wu, Yinsong Ma, Guangyuan Yu, Haoyuan Xu, Lifang Zheng, Jingliang Duan2026-03-12🤖 cs.AI

A Systematic Evaluation of Self-Supervised Learning for Label-Efficient Sleep Staging with Wearable EEG

Questo studio presenta la prima valutazione sistematica dell'apprendimento auto-supervisionato per la stadiazione del sonno tramite EEG indossabile, dimostrando che tale approccio supera i modelli supervisionati e quelli generici, raggiungendo accuratezza clinica con una frazione significativamente inferiore di dati etichettati.

Emilio Estevan, María Sierra-Torralba, Eduardo López-Larraz, Luis Montesano2026-03-12🤖 cs.AI

HyWA: Hypernetwork Weight Adapting Personalized Voice Activity Detection

Il paper propone HyWA, un metodo che utilizza una rete iperperazionale per generare pesi personalizzati in un modello VAD standard, migliorando le prestazioni di rilevamento della voce del parlante target e semplificando il deployment rispetto alle tecniche di condizionamento esistenti.

Mahsa Ghazvini Nejad, Hamed Jafarzadeh Asl, Amin Edraki, Mohammadreza Sadeghi, Masoud Asgharian, Yuanhao Yu, Vahid Partovi Nia2026-03-12⚡ eess

Reveal-to-Revise: Explainable Bias-Aware Generative Modeling with Multimodal Attention

Il paper presenta un framework generativo spiegabile e attento ai pregiudizi che unisce fusione di attenzione multimodale, attribuzione Grad-CAM++ e un ciclo di feedback "Rivelare-Per-Rivedere", ottenendo risultati superiori su benchmark multimodali e di classificazione testuale grazie a una maggiore coerenza strutturale e equità.

Noor Islam S. Mohammad, Md Muntaqim Meherab2026-03-12🤖 cs.LG

MVCustom: Multi-View Customized Diffusion via Geometric Latent Rendering and Completion

Il paper introduce MVCustom, un nuovo framework basato su diffusione che risolve il problema della generazione multi-vista personalizzata garantendo coerenza geometrica e fedeltà del soggetto attraverso una rappresentazione a campo di feature, un'attenzione spaziotemporale densa e tecniche di rendering e completamento latente consapevoli della profondità.

Minjung Shin, Hyunin Cho, Sooyeon Go, Jin-Hwa Kim, Youngjung Uh2026-03-12🤖 cs.AI

Predicting kernel regression learning curves from only raw data statistics

Questo articolo presenta un quadro teorico, basato sull'ansatz dell'autostruttura di Hermite (HEA), che permette di prevedere le curve di apprendimento della regressione a kernel su dataset reali analizzando solo la matrice di covarianza empirica e una decomposizione polinomiale della funzione target, dimostrando inoltre che le MLP in regime di apprendimento delle caratteristiche seguono la stessa gerarchia di polinomi di Hermite prevista dalla teoria.

Dhruva Karkada, Joseph Turnbull, Yuxi Liu, James B. Simon2026-03-12🤖 cs.LG

KV Cache Transform Coding for Compact Storage in LLM Inference

Il paper presenta KVTC, un metodo di codifica trasformativa leggero che comprime la cache KV nei modelli linguistici su larga scala fino a 20 volte (o più in casi specifici) preservando l'accuratezza e riducendo l'uso di memoria GPU senza modificare i parametri del modello.

Konrad Staniszewski, Adrian Łancucki2026-03-12💬 cs.CL

Expert Evaluation of LLM World Models: A High- $T_c$ Superconductivity Case Study

Questo studio valuta la capacità di sei sistemi di modelli linguistici di rispondere a domande complesse sulla superconduttività ad alta temperatura, dimostrando che le soluzioni basate su retrieval-augmented generation (RAG) su letteratura curata superano i modelli chiusi esistenti in termini di completezza fattuale e supporto evidenziale.

Haoyu Guo, Maria Tikhanovskaya, Paul Raccuglia + 20 more2026-03-12🤖 cs.AI

DeepEyesV2: Toward Agentic Multimodal Model

Il paper introduce DeepEyesV2, un modello multimodale agentic che, grazie a una pipeline di addestramento in due fasi e al nuovo benchmark RealX-Bench, dimostra una capacità superiore di integrare percezione, ricerca e ragionamento attraverso l'invocazione adattiva di strumenti esterni.

Jack Hong, Chenxiao Zhao, ChengLin Zhu, Weiheng Lu, Guohai Xu, Xing Yu2026-03-12🤖 cs.AI

What We Don't C: Manifold Disentanglement for Structured Discovery

Il paper introduce "What We Don't C", un approccio innovativo basato sul flusso latente che disaccoppia i sottospazi latenti rimuovendo esplicitamente le informazioni delle variabili di condizionamento, generando così rappresentazioni residue significative per l'analisi e il controllo di fattori di variazione non ancora catturati.

Brian Rogers, Micah Bowles, Chris J. Lintott, Steve Croft, Oliver N. F. King, James Kostas Ray2026-03-12🤖 cs.AI

D-GAP: Improving Out-of-Domain Robustness via Dataset-Agnostic and Gradient-Guided Augmentation in Frequency and Pixel Spaces

Il paper propone D-GAP, un metodo di augmentation dataset-agnostico e guidato dal gradiente che migliora la robustezza fuori distribuzione applicando perturbazioni mirate nello spettro di ampiezza e nei valori dei pixel per ridurre i bias di apprendimento specifici del dominio e ripristinare i dettagli spaziali.

Ruoqi Wang, Haitao Wang, Shaojie Guo, Qiong Luo2026-03-12🤖 cs.AI

STREAM-VAE: Dual-Path Routing for Slow and Fast Dynamics in Vehicle Telemetry Anomaly Detection

Il paper presenta STREAM-VAE, un modello variational autoencoder che utilizza un'architettura a doppio percorso per separare le dinamiche lente (deriva) da quelle rapide (picchi) nei dati telemetrici veicolari, migliorando così l'accuratezza e la robustezza del rilevamento delle anomalie rispetto ai metodi esistenti.

Kadir-Kaan Özer, René Ebeling, Markus Enzweiler2026-03-12🤖 cs.LG

REMSA: Foundation Model Selection for Remote Sensing via a Constraint-Aware Agent

Il paper presenta REMSA, un agente consapevole dei vincoli che, sfruttando il nuovo database strutturato RS-FMD contenente oltre 160 modelli fondazione per il telerilevamento, automatizza la selezione del modello più adatto a specifiche richieste in linguaggio naturale, superando le soluzioni esistenti in termini di accuratezza e utilità pratica.

Binger Chen, Tacettin Emre Bök, Behnood Rasti, Volker Markl, Begüm Demir2026-03-12🤖 cs.AI

Hierarchical Dual-Strategy Unlearning for Biomedical and Healthcare Intelligence Using Imperfect and Privacy-Sensitive Medical Data

Questo articolo presenta un framework di disapprendimento gerarchico a doppia strategia che, integrando aggiornamenti del gradiente vincolati geometricamente e interventi a livello di token consapevoli dei concetti, rimuove selettivamente conoscenze mediche specifiche da modelli linguistici preservando le competenze fondamentali e garantendo la privacy con modifiche minime ai parametri.

Yi Zhang, Chao Zhang, Zijian Li, Tianxiang Xu, Kunyu Zhang, Zhan Gao, Meinuo Li, Xiaohan Zhang, Qichao Qi, Bing Chen2026-03-12🤖 cs.LG

CostNav: A Navigation Benchmark for Real-World Economic-Cost Evaluation of Physical AI Agents

Il paper introduce CostNav, il primo benchmark fisico-economico che valuta l'efficienza commerciale degli agenti di navigazione fisica integrando dati finanziari e medici reali, rivelando che le attuali strategie di successo del task non garantiscono la sostenibilità economica necessaria per il dispiegamento commerciale.

Haebin Seong, Sungmin Kim, Yongjun Cho, Myunchul Joe, Geunwoo Kim, Yubeen Park, Sunhoo Kim, Yoonshik Kim, Suhwan Choi, Jaeyoon Jung, Jiyong Youn, Jinmyung Kwak, Sunghee Ahn, Jaemin Lee, Younggil Do, Seungyeop Yi, Woojin Cheong, Minhyeok Oh, Minchan Kim, Seongjae Kang, Samwoo Seong, Youngjae Yu, Yunsung Lee2026-03-12🤖 cs.AI

IndiMathBench: Autoformalizing Mathematical Reasoning Problems with a Human Touch

Il paper introduce IndiMathBench, un benchmark verificato da esperti composto da 312 teoremi Lean 4 derivati dalle Olimpiadi Indiane di Matematica, creato tramite una pipeline ibrida uomo-AI per valutare le sfide attuali nell'autoformalizzazione e nella dimostrazione di teoremi matematici.

Param Biyani, Shashank Kirtania, Yasharth Bajpai, Sumit Gulwani, Ashish Tiwari2026-03-12🤖 cs.AI

World Models That Know When They Don't Know - Controllable Video Generation with Calibrated Uncertainty

Il paper propone C3, un metodo di quantificazione dell'incertezza che addestra modelli video generativi controllabili a stimare la propria confidenza a livello di sottopatch, permettendo di localizzare e visualizzare le regioni inaffidabili e di rilevare dati fuori distribuzione per mitigare le allucinazioni in compiti critici come la robotica.

Zhiting Mei, Tenny Yin, Micah Baker, Ola Shorinwa, Anirudha Majumdar2026-03-12🤖 cs.AI

Toward Closed-loop Molecular Discovery via Language Model, Property Alignment and Strategic Search

Il paper presenta Trio, un framework di generazione molecolare che integra modellazione linguistica, apprendimento per rinforzo e ricerca ad albero Monte Carlo per realizzare una progettazione mirata di farmaci a ciclo chiuso, superando le limitazioni degli approcci esistenti grazie a una maggiore validità chimica, proprietà farmacologiche migliorate e una diversità molecolare significativamente ampliata.

Junkai Ji, Zhangfan Yang, Dong Xu, Ruibin Bai, Jianqiang Li, Tingjun Hou, Zexuan Zhu2026-03-12🤖 cs.AI

Maximum Risk Minimization with Random Forests

Questo lavoro introduce varianti efficienti e statisticamente coerenti delle foreste casuali basate sul principio di minimizzazione del rischio massimo (MaxRM) per migliorare la generalizzazione fuori distribuzione, fornendo nuove garanzie teoriche e validando l'approccio su dati simulati e reali.

Francesco Freni, Anya Fries, Linus Kühne, Markus Reichstein, Jonas Peters2026-03-12📊 stat

← Precedente Successivo →

cs.AI