Quantifying Ranking Instability Across Evaluation Protocol Axes in Gene Regulatory Network Benchmarking

Questo studio presenta un quadro diagnostico sistematico che quantifica l'instabilità dei ranking nell'inferenza delle reti di regolazione genica sotto diverse scelte protocollari, rivelando come le inversioni siano guidate da variazioni nella capacità discriminativa dei metodi piuttosto che da effetti di tasso base, e proponendo pratiche di reporting consapevoli della stabilità.

Ihor Kendiukhov2026-03-05🤖 cs.LG

Geographically-Weighted Weakly Supervised Bayesian High-Resolution Transformer for 200m Resolution Pan-Arctic Sea Ice Concentration Mapping and Uncertainty Estimation using Sentinel-1, RCM, and AMSR2 Data

Questo studio presenta un nuovo approccio bayesiano basato su Transformer ad alta risoluzione che fonde dati Sentinel-1, RCM e AMSR2 per mappare la concentrazione del ghiaccio marino artico a 200 metri e quantificare l'incertezza, superando le sfide delle etichette imprecise e dell'eterogeneità dei dati grazie a una funzione di perdita supervisionata debole geograficamente ponderata e a un'architettura che integra moduli globali e locali.

Mabel Heffring, Lincoln Linlin Xu2026-03-05🤖 cs.LG

Orbital Transformers for Predicting Wavefunctions in Time-Dependent Density Functional Theory

Il lavoro presenta OrbEvo, un modello basato su trasformatori grafici equivarianti che apprende efficientemente l'evoluzione temporale delle funzioni d'onda nella teoria del funzionale densità dipendente dal tempo (TDDFT) per prevedere con precisione le dinamiche elettroniche e le proprietà ottiche sotto l'effetto di campi esterni.

Xuan Zhang, Haiyang Yu, Chengdong Wang + 3 more2026-03-05🔬 cond-mat.mtrl-sci

MMAI Gym for Science: Training Liquid Foundation Models for Drug Discovery

Il paper introduce l'MMAI Gym for Science, un framework completo per addestrare modelli fondazionali liquidi (LFM) specializzati nella scoperta di farmaci, dimostrando che questi modelli più piccoli e mirati superano in efficienza e prestazioni i grandi modelli generici su compiti critici come l'ottimizzazione molecolare e la previsione delle proprietà ADMET.

Maksim Kuznetsov, Zulfat Miftahutdinov, Rim Shayakhmetov + 17 more2026-03-05🤖 cs.AI

Logit-Level Uncertainty Quantification in Vision-Language Models for Histopathology Image Analysis

Questo studio propone un framework di quantificazione dell'incertezza a livello di logit per l'analisi di immagini istopatologiche tramite modelli visione-linguaggio, evidenziando la necessità di tale approccio per garantire affidabilità e trasparenza in ambito sanitario nonostante l'elevata sensibilità stocastica e la minima influenza della temperatura osservate.

Betul Yurdem, Ferhat Ozgur Catak, Murat Kuzlu + 1 more2026-03-05🤖 cs.LG

Online Learnability of Chain-of-Thought Verifiers: Soundness and Completeness Trade-offs

Questo lavoro propone un framework di apprendimento online per verificate di ragionamento a catena di pensiero che, caratterizzando i limiti degli errori tramite estensioni della dimensione di Littlestone, ottimizza il compromesso tra correttezza e completezza per migliorare l'accuratezza dei prover e generare dimostrazioni complesse.

Maria-Florina Balcan, Avrim Blum, Kiriaki Fragkia + 2 more2026-03-05🤖 cs.LG

Build, Judge, Optimize: A Blueprint for Continuous Improvement of Multi-Agent Consumer Assistants

Questo articolo presenta un blueprint pratico per valutare e ottimizzare gli assistenti alla spesa conversazionali multi-agente, introducendo un sistema di valutazione basato su LLM e due strategie di ottimizzazione dei prompt (Sub-agent GEPA e MAMuT GEPA) per migliorare le interazioni complesse e vincolate nel contesto della spesa alimentare.

Alejandro Breen Herrera, Aayush Sheth, Steven G. Xu + 5 more2026-03-05🤖 cs.AI