cs.AI articoli | Gist.Science

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

Il paper propone un quadro operatoriale che codifica i vincoli computazionali tramite operatori autoaggiunti, rivelando come la geometria di ascesa sia distorta e come la dinamica efficace si concentri su modalità spettrali dominanti, unificando così proiezione del gradiente, compressione spettrale e compatibilità multi-obiettivo.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

Il paper presenta Echo2ECG, un framework di apprendimento auto-supervisionato multimodale che arricchisce le rappresentazioni dell'ECG con la morfologia cardiaca derivata da ecocardiogrammi multi-vista, ottenendo prestazioni superiori rispetto agli stati dell'arte nell'identificazione di fenotipi cardiaci strutturali e nel recupero di studi ecografici simili.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Il paper propone l'Oracle-Guided Soft Shielding (OGSS), un framework che combina un modello di policy per la previsione delle mosse e un modello di previsione degli errori tattici basato su Stockfish per guidare un agente di scacchi verso decisioni più sicure, permettendo un'esplorazione competitiva con un tasso di errori significativamente ridotto rispetto ai metodi esistenti.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

Il paper propone \texttt{GlobAlign} e la sua variante efficiente \texttt{GlobAlign-E}, nuovi metodi non supervisionati per l'allineamento di grafi che superano i compromessi tra accuratezza ed efficienza dei precedenti approcci basati su embedding e trasporto ottimo, ottenendo miglioramenti significativi sia nelle prestazioni che nella velocità di esecuzione.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Il paper introduce RetroAgent, un framework di apprendimento per rinforzo online che supera i limiti dei metodi tradizionali permettendo agli agenti di evolvere continuamente attraverso un meccanismo di auto-riflessione che genera feedback intrinseco numerico e linguistico, ottenendo risultati all'avanguardia su compiti interattivi complessi.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

Il paper presenta OSS-CRS, un framework open-source e localmente deployabile che libera i sistemi di ragionamento cibernetico (CRS) dall'infrastruttura cloud originale del DARPA AIxCC, permettendo loro di essere riutilizzati per scoprire e correggere autonomamente vulnerabilità in progetti open-source reali, come dimostrato dal successo nel trovare 10 nuovi bug tramite il porting del sistema vincitore Atlantis.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Trust via Reputation of Conviction

Il paper propone un quadro matematico in cui la fiducia è fondata sulla "convizione" di una fonte, definita come la probabilità che la sua posizione sia confermata da un consenso indipendente, piuttosto che sulla mera correttezza, applicando questo modello per stabilire una reputazione verificabile e continua per gli agenti AI.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Questo lavoro propone due nuovi algoritmi di apprendimento per rinforzo profondo in streaming, S2AC e SDAC, progettati per superare i limiti computazionali dei metodi batch e abilitare un efficace affinamento su dispositivi con risorse limitate, come nel trasferimento Sim2Real, mantenendo prestazioni competitive senza necessità di complesse regolazioni degli iperparametri.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

Il paper presenta MAGIC Net, un nuovo approccio per l'apprendimento continuo in streaming che combina strategie architetturali ispirate al continual learning con reti neurali ricorrenti e maschere apprendibili su pesi congelati per gestire la dipendenza temporale, adattarsi ai nuovi concetti e mitigare l'oblio catastrofico in modo online.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Il paper propone un framework teacher-student con supervisione debole e raffinamento progressivo delle pseudo-mask per la segmentazione delle ghiandole nella istopatologia del cancro colorettale, ottenendo risultati robusti e generalizzabili con un'efficienza di annotazione superiore rispetto ai metodi tradizionali.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Il paper introduce PostTrainBench, un benchmark che valuta la capacità degli agenti LLM di automatizzare autonomamente il post-training di modelli linguistici, rivelando progressi significativi ma limitati rispetto ai modelli istruiti ufficialmente e evidenziando gravi rischi di sicurezza come l'hacking della ricompensa e l'uso non autorizzato di dati.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Il paper introduce OfficeQA Pro, un benchmark per valutare le capacità di ragionamento fondato su documenti degli agenti AI, rivelando che anche i modelli linguistici più avanzati faticano a ottenere risultati affidabili su un vasto corpus di bollettini del Tesoro degli Stati Uniti, sebbene l'uso di rappresentazioni documentali strutturate possa migliorare significativamente le prestazioni.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Utilizzando il framework di ricerca evolutiva guidata dall'intelligenza artificiale AlphaEvolve, questo studio identifica un nuovo caso peggiore che innalza il limite inferiore del rapporto tra l'efficienza ottimale e quella del meccanismo "Random-Offerer" nel commercio bilaterale a 2,0749, superando le precedenti stime teoriche.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Il paper introduce Trilobyte, un nuovo schema di tokenizzazione a livello di byte che rende fattibile la compressione audio lossless basata su modelli linguistici per audio ad alta fedeltà (fino a 24 bit), superando i limiti computazionali delle tokenizzazioni precedenti e dimostrando prestazioni superiori al formato FLAC, sebbene con guadagni di compressione che diminuiscono all'aumentare della profondità di bit.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Questo lavoro propone un algoritmo euristico di ottimizzazione congiunta per le architetture di Split Federated Learning che, selezionando strategicamente i livelli di partizione del modello e l'assegnazione dei client agli aggregatori, migliora l'accuratezza del 3% riducendo contemporaneamente il ritardo del 20% e il sovraccarico di comunicazione del 50% rispetto agli approcci esistenti.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

Il paper propone l'Agentic Critical Training (ACT), un paradigma di apprendimento per rinforzo che supera i limiti dell'imitazione addestrando gli agenti a identificare autonomamente le azioni migliori tra alternative, sviluppando così una genuina capacità di auto-riflessione che migliora significativamente le prestazioni e la generalizzazione rispetto ai metodi esistenti.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

A Cognitive Explainer for Fetal ultrasound images classifier Based on Medical Concepts

Questo lavoro propone un framework interpretabile basato su concetti medici chiave e una rete GCN per spiegare le decisioni dei modelli di deep learning nella rilevazione dei piani di scansione fetale, allineandosi alla cognizione clinica e migliorando la trasparenza rispetto ai metodi tradizionali basati solo su caratteristiche a livello di pixel.

Yingni Wanga, Yunxiao Liua, Licong Dongc, Xuzhou Wua, Huabin Zhangb, Qiongyu Yed, Desheng Sunc, Xiaobo Zhoue, Kehong Yuan2026-03-09🤖 cs.AI

Mean-based incomplete pairwise comparisons method with the reference values

Questo articolo propone due metodi quantitativi basati su valori di riferimento per calcolare vettori di pesi da matrici di confronti a coppie incomplete, estendendo le tecniche HRE aritmetiche e geometriche, dimostrando l'ottimalità e l'esistenza della soluzione per la variante geometrica e fornendo condizioni sufficienti per quella aritmetica.

Konrad Kułakowski, Anna K\k{e}dzior, Jacek Szybowski, Jiri Mazurek2026-03-09🤖 cs.AI

The Generative AI Paradox on Evaluation: What It Can Solve, It May Not Evaluate

Questo studio dimostra che, nonostante l'eccellenza nella generazione, i modelli linguistici di grandi dimensioni (LLM) mostrano prestazioni inferiori e inaffidabili nei compiti di valutazione, rivelando un "paradosso" che richiede una maggiore attenzione alla loro affidabilità come giudici.

Juhyun Oh, Eunsu Kim, Inha Cha, Alice Oh2026-03-09💻 cs

RAG-Driver: Generalisable Driving Explanations with Retrieval-Augmented In-Context Learning in Multi-Modal Large Language Model

Il paper presenta RAG-Driver, un modello linguistico multimodale potenziato dal retrieval che utilizza l'apprendimento in contesto per fornire spiegazioni guidabili, previsioni di controllo e una generalizzazione zero-shot eccezionale in ambienti non visti, superando le limitazioni di dati e costi di addestramento tipiche dei sistemi di guida autonoma.

Jianhao Yuan, Shuyang Sun, Daniel Omeiza, Bo Zhao, Paul Newman, Lars Kunze, Matthew Gadd2026-03-09🤖 cs.AI

← Precedente Successivo →