cs.AI articoli | Gist.Science

FragFM: Hierarchical Framework for Efficient Molecule Generation via Fragment-Level Discrete Flow Matching

Il paper introduce FragFM, un nuovo framework gerarchico basato sul flow matching discreto a livello di frammenti che, grazie a un autoencoder da grossolano a fine e a una strategia stocastica, genera molecole in modo efficiente e scalabile con un migliore controllo delle proprietà, validato anche su un nuovo benchmark per prodotti naturali chiamato NPGen.

Joongwon Lee, Seonghwan Kim, Seokhyun Moon, Hyunwoo Kim, Woo Youn Kim2026-03-09🤖 cs.AI

Aligning Compound AI Systems via System-level DPO

Il paper introduce SysDPO, un framework che estende l'ottimizzazione diretta delle preferenze (DPO) per allineare i sistemi di intelligenza artificiale composti a livello di sistema, superando le sfide poste dalle interazioni non differenziabili e dalle preferenze non direttamente trasformabili a livello di componente.

Xiangwen Wang, Yibo Jacky Zhang, Zhoujie Ding, Katherine Tsai, Haolun Wu, Sanmi Koyejo2026-03-09🤖 cs.AI

Adversarial Robustness of Partitioned Quantum Classifiers

Questo studio esamina la robustezza avversaria dei classificatori quantistici partizionati, dimostrando che le perturbazioni mirate alle tecniche di suddivisione dei circuiti (come il taglio dei fili o la teletrasmissione) sono equivalenti all'implementazione di porte avversarie negli strati intermedi e analizzando tale fenomeno sia teoricamente che sperimentalmente.

Pouya Kananian, Hans-Arno Jacobsen2026-03-09⚛️ quant-ph

A Survey on Music Generation from Single-Modal, Cross-Modal, and Multi-Modal Perspectives

Questo articolo offre una panoramica sulla generazione musicale esaminando approcci mono-modali, cross-modali e multi-modali, affrontando sfide attuali come l'integrazione dei dati e la valutazione sistematica, e delineando le direzioni future della ricerca.

Shuyu Li, Shulei Ji, Zihao Wang + 3 more2026-03-09🤖 cs.AI

FindAnything: Open-Vocabulary and Object-Centric Mapping for Robot Exploration in Any Environment

Il paper presenta FindAnything, un framework di mappatura open-vocabulary che integra informazioni visive e linguistiche in sottomappe volumetriche centrate sugli oggetti, consentendo una comprensione semantica efficiente e scalabile in tempo reale anche su dispositivi con risorse limitate come i MAV.

Sebastián Barbas Laina, Simon Boche, Sotiris Papatheodorou, Simon Schaefer, Jaehyung Jung, Helen Oleynikova, Stefan Leutenegger2026-03-09🤖 cs.AI

From Tokenizer Bias to Backbone Capability: A Controlled Study of LLMs for Time Series Forecasting

Questo studio controllato rivela che, sebbene i modelli linguistici di grandi dimensioni (LLM) mostrino una certa promessa per le previsioni delle serie temporali, le loro prestazioni rimangono limitate e non superano costantemente quelle di modelli specificamente addestrati su grandi dataset temporali, specialmente quando si utilizzano coppie di tokenizzatori e detokenizzatori non distorti ottenuti tramite pre-addestramento su larga scala.

Xinyu Zhang, Shanshan Feng, Xutao Li, Kenghong Lin, Fan Li, Pengfei Jia2026-03-09🤖 cs.AI

Position: Stop Anthropomorphizing Intermediate Tokens as Reasoning/Thinking Traces!

Questo articolo di posizione sostiene che l'antropomorfizzazione dei token intermedi generati dai modelli linguistici come "tracce di ragionamento" è un concetto pericoloso che confonde la natura di questi sistemi e porta a ricerche fuorvianti, invitando la comunità a evitare tale terminologia.

Subbarao Kambhampati, Karthik Valmeekam, Siddhant Bhambri, Vardhan Palod, Lucas Saldyt, Kaya Stechly, Soumya Rani Samineni, Durgesh Kalwar, Upasana Biswas2026-03-09🤖 cs.AI

The Malicious Technical Ecosystem: Exposing Limitations in Technical Governance of AI-Generated Non-Consensual Intimate Images of Adults

Questo studio adotta un approccio centrato sulle vittime per analizzare come l'attuale governance sociotecnica dell'IA fallisca nel regolamentare l'"ecosistema tecnico malevolo" di modelli open-source e software che facilitano la creazione di immagini intime non consensuali generate dall'IA, evidenziando le carenze delle pratiche di governance attuali.

Michelle L. Ding, Harini Suresh2026-03-09🤖 cs.AI

Federated Learning: A Survey on Privacy-Preserving Collaborative Intelligence

Questo articolo offre una panoramica completa dell'Apprendimento Federato, esaminandone l'architettura, le sfide tecniche come l'eterogeneità dei dati e la privacy, le applicazioni pratiche e le future direzioni di ricerca per sistemi collaborativi decentralizzati.

Ratun Rahman2026-03-09🤖 cs.AI

HCT-QA: A Benchmark for Question Answering on Human-Centric Tables

Il paper propone HCT-QA, un nuovo benchmark completo per la risposta alle domande su tabelle complesse e orientate all'uomo (HCT), che include migliaia di esempi reali e sintetici per valutare e migliorare le prestazioni di modelli linguistici e visivi.

Mohammad S. Ahmad, Zan A. Naeem, Michaël Aupetit, Ahmed Elmagarmid, Mohamed Eltabakh, Xiaosong Ma, Mourad Ouzzani, Chaoyi Ruan, Hani Al-Sayeh2026-03-09🤖 cs.AI

FourierSpecNet: Neural Collision Operator Approximation Inspired by the Fourier Spectral Method for Solving the Boltzmann Equation

Il documento presenta FourierSpecNet, un framework ibrido che combina il metodo spettrale di Fourier con l'apprendimento profondo per approssimare efficientemente l'operatore di collisione nell'equazione di Boltzner, garantendo accuratezza, convergenza e una significativa riduzione dei costi computazionali sia per collisioni elastiche che anelastiche.

Jae Yong Lee, Gwang Jae Jung, Byung Chan Lim, Hyung Ju Hwang2026-03-09🤖 cs.AI

RM-R1: Reward Modeling as Reasoning

Il paper introduce i Reasoning Reward Models (ReasRMs), in particolare la famiglia RM-R1, che trasformano la modellazione delle ricompense in un compito di ragionamento tramite un meccanismo di "catena di rubriche" e un addestramento su due fasi, ottenendo prestazioni superiori rispetto a modelli proprietari e open-weight più grandi su diversi benchmark.

Xiusi Chen, Gaotang Li, Ziqi Wang, Bowen Jin, Cheng Qian, Yu Wang, Hongru Wang, Yu Zhang, Denghui Zhang, Tong Zhang, Hanghang Tong, Heng Ji2026-03-09🤖 cs.AI

Software Development Life Cycle Perspective: A Survey of Benchmarks for Code Large Language Models and Agents

Questo studio propone un quadro di analisi a livelli per esaminare 178 benchmark di modelli linguistici e agenti per il codice, rivelando una significativa disparità nella copertura delle fasi del ciclo di vita del software (con un'enfasi eccessiva sull'implementazione e una scarsa attenzione alla progettazione e ai requisiti) e sottolineando la necessità di strategie anti-contaminazione per garantire valutazioni più robuste e pratiche.

Kaixin Wang, Tianlin Li, Xiaoyu Zhang, Chong Wang, Weisong Sun, Yang Liu, Aishan Liu, Xianglong Liu, Chao Shen, Bin Shi2026-03-09🤖 cs.AI

Maximizing Asynchronicity in Event-based Neural Networks

Il paper presenta EVA, un nuovo framework di apprendimento asincrono che, ispirandosi alla modellazione linguistica, genera caratteristiche evento-per-evento altamente espressive superando i metodi precedenti sia in compiti di riconoscimento che di rilevamento.

Haiqing Hao, Nikola Zubic, Weihua He, Zhipeng Sui, Davide Scaramuzza, Wenhui Wang2026-03-09🤖 cs.AI

Mitigating Content Effects on Reasoning in Language Models through Fine-Grained Activation Steering

Questo articolo propone K-CAST, un metodo di steering delle attivazioni basato su kNN che mitiga dinamicamente i bias di contenuto nei modelli linguistici, migliorando significativamente la loro accuratezza nel ragionamento formale senza compromettere le capacità linguistiche multilingue.

Marco Valentino, Geonhee Kim, Dhairya Dalal, Zhixue Zhao, André Freitas2026-03-09🤖 cs.AI

AdAEM: An Adaptively and Automated Extensible Measurement of LLMs' Value Difference

Il paper introduce AdAEM, un algoritmo di valutazione auto-estensibile che genera dinamicamente domande di test per rivelare in modo più informativo e distinguibile le differenze di valori tra i modelli linguistici su larga scala, superando i limiti delle metriche statiche attuali.

Jing Yao, Shitong Duan, Xiaoyuan Yi, Dongkuan Xu, Peng Zhang, Tun Lu, Ning Gu, Zhicheng Dou, Xing Xie2026-03-09🤖 cs.AI

ESGenius: Benchmarking LLMs on Environmental, Social, and Governance (ESG) and Sustainability Knowledge

Il paper introduce ESGenius, il primo benchmark completo per valutare le capacità dei modelli linguistici di grandi dimensioni nelle conoscenze ESG e sulla sostenibilità, dimostrando che l'uso della generazione aumentata dal recupero (RAG) su un corpus curato di fonti autorevoli colma significativamente il divario di conoscenza rispetto alle prestazioni zero-shot.

Chaoyue He, Xin Zhou, Yi Wu + 9 more2026-03-09💬 cs.CL

KramaBench: A Benchmark for AI Systems on Data-to-Insight Pipelines over Data Lakes

Il paper introduce KramaBench, un benchmark composto da 104 sfide curate manualmente per valutare le capacità end-to-end dei sistemi di intelligenza artificiale nell'orchestrare pipeline complesse per l'estrazione di insight da data lake, rivelando che le attuali soluzioni agentiche faticano a produrre flussi di lavoro funzionanti nonostante la loro efficacia in singoli compiti isolati.

Eugenie Lai, Gerardo Vitagliano, Ziyu Zhang, Om Chabra, Sivaprasad Sudhir, Anna Zeng, Anton A. Zabreyko, Chenning Li, Ferdi Kossmann, Jialin Ding, Jun Chen, Markos Markakis, Matthew Russo, Weiyang Wang, Ziniu Wu, Michael J. Cafarella, Lei Cao, Samuel Madden, Tim Kraska2026-03-09🤖 cs.AI

VisioMath: Benchmarking Figure-based Mathematical Reasoning in LMMs

Il paper presenta VisioMath, un benchmark di 1.800 problemi matematici K-12 basato su diagrammi visivamente simili, che rivela come i modelli linguistici multimodali attuali falliscano nel ragionamento comparativo a causa di un disallineamento tra immagine e testo, proponendo strategie di allineamento per migliorare le prestazioni.

Can Li, Ying Liu, Ting Zhang, Mei Wang, Hua Huang2026-03-09🤖 cs.AI

Discerning What Matters: A Multi-Dimensional Assessment of Moral Competence in LLMs

Questo studio propone un nuovo framework multidimensionale per valutare la competenza morale dei grandi modelli linguistici, rivelando che, sebbene superino gli umani in scenari etici predefiniti, falliscono significativamente nel discernere le informazioni rilevanti da quelle irrilevanti in contesti complessi, suggerendo che le attuali valutazioni sovrastimino le loro reali capacità di ragionamento morale.

Daniel Kilov, Caroline Hendy, Secil Yanik Guyot, Aaron J. Snoswell, Seth Lazar2026-03-09🤖 cs.AI

← Precedente Successivo →