cs.AI articoli | Gist.Science

RePo: Language Models with Context Re-Positioning

Il paper presenta RePo, un nuovo meccanismo che riduce il carico cognitivo estraneo nei modelli linguistici di grandi dimensioni riorganizzando dinamicamente le posizioni dei token per migliorare l'apprendimento in contesto, specialmente in scenari con contesti rumorosi, dati strutturati e lunghe sequenze.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Il paper presenta MCP-SafetyBench, un benchmark completo basato su server MCP reali che valuta la sicurezza dei modelli linguistici di grandi dimensioni in scenari multi-turno e multi-dominio, rivelando che tutti i modelli testati rimangono vulnerabili agli attacchi MCP e sottolineando l'urgenza di sviluppare difese più robuste.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

FluenceFormer: Transformer-Driven Multi-Beam Fluence Map Regression for Radiotherapy Planning

Il paper introduce FluenceFormer, un framework basato su trasformatori che risolve il problema inverso della pianificazione radioterapica attraverso una regressione a due stadi e una funzione di perdita fisica, ottenendo risultati superiori rispetto ai metodi convenzionali nella predizione delle mappe di fluenza.

Ujunwa Mgboh, Rafi Ibn Sultan, Joshua Kim + 2 more2026-03-06💻 cs

Yukthi Opus: A Multi-Chain Hybrid Metaheuristic for Large-Scale NP-Hard Optimization

Il documento presenta Yukthi Opus, un metaeuristico ibrido multi-catena che integra MCMC, ricerca locale e ricottura simulata per ottimizzare problemi NP-difficili su larga scala rispettando vincoli di budget di valutazione.

SB Danush Vikraman, Hannah Abigail, Prasanna Kesavraj + 1 more2026-03-06💻 cs

When Do Tools and Planning Help Large Language Models Think? A Cost- and Latency-Aware Benchmark

Questo studio dimostra che l'uso di strumenti esterni e pianificazione durante l'inferenza migliora significativamente l'accuratezza dei grandi modelli linguistici in compiti di ragionamento strutturato come Event-QA, ma comporta costi e latenze elevati che spesso non giustificano i benefici in scenari più semplici come la generazione di risposte persuasive, evidenziando la necessità di scelte strategiche basate su costi e complessità del compito.

Subha Ghoshal, Ali Al-Bustami2026-03-06💻 cs

Interleaved Tool-Call Reasoning for Protein Function Understanding

Il paper introduce PFUA, un agente di ragionamento potenziato da strumenti che supera i limiti del ragionamento testuale puro nella previsione della funzione delle proteine integrando strumenti computazionali e conoscenze biologiche esterne, ottenendo un miglioramento delle prestazioni medio del 103% su quattro benchmark.

Chuanliu Fan, Zicheng Ma, Huanran Meng + 6 more2026-03-06💻 cs

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Il paper presenta NeuronLLM, un nuovo framework che identifica le "neuroni buoni" e "cattivi" nei Large Language Models tramite apprendimento contrastivo e il principio di antagonismo funzionale, superando i limiti dei metodi esistenti per un controllo più efficace a livello di compito.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Il paper introduce l'ottimizzatore SSO, un algoritmo parallelo efficiente che impone vincoli spettrali rigorosi sia sui pesi che sugli aggiornamenti per garantire una stabilità e una convergenza superiori rispetto ad AdamW e Muon durante l'addestramento su larga scala di modelli linguistici di grandi dimensioni.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Il paper presenta EmboTeam, un nuovo framework per la collaborazione tra robot eterogenei che integra il ragionamento dei modelli linguistici di grandi dimensioni con la pianificazione classica PDDL e alberi comportamentali reattivi, dimostrando su un nuovo benchmark (MACE-THOR) un significativo miglioramento del successo nei compiti complessi rispetto alle soluzioni esistenti.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

"What if she doesn't feel the same?" What Happens When We Ask AI for Relationship Advice

Lo studio rivela che gli utenti sono altamente soddisfatti dei consigli generati dall'IA sulle relazioni romantiche, e che tale esperienza positiva migliora significativamente la loro percezione di affidabilità, utilità e apertura verso questi sistemi.

Niva Manchanda, Akshata Kishore Moharir, Ratna Kandala2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

Il paper introduce ButterflyMoE, un metodo che riduce la memoria necessaria per i modelli Moe su dispositivi edge trasformando i pesi degli esperti in rotazioni geometriche di un substrato ternario condiviso, ottenendo una scalabilità sub-lineare e una riduzione di 150 volte della memoria con perdita di accuratezza trascurabile.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Il paper introduce Yuan3.0 Ultra, un modello linguistico open-source di grandi dimensioni basato su una miscela di esperti (MoE) con 1010 miliardi di parametri totali e 68,8 miliardi attivati, che utilizza il nuovo algoritmo LAEP per ottimizzare l'efficienza del pre-addestramento e raggiungere prestazioni leader in scenari aziendali.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Questo studio valuta la capacità dei modelli fondazionali di riconoscere i momenti cruciali nelle partite di calcio, rivelando che le prestazioni attuali sono vicine al caso a causa della loro dipendenza da una singola modalità e della scarsa capacità di sintesi multimodale, sottolineando la necessità di architetture modulari e procedure di training complementari.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Il documento propone un metodo scalabile per la previsione del segno dei link nei grafi firmati che, estendendo CopulaGNN, modella le dipendenze statistiche tra gli archi tramite una matrice di correlazione a basso rango e una riformulazione della probabilità condizionata, garantendo così una convergenza lineare e prestazioni competitive con costi computazionali ridotti.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Il paper presenta ME-POIs, un framework che combina dati di mobilità umana su larga scala con embedding linguistici per apprendere rappresentazioni dei punti di interesse (POI) che catturano sia la loro identità che la loro funzione reale, superando le prestazioni dei modelli basati solo su testo o solo su mobilità in compiti di arricchimento cartografico.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

PerfGuard: A Performance-Aware Agent for Visual Content Generation

Il paper presenta PerfGuard, un framework per agenti di generazione di contenuti visivi che supera i limiti delle attuali soluzioni modellando i confini di prestazione degli strumenti tramite meccanismi di selezione consapevole, aggiornamento adattivo delle preferenze e ottimizzazione della pianificazione allineata alle capacità, garantendo così maggiore affidabilità e precisione nell'esecuzione dei compiti complessi.

Zhipeng Chen, Zhongrui Zhang, Chao Zhang + 5 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Il paper propone YuriiFormer, un framework variazionale che interpreta i layer dei transformer come iterazioni di un algoritmo di ottimizzazione, permettendo di progettare un'architettura accelerata con Nesterov che supera le prestazioni di un baseline nanoGPT su TinyStories e OpenWebText.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Il paper propone MoR, un framework di allineamento federato basato su GRPO e un mix di modelli di ricompensa che, sfruttando le preferenze locali invece dei dati grezzi, risolve le sfide dell'eterogeneità nei modelli visione-linguaggio garantendo privacy e scalabilità.

Shule Lu, Yujing Wang, Hainan Zhang + 5 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Il paper presenta VIP, una strategia di allocazione adattiva dei rollout basata su un modello predittivo per minimizzare la varianza del gradiente e migliorare l'efficienza del campionamento nell'apprendimento per rinforzo online con ricompense verificabili.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

Questo lavoro introduce il nuovo problema della Manipolazione Esplorativa e Focalizzata (EFM), presentando il benchmark EFM-10 e una strategia di Percezione Attiva Bimanuale (BAP) che utilizza un braccio per la visione attiva e l'altro per la manipolazione, validati attraverso un dataset e apprendimento per imitazione.

Yuxin He, Ruihao Zhang, Tianao Shen + 2 more2026-03-06💻 cs

← Precedente Successivo →