cs.AI articoli | Gist.Science

Identifying Good and Bad Neurons for Task-Level Controllable LLMs

Il paper presenta NeuronLLM, un nuovo framework che identifica le "neuroni buoni" e "cattivi" nei Large Language Models tramite apprendimento contrastivo e il principio di antagonismo funzionale, superando i limiti dei metodi esistenti per un controllo più efficace a livello di compito.

Wenjie Li, Guansong Pang, Hezhe Qiao + 2 more2026-03-06💻 cs

Controlled LLM Training on Spectral Sphere

Il paper introduce l'ottimizzatore SSO, un algoritmo parallelo efficiente che impone vincoli spettrali rigorosi sia sui pesi che sugli aggiornamenti per garantire una stabilità e una convergenza superiori rispetto ad AdamW e Muon durante l'addestramento su larga scala di modelli linguistici di grandi dimensioni.

Tian Xie, Haoming Luo, Haoyu Tang + 9 more2026-03-06💻 cs

EmboTeam: Grounding LLM Reasoning into Reactive Behavior Trees via PDDL for Embodied Multi-Robot Collaboration

Il paper presenta EmboTeam, un nuovo framework per la collaborazione tra robot eterogenei che integra il ragionamento dei modelli linguistici di grandi dimensioni con la pianificazione classica PDDL e alberi comportamentali reattivi, dimostrando su un nuovo benchmark (MACE-THOR) un significativo miglioramento del successo nei compiti complessi rispetto alle soluzioni esistenti.

Haishan Zeng, Mengna Wang, Peng Li2026-03-06💻 cs

"What if she doesn't feel the same?" What Happens When We Ask AI for Relationship Advice

Lo studio rivela che gli utenti sono altamente soddisfatti dei consigli generati dall'IA sulle relazioni romantiche, e che tale esperienza positiva migliora significativamente la loro percezione di affidabilità, utilità e apertura verso questi sistemi.

Niva Manchanda, Akshata Kishore Moharir, Ratna Kandala2026-03-06💻 cs

ButterflyMoE: Sub-Linear Ternary Experts via Structured Butterfly Orbits

Il paper introduce ButterflyMoE, un metodo che riduce la memoria necessaria per i modelli Moe su dispositivi edge trasformando i pesi degli esperti in rotazioni geometriche di un substrato ternario condiviso, ottenendo una scalabilità sub-lineare e una riduzione di 150 volte della memoria con perdita di accuratezza trascurabile.

Aryan Karmore2026-03-06💻 cs

Yuan3.0 Ultra: A Trillion-Parameter Enterprise-Oriented MoE LLM

Il paper introduce Yuan3.0 Ultra, un modello linguistico open-source di grandi dimensioni basato su una miscela di esperti (MoE) con 1010 miliardi di parametri totali e 68,8 miliardi attivati, che utilizza il nuovo algoritmo LAEP per ottimizzare l'efficienza del pre-addestramento e raggiungere prestazioni leader in scenari aziendali.

YuanLab. ai, :, Shawn Wu + 25 more2026-03-06💻 cs

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Questo studio valuta la capacità dei modelli fondazionali di riconoscere i momenti cruciali nelle partite di calcio, rivelando che le prestazioni attuali sono vicine al caso a causa della loro dipendenza da una singola modalità e della scarsa capacità di sintesi multimodale, sottolineando la necessità di architetture modulari e procedure di training complementari.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

A Scalable Inter-edge Correlation Modeling in CopulaGNN for Link Sign Prediction

Il documento propone un metodo scalabile per la previsione del segno dei link nei grafi firmati che, estendendo CopulaGNN, modella le dipendenze statistiche tra gli archi tramite una matrice di correlazione a basso rango e una riformulazione della probabilità condizionata, garantendo così una convergenza lineare e prestazioni competitive con costi computazionali ridotti.

Jinkyu Sung, Myunggeum Jee, Joonseok Lee2026-03-06💻 cs

Mobility-Embedded POIs: Learning What A Place Is and How It Is Used from Human Movement

Il paper presenta ME-POIs, un framework che combina dati di mobilità umana su larga scala con embedding linguistici per apprendere rappresentazioni dei punti di interesse (POI) che catturano sia la loro identità che la loro funzione reale, superando le prestazioni dei modelli basati solo su testo o solo su mobilità in compiti di arricchimento cartografico.

Maria Despoina Siampou, Shushman Choudhury, Shang-Ling Hsu + 2 more2026-03-06💻 cs

PerfGuard: A Performance-Aware Agent for Visual Content Generation

Il paper presenta PerfGuard, un framework per agenti di generazione di contenuti visivi che supera i limiti delle attuali soluzioni modellando i confini di prestazione degli strumenti tramite meccanismi di selezione consapevole, aggiornamento adattivo delle preferenze e ottimizzazione della pianificazione allineata alle capacità, garantendo così maggiore affidabilità e precisione nell'esecuzione dei compiti complessi.

Zhipeng Chen, Zhongrui Zhang, Chao Zhang + 5 more2026-03-06💻 cs

YuriiFormer: A Suite of Nesterov-Accelerated Transformers

Il paper propone YuriiFormer, un framework variazionale che interpreta i layer dei transformer come iterazioni di un algoritmo di ottimizzazione, permettendo di progettare un'architettura accelerata con Nesterov che supera le prestazioni di un baseline nanoGPT su TinyStories e OpenWebText.

Aleksandr Zimin, Yury Polyanskiy, Philippe Rigollet2026-03-06🔢 math

Replacing Parameters with Preferences: Federated Alignment of Heterogeneous Vision-Language Models

Il paper propone MoR, un framework di allineamento federato basato su GRPO e un mix di modelli di ricompensa che, sfruttando le preferenze locali invece dei dati grezzi, risolve le sfide dell'eterogeneità nei modelli visione-linguaggio garantendo privacy e scalabilità.

Shule Lu, Yujing Wang, Hainan Zhang + 5 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Il paper presenta VIP, una strategia di allocazione adattiva dei rollout basata su un modello predittivo per minimizzare la varianza del gradiente e migliorare l'efficienza del campionamento nell'apprendimento per rinforzo online con ricompense verificabili.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

Towards Exploratory and Focused Manipulation with Bimanual Active Perception: A New Problem, Benchmark and Strategy

Questo lavoro introduce il nuovo problema della Manipolazione Esplorativa e Focalizzata (EFM), presentando il benchmark EFM-10 e una strategia di Percezione Attiva Bimanuale (BAP) che utilizza un braccio per la visione attiva e l'altro per la manipolazione, validati attraverso un dataset e apprendimento per imitazione.

Yuxin He, Ruihao Zhang, Tianao Shen + 2 more2026-03-06💻 cs

On the Non-Identifiability of Steering Vectors in Large Language Models

Questo studio dimostra che i vettori di guida nei grandi modelli linguistici sono fondamentalmente non identificabili, poiché perturbazioni ortogonali producono effetti comportamentali quasi equivalenti, rivelando così limiti intrinseci nell'interpretazione delle rappresentazioni interne basata esclusivamente sul testing comportamentale.

Sohan Venkatesh, Ashish Mahendran Kurapath2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Il paper introduce LatentChem, un'interfaccia di ragionamento latente che disaccoppia il calcolo chimico dalla generazione testuale, permettendo ai modelli di eseguire inferenze complesse direttamente nello spazio latente continuo e ottenendo prestazioni superiori e un significativo aumento della velocità rispetto ai metodi basati su Chain-of-Thought esplicito.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

Supervised Metric Regularization Through Alternating Optimization for Multi-Regime Physics-Informed Neural Networks

Il documento propone TAPINN, una rete neurale fisica informata che utilizza la regolarizzazione metrica supervisionata e l'ottimizzazione alternata per superare i limiti delle PINN standard nella modellazione di sistemi dinamici con transizioni di regime brusche, ottenendo una maggiore stabilità e precisione con un minor numero di parametri.

Enzo Nicolas Spotorno, Josafat Ribeiro Leal, Antonio Augusto Frohlich2026-03-06🔬 physics

Empirical Stability Analysis of Kolmogorov-Arnold Networks in Hard-Constrained Recurrent Physics-Informed Discovery

Lo studio empirico rivela che, nonostante l'interesse teorico, l'integrazione delle Kolmogorov-Arnold Networks (KAN) in architetture ricorrenti vincolate dalla fisica si dimostra meno efficace e stabile rispetto alle MLP tradizionali per la scoperta di termini residui in sistemi oscillatori complessi, a causa di fragilità iperparametriche e limitazioni nell'induzione di bias additivi per l'accoppiamento degli stati.

Enzo Nicolas Spotorno, Josafat Leal Filho, Antonio Augusto Medeiros Frohlich2026-03-06🔬 physics

Learning to Select Like Humans: Explainable Active Learning for Medical Imaging

Il paper propone un framework di apprendimento attivo guidato dall'interpretabilità che, integrando l'allineamento spaziale delle mappe di attenzione con le regioni di interesse definite dagli esperti, seleziona campioni di dati medici in modo più efficiente rispetto al campionamento casuale, migliorando sia le prestazioni predittive che la rilevanza clinica delle immagini.

Ifrat Ikhtear Uddin, Longwei Wang, Xiao Qin + 2 more2026-03-06💻 cs

Pailitao-VL: Unified Embedding and Reranker for Real-Time Multi-Modal Industrial Search

Il documento presenta Pailitao-VL, un sistema di ricerca multimodale industriale in tempo reale che supera le limitazioni delle soluzioni attuali grazie a un nuovo paradigma di embedding basato sul riconoscimento di ID assoluti e a un riordinatore generativo comparativo, ottenendo prestazioni all'avanguardia e un significativo impatto commerciale su Alibaba.

Lei Chen, Chen Ju, Xu Chen + 13 more2026-03-06💻 cs

← Precedente Successivo →