cs.AI articoli | Gist.Science

FLoC: Facility Location-Based Efficient Visual Token Compression for Long Video Understanding

Il paper presenta FLoC, un framework di compressione efficiente e senza addestramento per i token visivi nei modelli multimodali su video lunghi, che utilizza una funzione di localizzazione delle strutture per selezionare in modo rapido e ottimale un sottoinsieme rappresentativo di token, migliorando significativamente le prestazioni su vari benchmark.

Janghoon Cho, Jungsoo Lee, Munawar Hayat + 3 more2026-03-06💻 cs

CytoNet: A Foundation Model for the Human Cerebral Cortex at Cellular Resolution

Il paper presenta CytoNet, un modello fondazionale addestrato su un milione di patch di immagini istologiche che permette l'analisi scalabile della microarchitettura corticale umana e il collegamento tra struttura cellulare e organizzazione funzionale del cervello.

Christian Schiffer, Zeynep Boztoprak, Jan-Oliver Kropp + 5 more2026-03-06💻 cs

RefAgent: A Multi-agent LLM-based Framework for Automatic Software Refactoring

Il paper introduce RefAgent, un framework multi-agente basato su LLM per il refactoring automatico del software che, attraverso la pianificazione, l'esecuzione e l'iterazione autonoma, dimostra di migliorare significativamente la qualità del codice e la capacità di identificare opportunità di refactoring rispetto agli approcci tradizionali.

Khouloud Oueslati, Maxime Lamothe, Foutse Khomh2026-03-06💻 cs

CoRPO: Adding a Correctness Bias to GRPO Improves Generalization

Il paper propone CoRPO, una modifica all'ottimizzazione GRPO che introduce un bias di correttezza tramite l'uso di una soglia minima fissa per evitare la sovrastima dei vantaggi delle soluzioni errate, migliorando così la generalizzazione e il trasferimento delle capacità di ragionamento tra diversi domini.

Anisha Garg, Claire Zhang, Nishit Neema + 3 more2026-03-06💻 cs

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Il paper propone SASG-DA, un metodo di aumento dei dati basato sulla diffusione che, integrando una guida semantica e un campionamento consapevole della sparsità, genera campioni sEMG sia fedeli che diversificati per migliorare il riconoscimento dei gesti miopotenziali e la generalizzazione dei modelli.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Il paper presenta DAP, un pianificatore autoregressivo basato su token discreti che, con un budget di soli 160 milioni di parametri, ottiene prestazioni all'avanguardia nel benchmark NAVSIM prevedendo congiuntamente la semantica BEV e le traiettorie del veicolo, integrando inoltre un affinamento tramite apprendimento per rinforzo.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Il paper propone CCSD, un nuovo framework di auto-distillazione cross-modale che, attraverso un'architettura condivisa-specifica e strategie di distillazione gerarchica e progressiva, garantisce una segmentazione robusta e generalizzabile dei tumori cerebrali anche in presenza di modalità MRI mancanti.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Il lavoro propone FlashCache, un nuovo framework di compressione della cache KV per modelli linguistici multimodali che, guidato dall'analisi delle frequenze e dalla preservazione dei "KV outlier", riduce drasticamente l'uso di memoria e accelera il decoding mantenendo le prestazioni.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Il paper presenta MambaTAD, un modello innovativo per la rilevazione temporale delle azioni che integra modelli a spazio di stato strutturato con un modulo DMBSS e una testina di fusione globale per superare le limitazioni nella modellazione a lungo raggio e nel contesto visivo globale, ottenendo prestazioni superiori su diversi benchmark.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Il paper presenta "CycleChemist", un innovativo framework di machine learning dualistico che, sfruttando il nuovo dataset OPV2D, combina modelli predittivi per le proprietà elettroniche e delle prestazioni delle celle solari organiche con un generatore di molecole basato su MatGPT per accelerare la scoperta di materiali donatori e accettori ad alta efficienza.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning

Il paper presenta L4L, un framework centrato sul risolutore che integra agenti LLM specializzati e verifica formale tramite solutori SMT per garantire che le decisioni legali siano logicamente allineate alle leggi statutarie e forniscano giustificazioni verificabili.

Linze Chen, Yufan Cai, Zhe Hou + 1 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

Lo studio dimostra che i modelli linguistici possono essere addestrati a rilevare con alta precisione l'iniezione di vettori di steering, sfatando l'ipotesi che tale intervento rimanga impercettibile e rivelando che la capacità di rilevamento non garantisce affatto una maggiore robustezza comportamentale contro le manipolazioni.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Il paper introduce DPAC, un metodo di controllo avversariale per il campionamento diffusion che, proiettando i gradienti avversariali sullo spazio tangente definito dalla geometria del punteggio generativo, minimizza la divergenza KL nel percorso e preserva la qualità dei campioni riducendo la distanza di Wasserstein e il FID.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

Il paper propone Deep FlexQP, un risolutore di programmazione quadratica convessa basato su un'architettura di deep unfolding che garantisce la fattibilità e accelera significativamente la risoluzione di problemi di ottimizzazione non lineare, superando gli stati dell'arte in termini di velocità e successo in applicazioni come l'ottimizzazione di traiettorie e i filtri di sicurezza predittivi.

Alex Oshin, Rahul Vodeb Ghosh, Augustinos D. Saravanos + 1 more2026-03-06🔢 math

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Il paper introduce Guided Flow Policy (GFP), un nuovo approccio per l'apprendimento per rinforzo offline che combina un policy a flusso multi-step con un attore distillato per concentrarsi sull'imitazione selettiva delle azioni ad alto valore, ottenendo prestazioni all'avanguardia su numerosi benchmark.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Questo studio dimostra che l'aggiunta di un segnale di ricompensa per l'ordine canonico delle azioni, combinato con una ricompensa di compito durante il post-training con RL su indovinelli Zebra, migliora le prestazioni del modello rispetto all'ottimizzazione basata solo sul compito, guidando il modello verso traiettorie canoniche senza modificare i dati supervisionati o l'architettura.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Il paper propone un framework di apprendimento multi-perdita per il riconoscimento delle emozioni nel parlato che integra un metodo di mixup adattivo all'energia e un modulo di attenzione a livello di frame, ottenendo prestazioni all'avanguardia su quattro dataset principali.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

Questo articolo presenta un metodo di post-addestramento che rende l'attenzione dei transformer estremamente sparsa senza comprometterne le prestazioni, rivelando circuiti semplificati e migliorando l'interpretabilità meccanica dei modelli fino a 7 miliardi di parametri.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

ClinNoteAgents: An LLM Multi-Agent System for Predicting and Interpreting Heart Failure 30-Day Readmission from Clinical Notes

Il paper presenta ClinNoteAgents, un sistema multi-agente basato su LLM che trasforma le note cliniche non strutturate in rappresentazioni interpretabili per prevedere con alta accuratezza il rischio di riammissione ospedaliera a 30 giorni per insufficienza cardiaca, riducendo al contempo la dipendenza da dati strutturati e annotazioni manuali.

Rongjia Zhou, Chengzhuo Li, Carl Yang + 1 more2026-03-06💻 cs

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Il paper presenta InternGeometry, un agente basato su un modello linguistico potenziato da un meccanismo di memoria dinamica e da un'apprendimento per rinforzo a complessità crescente (CBRL), che risolve il 88% dei problemi di geometria delle Olimpiadi Internazionali di Matematica con una frazione minima dei dati di addestramento rispetto agli approcci precedenti, superando anche la media dei vincitori di medaglia d'oro.

Haiteng Zhao, Junhao Shen, Yiming Zhang + 7 more2026-03-06💻 cs

← Precedente Successivo →