cs.LG papers | Gist.Science

MJ1: Multimodal Judgment via Grounded Verification

Het artikel introduceert MJ1, een multimodale beoordelaar met 3 miljard actieve parameters die door middel van versterkingslering en een gestructureerde keten voor visuele verificatie niet alleen de nauwkeurigheid op benchmarks zoals MMRB2 aanzienlijk verbetert, maar ook grotere modellen zoals Gemini-3-Pro overtreft.

Bhavesh Kumar, Dylan Feng, Leonard Tang2026-03-10🤖 cs.LG

SmartThinker: Progressive Chain-of-Thought Length Calibration for Efficient Large Language Model Reasoning

SmartThinker is een nieuwe GRPO-gebaseerde methode die de redeneerlengte van grote taalmodellen dynamisch kalibreert om overbodige tekst te verminderen zonder de nauwkeurigheid te schaden, wat resulteert in aanzienlijke verkorting van de output en verbeterde prestaties op complexe taken.

Chenzhi Hu, Qinzhe Hu, Yuhang Xu, Junyi Chen, Ruijie Wang, Shengzhong Liu, Jianxin Li, Fan Wu, Guihai Chen2026-03-10🤖 cs.LG

Amortizing Maximum Inner Product Search with Learned Support Functions

Deze paper introduceert een geleerde aanpak voor het versnellen van Maximum Inner Product Search (MIPS) door het gebruik van convexe neurale netwerken (SupportNet en KeyNet) om de ondersteuningsfunctie van een dataset te benaderen en zo de optimale sleutel direct te voorspellen voor een gegeven query.

Theo X. Olausson, João Monteiro, Michal Klein, Marco Cuturi2026-03-10🤖 cs.LG

FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning

FedMomentum is een nieuw framework voor federatief fine-tunen van grote taalmodellen met LoRA dat door middel van SVD de trainingsmomentum behoudt en zo de convergentiesnelheid en nauwkeurigheid verbetert ten opzichte van bestaande methoden.

Peishen Yan, Yang Hua, Hao Wang, Jiaru Zhang, Xiaoyu Wu, Tao Song, Haibing Guan2026-03-10🤖 cs.LG

Capacity-Aware Mixture Law Enables Efficient LLM Data Optimization

Dit paper introduceert CAMEL, een rekenkracht-efficiënte methode die een capaciteitsbewuste mengwet en een voorspellingswet voor benchmarkprestaties gebruikt om de data-mengsels voor grote taalmodellen te optimaliseren, wat leidt tot een halvering van de optimalisatiekosten en een verbetering van de downstream-prestaties.

Jingwei Li, Xinran Gu, Jingzhao Zhang2026-03-10🤖 cs.LG

GCGNet: Graph-Consistent Generative Network for Time Series Forecasting with Exogenous Variables

In dit paper wordt GCGNet voorgesteld, een graf-consistente generatieve netwerkarchitectuur die door middel van variatiegeneratie, grafstructuur-afstemming en grafverfijning robuuste en nauwkeurige tijdreeksvoorspellingen met exogene variabelen mogelijk maakt door zowel temporale als kanaalcorrelaties gezamenlijk te modelleren.

Zhengyu Li, Xiangfei Qiu, Yuhan Zhu, Xingjian Wu, Jilin Hu, Chenjuan Guo, Bin Yang2026-03-10🤖 cs.LG

CDRRM: Contrast-Driven Rubric Generation for Reliable and Interpretable Reward Modeling

Dit paper introduceert CDRRM, een nieuw framework dat gebruikmaakt van een contrast-gebaseerde aanpak om interpreteerbare en betrouwbare rubrieken te genereren voor beloningsmodellen, waardoor de afhankelijkheid van dure expertannotaties wordt verminderd en de prestaties op diverse benchmarks worden verbeterd met slechts een beperkt aantal trainingsvoorbeelden.

Dengcan Liu, Fengkai Yang, Xiaohan Wang, Shurui Yan, Jiajun Chai, Jiahao Li, Yikun Ban, Zhendong Mao, Wei Lin, Guojun Yin2026-03-10🤖 cs.LG

Stabilized Fine-Tuning with LoRA in Federated Learning: Mitigating the Side Effect of Client Size and Rank via the Scaling Factor

Dit artikel introduceert SFed-LoRA, een framework dat de instabiliteit van LoRA in federatief leren door clientgrootte en rang veroorzaakt, corrigeert door een optimale schalingsfactor af te leiden die de aggregatiefout minimaliseert en zo stabielere en snellere convergentie mogelijk maakt zonder de modelarchitectuur te wijzigen.

Jiayu Huang, Xiaohu Wu, Tiantian He, Qicheng Lao2026-03-10🤖 cs.LG

Adversarial Domain Adaptation Enables Knowledge Transfer Across Heterogeneous RNA-Seq Datasets

Deze studie presenteert een diep-leringsframework voor adversariaal domeinadaptatie dat effectieve kennisoverdracht tussen heterogene RNA-seq-datasets mogelijk maakt, waardoor de nauwkeurigheid van kanker- en weefselclassificatie aanzienlijk verbetert, vooral in scenario's met beperkte data.

Kevin Dradjat, Massinissa Hamidi, Blaise Hanczar2026-03-10🤖 cs.LG

Deterministic Differentiable Structured Pruning for Large Language Models

Dit paper introduceert Deterministic Differentiable Pruning (DDP), een methode die stochastische elementen uit de gestructureerde pruning van grote taalmodellen verwijdert door een deterministische zachte surrogate te optimaliseren, wat leidt tot snellere convergentie, minder discrepantie tussen training en test, en betere prestaties bij hoge sparsiteit.

Weiyu Huang, Pengle Zhang, Xiaolu Zhang, Jun Zhou, Jun Zhu, Jianfei Chen2026-03-10🤖 cs.LG

Hybrid Quantum Neural Network for Multivariate Clinical Time Series Forecasting

Dit artikel introduceert een hybride quantum-klassiek neurale netwerk dat variabele quantumkringen integreert in een GRU-architectuur voor het nauwkeurig en robuust voorspellen van multivariate fysiologische tijdsreeksen in klinische settings.

Irene Iele, Floriano Caprio, Paolo Soda, Matteo Tortora2026-03-10🤖 cs.LG

Tiny Autoregressive Recursive Models

Hoewel het autoregressieve TRM-model geen betrouwbare prestatieverbeteringen bood ten opzichte van standaardmodellen, tonen de resultaten aan dat twee-staps verfijningsmechanismen in het algemeen veelbelovend zijn voor kleine autoregressieve taken.

Paulius Rauba, Claudio Fanconi, Mihaela van der Schaar2026-03-10🤖 cs.LG

EAGLE-Pangu: Accelerator-Safe Tree Speculative Decoding on Ascend NPUs

Dit paper introduceert EAGLE-Pangu, een reproduceerbaar systeem dat boomgestructureerde speculatieve decoding op Ascend NPUs veilig implementeert voor Pangu-modellen, waardoor de doorvoersnelheid aanzienlijk wordt verbeterd ten opzichte van traditionele methoden.

Chang Han, Yijie Hu, Jingling Liu2026-03-10🤖 cs.LG

DC-W2S: Dual-Consensus Weak-to-Strong Training for Reliable Process Reward Modeling in Biological Reasoning

Dit paper introduceert het DC-W2S-framework, dat door middel van dubbele consensus-metingen en een slimme trainingscurriculum betrouwbare Procesbeloningsmodellen voor biologisch redeneren mogelijk maakt met behulp van ruwe, zwakke supervisie zonder de noodzaak van uitgebreide expertannotatie.

Chi-Min Chan, Ehsan Hajiramezanali, Xiner Li, Edward De Brouwer, Carl Edwards, Wei Xue, Sirui Han, Yike Guo, Gabriele Scalia2026-03-10🤖 cs.LG

Invisible Safety Threat: Malicious Finetuning for LLM via Steganography

Dit paper schetst een nieuwe veiligheidsbedreiging waarbij een LLM via steganografie en finetuning schadelijke inhoud kan genereren die voor menselijke waarnemers en automatische filters onzichtbaar blijft, terwijl de interactie er volledig onschuldig uitziet.

Guangnian Wan, Xinyin Ma, Gongfan Fang, Xinchao Wang2026-03-10🤖 cs.LG

Tau-BNO: Brain Neural Operator for Tau Transport Model

Deze studie introduceert Tau-BNO, een snel en nauwkeurig neuronaal operator-surrogaatmodel dat de computationele barrières van het Network Transport Model voor tau-transport overbrugt door microscopische reactiekinetiek en anisotrope netwerkvervoer te simuleren, waardoor parameterinferentie en mechanistisch onderzoek in Alzheimer-onderzoek aanzienlijk worden versneld.

Nuutti Barron, Heng Rao, Urmi Saha, Yu Gu, Zhenghao Liu, Ge Yu, Defu Yang, Ashish Raj, Minghan Chen2026-03-10🤖 cs.LG

Model-based Offline RL via Robust Value-Aware Model Learning with Implicitly Differentiable Adaptive Weighting

Dit paper introduceert ROMI, een nieuwe methode voor model-based offline versterkend leren die de instabiliteit en overmatige conservatisme van RAMBO oplost door robuuste waarde-bewuste modelleertechnieken en impliciet differentieerbare adaptieve weging te combineren voor betere prestaties op uitdagingrijke datasets.

Zhongjian Qiao, Jiafei Lyu, Boxiang Lyu, Yao Shu, Siyang Gao, Shuang Qiu2026-03-10🤖 cs.LG

SaiVLA-0: Cerebrum--Pons--Cerebellum Tripartite Architecture for Compute-Aware Vision-Language-Action

Dit paper introduceert SaiVLA-0, een neurobiologisch geïnspireerd Vision-Language-Action-model met een driepartite architectuur (Cerebrum, Pons, Cerebellum) die berekeningsbewust is, modulaire upgrades mogelijk maakt en aanzienlijke verbeteringen in trainingssnelheid en succespercentages toont.

Xiang Shi, Wenlong Huang, Menglin Zou, Xinhai Sun2026-03-10🤖 cs.LG

Foley-Flow: Coordinated Video-to-Audio Generation with Masked Audio-Visual Alignment and Dynamic Conditional Flows

FoleyFlow introduceert een gecoördineerde video-naar-audio generatiemethode die via gemaskeerde audio-visuele uitlijning en dynamische conditionele flows zowel semantische als ritmische synchronisatie tussen video en gegenereerde audio verbetert.

Shentong Mo, Yibing Song2026-03-10🤖 cs.LG

TRIAGE: Type-Routed Interventions via Aleatoric-Epistemic Gated Estimation in Robotic Manipulation and Adaptive Perception -- Don't Treat All Uncertainty the Same

Dit paper introduceert TRIAGE, een lichtgewicht framework dat onzekerheid in robotmanipulatie en adaptieve perceptie ontleedt in aleatorische en epistemische componenten om gerichte correcties te triggeren, wat leidt tot aanzienlijke verbeteringen in taaksucces en rekenefficiëntie.

Divake Kumar, Sina Tayebati, Devashri Naik, Patrick Poggi, Amanda Sofie Rios, Nilesh Ahuja, Amit Ranjan Trivedi2026-03-10🤖 cs.LG

← Vorige Volgende →