cs.LG papers | Gist.Science

FuzzingRL: Reinforcement Fuzz-Testing for Revealing VLM Failures

Dit paper introduceert FuzzingRL, een methode die fuzzing en versterkingsfinetuning combineert om automatisch uitdagende vragen te genereren die de kwetsbaarheden van Vision Language Models onthullen en hun prestaties aanzienlijk verminderen.

Jiajun Xu, Jiageng Mao, Ang Qi, Weiduo Yuan, Alexander Romanus, Helen Xia, Vitor Campagnolo Guizilini, Yue Wang2026-03-10🤖 cs.LG

Switchable Activation Networks

Dit paper introduceert SWAN (Switchable Activation Networks), een raamwerk dat neurale eenheden van deterministische, input-afhankelijke binaire poorten voorziet om computationele efficiëntie te verhogen door adaptieve activatiepatronen te leren die zowel dynamische inferentie als compacte implementatie mogelijk maken.

Laha Ale, Ning Zhang, Scott A. King, Pingzhi Fan2026-03-10🤖 cs.LG

Khatri-Rao Clustering for Data Summarization

Dit paper introduceert het Khatri-Rao-clusteringparadigma, dat traditionele centroid-gebaseerde methoden zoals k-Means en deep clustering uitbreidt door centra te modelleren als interacties van protocentra, waardoor aanzienlijk beknoptere en even nauwkeurige datasamenvattingen worden gegenereerd.

Martino Ciaperoni, Collin Leiber, Aristides Gionis, Heikki Mannila2026-03-10🤖 cs.LG

Scale Dependent Data Duplication

Dit artikel toont aan dat data-duplicatie bij het voorbewerken van taalmodellen schaalafhankelijk is, waarbij semantische duplicaten bij grotere modellen steeds meer als exacte duplicaten fungeren en leiden tot verslechterende generalisatie en afwijkende schaalwetten.

Joshua Kazdan, Noam Levi, Rylan Schaeffer, Jessica Chudnovsky, Abhay Puri, Bo He, Mehmet Donmez, Sanmi Koyejo, David Donoho2026-03-10🤖 cs.LG

Know When You're Wrong: Aligning Confidence with Correctness for LLM Error Detection

Dit paper introduceert een genormaliseerde betrouwbaarheidsscore die fouten en hallucinaties in grote taalmodellen detecteert, en onthult dat supervisie fine-tuning (SFT) betere kalibratie biedt dan versterkingsleermethoden, terwijl het een post-RL SFT-strategie voorstelt om deze betrouwbaarheid te herstellen en efficiëntere retrieval-augmented generation (RAG) mogelijk te maken.

Xie Xiaohu, Liu Xiaohu, Yao Benjamin2026-03-10🤖 cs.LG

Structure-Aware Set Transformers: Temporal and Variable-Type Attention Biases for Asynchronous Clinical Time Series

Dit artikel introduceert STAR-Set, een structure-bewuste Set Transformer die asynchrone klinische tijdsreeksen effectiever verwerkt door zachte attention-biasen toe te voegen voor tijdslokaliteit en variabele-affiniteit, wat leidt tot superieure prestaties op diverse IC-predictietaken vergeleken met bestaande methoden.

Joohyung Lee, Kwanhyung Lee, Changhun Kim, Eunho Yang2026-03-10🤖 cs.LG

LegoNet: Memory Footprint Reduction Through Block Weight Clustering

Deze paper introduceert LegoNet, een compressietechniek die blokken van modelgewichten clusteren om het geheugengebruik van neurale netwerken tot wel 128 keer te verminderen zonder hertraining, architectuurwijzigingen of verlies aan nauwkeurigheid.

Joseph Bingham, Noah Green, Saman Zonouz2026-03-10🤖 cs.LG

Multi-Agent DRL for V2X Resource Allocation: Disentangling Challenges and Benchmarking Solutions

Deze paper introduceert een gestructureerd benchmarkkader met geïsoleerde interferentiegames en uitgebreide datasets om de specifieke uitdagingen van multi-agent deep reinforcement learning voor C-V2X-resourceallocatie te ontrafelen, waarbij blijkt dat robustheid en generalisatie over diverse voertuigtopologieën de grootste obstakels vormen.

Siyuan Wang, Lei Lei, Pranav Maheshwari, Sam Bellefeuille, Kan Zheng, Dusit Niyato2026-03-10🤖 cs.LG

Scaling Strategy, Not Compute: A Stand-Alone, Open-Source StarCraft II Benchmark for Accessible Reinforcement Learning Research

Deze paper introduceert de Two-Bridge Map Suite, een open-source benchmark voor StarCraft II die als tussenliggend niveau fungeert tussen de volledige game en mini-games, waardoor onderzoekers tactische vaardigheden kunnen bestuderen zonder de hoge rekenkosten van de volledige game.

Sourav Panda, Shreyash Kale, Tanmay Ambadkar, Abhinav Verma, Jonathan Dodge2026-03-10🤖 cs.LG

Valid Feature-Level Inference for Tabular Foundation Models via the Conditional Randomization Test

Dit artikel introduceert een praktische methode die de Conditionele Randomisatietest combineert met het tabulaire foundationmodel TabPFN om geldige p-waarden te genereren voor het testen van de relevantie van individuele kenmerken, zelfs in complexe, niet-lineaire en gecorreleerde scenario's zonder dat hertraining of parametrische aannames nodig zijn.

Mohamed Salem2026-03-10🤖 cs.LG

CapTrack: Multifaceted Evaluation of Forgetting in LLM Post-Training

Dit paper introduceert CapTrack, een kadersysteem dat vergeten in LLMs na post-training definieert als systematische gedragsdrift in plaats van alleen feitelijke kennisverlies, en via een grote empirische studie aantoont dat instructie-finetuning de grootste drift veroorzaakt terwijl voorkeursoptimalisatie conservatiever is.

Lukas Thede, Stefan Winzeck, Zeynep Akata, Jonathan Richard Schwarz2026-03-10🤖 cs.LG

A Novel Approach for Testing Water Safety Using Deep Learning Inference of Microscopic Images of Unincubated Water Samples

Dit paper introduceert DeepScope, een diep-leringsysteem dat microscopische beelden van niet-geïncubeerde watermonsters analyseert om fecale vervuiling binnen seconden met 93% nauwkeurigheid te detecteren, waardoor de testtijd met meer dan 98% wordt verkort en de kosten dalen tot $0,44 per test.

Sanjay Srinivasan2026-03-10🤖 cs.LG

Consensus is Not Verification: Why Crowd Wisdom Strategies Fail for LLM Truthfulness

Dit paper concludeert dat het vermeerderen van inferentieberekeningen via crowd-wisdom-strategieën de waarheidsgetrouwheid van taalmodellen in niet-verifieerbare domeinen niet verbetert, omdat de fouten van modellen sterk gecorreleerd zijn en aggregatie vaak gedeelde misvattingen versterkt in plaats van de waarheid te onthullen.

Yegor Denisov-Blanch, Joshua Kazdan, Jessica Chudnovsky, Rylan Schaeffer, Sheng Guan, Soji Adeshina, Sanmi Koyejo2026-03-10🤖 cs.LG

OptiRoulette Optimizer: A New Stochastic Meta-Optimizer for up to 5.3x Faster Convergence

Dit paper introduceert OptiRoulette, een nieuwe stochastische meta-optimizer die tijdens het trainen dynamisch update-regels selecteert en hiermee de convergentie tot 5,3 keer versnelt en de testnauwkeurigheid op diverse beeldclassificatiedatasets aanzienlijk verbetert ten opzichte van de standaard AdamW-baseline.

Stamatis Mastromichalakis2026-03-10🤖 cs.LG

Correlation Analysis of Generative Models

Dit paper introduceert een uniforme representatie voor generatieve modellen zoals diffusion en flow matching, en toont aan dat een soms zwakke correlatie tussen ruis en het voorspelde doel de leerprocessen kan beïnvloeden.

Zhengguo Li, Chaobing Zheng, Wei Wang2026-03-10🤖 cs.LG

Annealed Co-Generation: Disentangling Variables via Progressive Pairwise Modeling

Dit paper introduceert het Annealed Co-Generation (ACG)-framework, dat multivariate co-generatie in wetenschappelijke toepassingen efficiënter maakt door complexe gezamenlijke modellering te vervangen door een samenstellende reeks van laag-dimensionale, paarsgewijze diffusiemodellen die via een drie-fase-annealingsproces worden gekoppeld.

Hantao Zhang, Jieke Wu, Mingda Xu, Xiao Hu, Yingxuan You, Pascal Fua2026-03-10🤖 cs.LG

RACER: Risk-Aware Calibrated Efficient Routing for Large Language Models

Dit paper introduceert RACER, een risicobewuste en gekalibreerde routeringsmethode voor grote taalmodellen die query's naar sets van modellen routeert om de misroutingrisico's te beheersen en de downstream-nauwkeurigheid te verbeteren zonder afhankelijk te zijn van specifieke verdelingsaannames.

Sai Hao, Hao Zeng, Hongxin Wei, Bingyi Jing2026-03-10🤖 cs.LG

Evo: Autoregressive-Diffusion Large Language Models with Evolving Balance

Dit paper introduceert Evo, een nieuw type groot taalmodel dat autoregressieve en diffusiemethoden verenigt in een continu evolutionair raamwerk om zowel hoge generatiekwaliteit als snelle inferentie te bereiken.

Junde Wu, Minhao Hu, Jiayuan Zhu, Yuyuan Liu, Tianyi Zhang, Kang Li, Jingkun Chen, Jiazhen Pan, Min Xu, Yueming Jin2026-03-10🤖 cs.LG

Distilling and Adapting: A Topology-Aware Framework for Zero-Shot Interaction Prediction in Multiplex Biological Networks

Deze paper introduceert een nieuw topology-bewust kader dat kennisdistillatie en contextbewuste representatielering combineert om zero-shot interactievoorspelling in multiplex biologische netwerken te verbeteren, waardoor de beperkingen van bestaande methoden worden overwonnen en de ontdekking van nieuwe biologische interacties voor gepersonaliseerde therapieën wordt bevorderd.

Alana Deng, Sugitha Janarthanan, Yan Sun, Zihao Jing, Pingzhao Hu2026-03-10🤖 cs.LG

Not all tokens are needed(NAT): token efficient reinforcement learning

Het artikel introduceert NAT (Not All Tokens Are Needed), een framework dat de trainingskosten van reinforcement learning voor lange redeneringen verlaagt door alleen een subset van tokens te updaten via Horvitz-Thompson-herschaling, terwijl het prestatieniveau van volledige token-training behouden blijft.

Hejian Sang, Yuanda Xu, Zhengze Zhou, Ran He, Zhipeng Wang2026-03-10🤖 cs.LG

← Vorige Volgende →