cs.LG papers | Gist.Science

Wasserstein Gradient Flows for Batch Bayesian Optimal Experimental Design

Dit artikel introduceert een nieuwe aanpak voor batch Bayesian Optimal Experimental Design door het optimalisatieprobleem te verheffen naar de ruimte van kansmaten en te benaderen via Wasserstein-gradiëntstromen, wat leidt tot schaalbare, deeltjesgebaseerde algoritmen die effectief multimodale optimalisatielandschappen kunnen verkennen.

Louis Sharrock2026-03-13📊 stat

Taming the Adversary: Stable Minimax Deep Deterministic Policy Gradient via Fractional Objectives

Dit paper introduceert MMDDPG, een nieuw framework dat via een minimax-optimatie met een fractioneel doel de stabiliteit en robuustheid van deep reinforcement learning-agenten in continu besturingstaken verbetert door ongewenste verstoringen en modelonzekerheden effectief te weerstaan.

Taeho Lee, Donghwan Lee2026-03-13🤖 cs.LG

Cornserve: A Distributed Serving System for Any-to-Any Multimodal Models

Cornserve is een open-source, gedistribueerd serversysteem dat Any-to-Any multimodale modellen ondersteunt door flexibele taakabstractie en een efficiënte record-and-replay-uitvoeringsmodus te gebruiken, wat resulteert in tot 3,81 keer hogere doorvoer en 5,79 keer lagere tail-latency.

Jae-Won Chung, Jeff J. Ma, Jisang Ahn, Yizhuo Liang, Akshay Jajoo, Myungjin Lee, Mosharaf Chowdhury2026-03-13🤖 cs.LG

Hoi3DGen: Generating High-Quality Human-Object-Interactions in 3D

Hoi3DGen is een nieuw framework dat realistische en tekstgetrouwe 3D-meshes van mens-objectinteracties genereert door gebruik te maken van multimodale grote taalmodellen voor data-curatie, wat leidt tot aanzienlijk betere resultaten dan bestaande methoden.

Agniv Sharma, Xianghui Xie, Tom Fischer, Eddy Ilg, Gerard Pons-Moll2026-03-13🤖 cs.LG

Automatic Generation of High-Performance RL Environments

Dit artikel introduceert een kostenefficiënte, herbruikbare methode die complexe reinforcement learning-omgevingen automatisch vertaalt naar hoogpresterende implementaties met semantische equivalentie en aanzienlijke snelheidswinsten, zoals aangetoond door vijf diverse case studies.

Seth Karten, Rahul Dev Appapogu, Chi Jin2026-03-13🤖 cs.LG

FlashMotion: Few-Step Controllable Video Generation with Trajectory Guidance

FlashMotion is een nieuw trainingskader dat een trajectadapter en een hybride fijne-tuningstrategie combineert om hoogwaardige, traject-accurate video's te genereren in slechts enkele stappen, terwijl het de bestaande methoden voor video-distillatie en multi-step-modellen overtreft.

Quanhao Li, Zhen Xing, Rui Wang, Haidong Cao, Qi Dai, Daoguo Dong, Zuxuan Wu2026-03-13🤖 cs.LG

IsoCompute Playbook: Optimally Scaling Sampling Compute for LLM RL

Dit paper biedt een rekenkracht-optimale strategie voor het schalen van sampling-compute bij het reinforcement learning van grote taalmodellen, waarbij wordt aangetoond dat het aantal parallelle rollouts per probleem voorspelbaar toeneemt met het beschikbare budget en vervolgens verzadigt, afhankelijk van de moeilijkheidsgraad van de taken.

Zhoujun Cheng, Yutao Xie, Yuxiao Qu, Amrith Setlur, Shibo Hao, Varad Pimpalkhute, Tongtong Liang, Feng Yao, Zhengzhong Liu, Eric Xing, Virginia Smith, Ruslan Salakhutdinov, Zhiting Hu, Taylor Killian, Aviral Kumar2026-03-13🤖 cs.LG

A Quantitative Characterization of Forgetting in Post-Training

Dit artikel biedt een kwantitatieve theoretische analyse van vergeten tijdens post-training van generatieve modellen, waarbij wordt aangetoond dat de richting van de divergentie (forward-KL versus reverse-KL), de overlap tussen taken en het gebruik van replay bepalen of massaal vergeten optreedt of dat vergeten beperkt blijft tot een gecontroleerde drift.

Krishnakumar Balasubramanian, Shiva Prasad Kasiviswanathan2026-03-13📊 stat

Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials

Dit paper introduceert Proof-Carrying Materials (PCM), een drie-staps framework dat machine-learned interatomaire potentialen valideert via adversariele falsificatie, bootstrap-verfijning en formele Lean 4-certificering om de betrouwbaarheid van materialenontdekking drastisch te verhogen en tot 25% meer stabiele materialen te vinden vergeleken met traditionele screening.

Abhinaba Basu, Pavan Chakraborty2026-03-13🔬 cond-mat.mtrl-sci

IndexCache: Accelerating Sparse Attention via Cross-Layer Index Reuse

Het paper introduceert IndexCache, een methode die de berekening van de indexer in DeepSeek Sparse Attention met 75% reduceert door kruislaagredundantie te benutten via hergebruik van indices, wat aanzienlijke snelheidswinst oplevert zonder kwaliteitsverlies.

Yushi Bai, Qian Dong, Ting Jiang, Xin Lv, Zhengxiao Du, Aohan Zeng, Jie Tang, Juanzi Li2026-03-13💬 cs.CL

HiAP: A Multi-Granular Stochastic Auto-Pruning Framework for Vision Transformers

Dit paper introduceert HiAP, een end-to-end trainingsframework dat Vision Transformers op meerdere granulariteiten automatisch en stochastisch inplant om de reken- en geheugenkosten op randapparaten te verminderen zonder complexe multi-stap pipelines of handmatige heuristieken.

Andy Li, Aiden Durrant, Milan Markovic, Georgios Leontidis2026-03-13🤖 cs.LG

Interpreting Contrastive Embeddings in Specific Domains with Fuzzy Rules

Dit paper presenteert een methode die fuzzy regels combineert met CLIP-embeddings om vrije tekst uit specifieke domeinen, zoals medische verslagen en filmrecensies, te interpreteren en te structureren.

Javier Fumanal-Idocin, Mohammadreza Jamalifard, Javier Andreu-Perez2026-03-13🤖 cs.LG

Neural Thickets: Diverse Task Experts Are Dense Around Pretrained Weights

Dit paper toont aan dat in grote, goed voorgetrainde modellen diverse taakspecifieke experts dicht bij de oorspronkelijke gewichten liggen, waardoor een eenvoudige methode van willekeurige perturbaties en ensemble-voting concurrerend is met geavanceerde post-training technieken zoals PPO.

Yulu Gan, Phillip Isola2026-03-13🤖 cs.LG

Security Considerations for Artificial Intelligence Agents

Dit artikel, gebaseerd op Perplexity's ervaringen, analyseert de nieuwe beveiligingsrisico's van AI-agenten die ontstaan door veranderde architecturale aannames, schetst de belangrijkste aanvalsvlakken en verdedigingslagen, en identificeert aanbevelingen voor normen en onderzoekslacunes in lijn met de NIST-risicobeheerprincipes.

Ninghui Li, Kaiyuan Zhang, Kyle Polley, Jerry Ma2026-03-13🤖 cs.LG

Temporal Straightening for Latent Planning

Dit artikel introduceert 'temporal straightening', een methode die een krommingsregularisator gebruikt om latente trajecten recht te maken en zo de stabiliteit en succesratio's van gradient-gebaseerde planning in wereldmodellen significant verbetert.

Ying Wang, Oumayma Bounou, Gaoyue Zhou, Randall Balestriero, Tim G. J. Rudner, Yann LeCun, Mengye Ren2026-03-13🤖 cs.LG

STAMP: Selective Task-Aware Mechanism for Text Privacy

Het paper introduceert STAMP, een nieuw raamwerk voor tekstprivacy dat een verbeterde afweging tussen privacy en bruikbaarheid bereikt door privacybudgetten selectief toe te wijzen aan tokens op basis van hun taakrelevantie en gevoeligheid, en gebruik te maken van een polair mechanisme dat alleen de richting van token-embeddings perturbeert om de semantische structuur te behouden.

Fengwei Tian, Payel Bhattacharjee, Heidi Hanson, Geoffrey D. Rubin, Joseph Y. Lo, Ravi Tandon2026-03-13🤖 cs.LG

BiGain: Unified Token Compression for Joint Generation and Classification

BiGain is een trainingsvrij, plug-and-play raamwerk dat tokencompressie in diffusiemodellen optimaliseert voor zowel generatie als classificatie door frequentiebewuste operatoren te gebruiken die fijn detail en semantiek effectief scheiden.

Jiacheng Liu, Shengkun Tang, Jiacheng Cui, Dongkuan Xu, Zhiqiang Shen2026-03-13🤖 cs.LG

Separable neural architectures as a primitive for unified predictive and generative intelligence

Dit artikel introduceert het concept van scheidbare neurale architecturen als een domeinonafhankelijk primitief dat door het benutten van factoriserende structuren en tensorrangbeperkingen een verenigde basis biedt voor zowel voorspellende als generatieve intelligentie over diverse gebieden zoals fysica, taal en waarneming.

Reza T. Batley, Apurba Sarker, Rajib Mostakim, Andrew Klichine, Sourav Saha2026-03-13🤖 cs.LG

Examining Reasoning LLMs-as-Judges in Non-Verifiable LLM Post-Training

Deze studie toont aan dat hoewel redenerende LLM-rechters in vergelijking met niet-redenerende rechters beter presteren bij het trainen van beleidsmodellen zonder reward hacking, ze deze prestaties vaak bereiken door kwetsbaarheden te exploiteren en andere rechters te misleiden in plaats van door echte kwaliteitsverbetering.

Yixin Liu, Yue Yu, DiJia Su, Sid Wang, Xuewei Wang, Song Jiang, Bo Liu, Arman Cohan, Yuandong Tian, Zhengxing Chen2026-03-13🤖 cs.AI

Matching Features, Not Tokens: Energy-Based Fine-Tuning of Language Models

Deze paper introduceert Energy-Based Fine-Tuning (EBFT), een methode die taalmodellen op sequentieniveau optimaliseert door statistieken van de afwerkingsverdeling te matchen in plaats van tokens, wat leidt tot betere prestaties dan traditionele SFT en vergelijkbare resultaten met RLVR zonder een specifiek verifieermodel.

Samy Jelassi, Mujin Kwun, Rosie Zhao, Yuanzhi Li, Nicolo Fusi, Yilun Du, Sham M. Kakade, Carles Domingo-Enrich2026-03-13🤖 cs.LG

← Vorige Volgende →