cs.LG papers | Gist.Science

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Dit paper introduceert LOOP, een nieuwe versterkingsleermethode voor het fijnafstemmen van tekst-naar-beeld diffusiemodellen die de steekproefefficiëntie en stabiliteit van PPO combineert met de variansiereductietechnieken van REINFORCE om een betere balans tussen efficiëntie en prestaties te bereiken.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Dit paper introduceert OrthoGrad, een nieuwe methode voor machine unlearning die door het projecteren van de gradiënt van het te vergeten dataset op de orthogonale ruimte van de behouden dataset, effectieve verwijdering van ongewenste informatie mogelijk maakt zonder de prestaties op de resterende data te schaden, zelfs wanneer slechts een klein deel van de trainingset beschikbaar is.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

In deze studie wordt GlucoLens, een uitlegbare machine learning-oplossing die draagbare sensoren, voedsel- en activiteitsdata combineert met grote taalmodellen, gepresenteerd om postprandiale hyperglykemie bij volwassenen te voorspellen en via contrafactuele verklaringen behandelingspaden voor een gezonde levensstijl te ontdekken.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Dit paper introduceert IMPACT, een nieuw bewegingsplanningskader dat Vision-Language Models gebruikt om veilige contacttrajecten in rommelige omgevingen te genereren door objecteigenschappen te analyseren en een anisotrope kostenkaart te combineren met een contactbewuste A*-planner.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Dit artikel introduceert 'smooth prototype equivalences' (SPE), een raamwerk dat gebruikmaakt van invertibele neurale netwerken om de lange-termijngedragingen van dynamische systemen te karakteriseren en te classificeren op basis van beperkte, ruisachtige metingen, waardoor invariante structuren en drijvende genen in complexe biologische systemen zonder vergelijkingen kunnen worden geïdentificeerd.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Dit paper introduceert MUSS, een nieuwe multilevel-methode voor relevante en diverse subsetselectie die in vergelijking met bestaande technieken zoals MMR en DGDS aanzienlijk sneller is, betere prestaties levert in toepassingen zoals aanbevelingssystemen en RAG, en theoretisch wordt onderbouwd door een constante factor-benadering van het optimale doel.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Deze paper introduceert EDU-PRM, een nieuw trainingsframework dat gebruikmaakt van entropie-gedreven onzekerheid om complexe redeneerstappen automatisch te segmenteren zonder dure handmatige annotaties, waardoor het op het ProcessBench-benchmark presteert met slechts 1,5% van de trainingsdata en tegelijkertijd de nauwkeurigheid verhoogt terwijl het tokenverbruik met 32% daalt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Deze studie verbetert de voorspelling van metabool syndroom door een nieuw hybride framework genaamd MetaBoost te introduceren dat geavanceerde databalanceringstechnieken combineert met contrafactuele analyse om zowel de nauwkeurigheid van machine learning-modellen te verhogen als klinisch relevante inzichten te bieden over risicofactoren zoals bloedsuiker en triglyceriden.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Dit onderzoek toont aan dat het combineren van Large Language Models voor het extraheren van cognitieve en taalkundige kenmerken met boomgebaseerde machine learning-algoritmen een nauwkeuriger methode biedt om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te voorspellen dan directe schattingen door LLM's, waardoor de afhankelijkheid van uitgebreide veldtests kan worden verminderd.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Dit paper introduceert een vision-based reinforcement learning-agent die uitsluitend op camerabeelden en aan boord sensoren vertrouwt om in Gran Turismo 7 kampioensniveau-raceprestaties te behalen, waarmee voor het eerst supermenselijke prestaties worden geleverd zonder externe localisatie.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Deze paper introduceert een lineair responsframework dat een klein taalmodel als een Bayesiaans statistisch mechanisch systeem behandelt, waarbij susceptibiliteiten worden gebruikt om functionele modules zoals multigram- en inductiehoofden te identificeren en te attribueren.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Dit paper introduceert HetGL2R, een heterogeen grafiekleringskader dat oorsprong-bestemmingstromen en routes integreert via een tripartiete grafiek en een Transformer-architectuur om de rangschikking van kritieke wegsegmenten significant te verbeteren ten opzichte van bestaande methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Dit paper biedt een uitgebreid overzicht van de evolutie van LLM-reasoning naar autonome AI-agenten door een gestandaardiseerde taxonomie van benchmarks, een analyse van frameworks, een inventarisatie van real-world toepassingen en een evaluatie van samenwerkingsprotocollen te presenteren, gevolgd door aanbevelingen voor toekomstig onderzoek.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Dit paper introduceert StablePCA, een distributioneel robuust raamwerk voor het leren van gedeelde representaties uit multi-bron data, waarbij een convex relaxatie en een efficiënt Mirror-Prox-algoritme worden ontwikkeld om de uitdagingen van de niet-convexe rangbeperking te overwinnen met gegarandeerde convergentie.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dit paper introduceert een geïndividualiseerd offline versterkingsleerframework voor heterogene populaties, genaamd P4L, dat via een model met individuele latente variabelen en een gepenaliseerde pessimistische aanpak een snelle regret-convergentie garandeert en superieure prestaties laat zien ten opzichte van bestaande methoden.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

Distilled Circuits: A Mechanistic Study of Internal Restructuring in Knowledge Distillation

Dit onderzoek toont aan dat kennisdistillatie, hoewel het de output van grotere modellen behoudt, leidt tot significante interne herschikkingen waarbij studentenonderdelen worden gecomprimeerd en herorganiseerd, wat gevolgen heeft voor de robuustheid en generalisatie van deze modellen.

Reilly Haskins, Benjamin Adams2026-03-10🤖 cs.LG

Ready2Unlearn: A Learning-Time Approach for Preparing Models with Future Unlearning Readiness

Dit paper introduceert Ready2Unlearn, een proactieve trainingsmethode die machine learning-modellen voorbereidt op toekomstige verwijderingsverzoeken door meta-learning-principes toe te passen, waardoor het unlearning-proces later efficiënter en principieel verloopt.

Hanyu Duan, Yi Yang, Ahmed Abbasi, Kar Yan Tam2026-03-10🤖 cs.LG

EgoDex: Learning Dexterous Manipulation from Large-Scale Egocentric Video

Dit paper introduceert EgoDex, het grootste en meest diverse dataset tot nu toe van dexterous manipulatie met 829 uur egocentrisch video en gepaarde 3D-handtracking, verzameld met Apple Vision Pro om imitatieleer voor robotica en computerzicht te bevorderen.

Ryan Hoque, Peide Huang, David J. Yoon, Mouli Sivapurapu, Jian Zhang2026-03-10🤖 cs.LG

FreeKV: Boosting KV Cache Retrieval for Efficient LLM Inference

FreeKV is een trainingsvrije, co-geoptimaliseerde framework dat de efficiëntie van KV-cache-retrieval voor grote taalmodellen aanzienlijk verbetert door speculatieve retrieval en hybride geheugenlayouts te combineren, waardoor een snelheidswinst tot 13x wordt bereikt met minimale nauwkeurigheidsverlies.

Guangda Liu, Chengwei Li, Zhenyu Ning, Jing Lin, Yiwu Yao, Danning Ke, Minyi Guo, Jieru Zhao2026-03-10🤖 cs.LG

Online Decision-Focused Learning

Deze paper introduceert twee nieuwe online algoritmen voor decision-focused learning in dynamische omgevingen, die door middel van regularisatie en perturbatietechnieken de uitdagingen van niet-convexe en niet-differentieerbare doelfuncties overwinnen en voor het eerst wiskundige prestatiegaranties bieden.

Aymeric Capitaine, Maxime Haddouche, Eric Moulines, Michael I. Jordan, Etienne Boursier, Alain Durmus2026-03-10🤖 cs.LG

← Vorige Volgende →