cs.LG papers | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Dit paper introduceert A3RL, een nieuwe methode die online en offline versterkingsleer combineert via een vertrouwensbewuste actieve voorkeurst-strategie om de sample-efficiëntie te maximaliseren en vergeten te voorkomen, wat resulteert in superieure prestaties vergeleken met bestaande technieken.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Dit paper introduceert het Texts as Time Series (TaTS)-framework, dat gepaarde teksten als tijdsreeksen behandelt om bestaande numerieke modellen te verbeteren voor multimodale voorspelling en imputatie zonder de architectuur aan te passen.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Het artikel introduceert LaVCa, een data-gedreven methode die grote taalmodellen gebruikt om gedetailleerde natuurlijke taalbeschrijvingen te genereren voor de selectiviteit van neurale populaties in de visuele cortex, waarmee de beperkingen van bestaande diepe-neurale-netwerkmodellen worden overwonnen en fijnmazigere inzichten in menselijke visuele representaties worden verkregen.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Dit paper introduceert het Clustering-On-Difficulty (COD)-framework, dat taken clusteren op basis van hun schaalingsmoeilijkheid om een nauwkeurige voorspelling van de downstream-prestaties van grote taalmodellen mogelijk te maken, zelfs bij het optreden van emergente fenomenen.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Dit onderzoek presenteert een hoogpresterend algoritme dat T1-, T2-, T1ce- en FLAIR-MRI-beelden fuseert via UNET-segmentatie en ResNet50-classificatie om gliomen met een nauwkeurigheid van 99,25% te onderscheiden in subklassen zoals necrotische kern, oedeem en versterkende tumor.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Dit paper introduceert LOOP, een nieuwe versterkingsleermethode voor het fijnafstemmen van tekst-naar-beeld diffusiemodellen die de steekproefefficiëntie en stabiliteit van PPO combineert met de variansiereductietechnieken van REINFORCE om een betere balans tussen efficiëntie en prestaties te bereiken.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Dit paper introduceert OrthoGrad, een nieuwe methode voor machine unlearning die door het projecteren van de gradiënt van het te vergeten dataset op de orthogonale ruimte van de behouden dataset, effectieve verwijdering van ongewenste informatie mogelijk maakt zonder de prestaties op de resterende data te schaden, zelfs wanneer slechts een klein deel van de trainingset beschikbaar is.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

In deze studie wordt GlucoLens, een uitlegbare machine learning-oplossing die draagbare sensoren, voedsel- en activiteitsdata combineert met grote taalmodellen, gepresenteerd om postprandiale hyperglykemie bij volwassenen te voorspellen en via contrafactuele verklaringen behandelingspaden voor een gezonde levensstijl te ontdekken.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Dit paper introduceert IMPACT, een nieuw bewegingsplanningskader dat Vision-Language Models gebruikt om veilige contacttrajecten in rommelige omgevingen te genereren door objecteigenschappen te analyseren en een anisotrope kostenkaart te combineren met een contactbewuste A*-planner.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Dit artikel introduceert 'smooth prototype equivalences' (SPE), een raamwerk dat gebruikmaakt van invertibele neurale netwerken om de lange-termijngedragingen van dynamische systemen te karakteriseren en te classificeren op basis van beperkte, ruisachtige metingen, waardoor invariante structuren en drijvende genen in complexe biologische systemen zonder vergelijkingen kunnen worden geïdentificeerd.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Dit paper introduceert MUSS, een nieuwe multilevel-methode voor relevante en diverse subsetselectie die in vergelijking met bestaande technieken zoals MMR en DGDS aanzienlijk sneller is, betere prestaties levert in toepassingen zoals aanbevelingssystemen en RAG, en theoretisch wordt onderbouwd door een constante factor-benadering van het optimale doel.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Deze paper introduceert EDU-PRM, een nieuw trainingsframework dat gebruikmaakt van entropie-gedreven onzekerheid om complexe redeneerstappen automatisch te segmenteren zonder dure handmatige annotaties, waardoor het op het ProcessBench-benchmark presteert met slechts 1,5% van de trainingsdata en tegelijkertijd de nauwkeurigheid verhoogt terwijl het tokenverbruik met 32% daalt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Deze studie verbetert de voorspelling van metabool syndroom door een nieuw hybride framework genaamd MetaBoost te introduceren dat geavanceerde databalanceringstechnieken combineert met contrafactuele analyse om zowel de nauwkeurigheid van machine learning-modellen te verhogen als klinisch relevante inzichten te bieden over risicofactoren zoals bloedsuiker en triglyceriden.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Dit onderzoek toont aan dat het combineren van Large Language Models voor het extraheren van cognitieve en taalkundige kenmerken met boomgebaseerde machine learning-algoritmen een nauwkeuriger methode biedt om de moeilijkheidsgraad van K-5 wiskunde- en leesitems te voorspellen dan directe schattingen door LLM's, waardoor de afhankelijkheid van uitgebreide veldtests kan worden verminderd.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Dit paper introduceert een vision-based reinforcement learning-agent die uitsluitend op camerabeelden en aan boord sensoren vertrouwt om in Gran Turismo 7 kampioensniveau-raceprestaties te behalen, waarmee voor het eerst supermenselijke prestaties worden geleverd zonder externe localisatie.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Deze paper introduceert een lineair responsframework dat een klein taalmodel als een Bayesiaans statistisch mechanisch systeem behandelt, waarbij susceptibiliteiten worden gebruikt om functionele modules zoals multigram- en inductiehoofden te identificeren en te attribueren.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Dit paper introduceert HetGL2R, een heterogeen grafiekleringskader dat oorsprong-bestemmingstromen en routes integreert via een tripartiete grafiek en een Transformer-architectuur om de rangschikking van kritieke wegsegmenten significant te verbeteren ten opzichte van bestaande methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Dit paper biedt een uitgebreid overzicht van de evolutie van LLM-reasoning naar autonome AI-agenten door een gestandaardiseerde taxonomie van benchmarks, een analyse van frameworks, een inventarisatie van real-world toepassingen en een evaluatie van samenwerkingsprotocollen te presenteren, gevolgd door aanbevelingen voor toekomstig onderzoek.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Dit paper introduceert StablePCA, een distributioneel robuust raamwerk voor het leren van gedeelde representaties uit multi-bron data, waarbij een convex relaxatie en een efficiënt Mirror-Prox-algoritme worden ontwikkeld om de uitdagingen van de niet-convexe rangbeperking te overwinnen met gegarandeerde convergentie.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dit paper introduceert een geïndividualiseerd offline versterkingsleerframework voor heterogene populaties, genaamd P4L, dat via een model met individuele latente variabelen en een gepenaliseerde pessimistische aanpak een snelle regret-convergentie garandeert en superieure prestaties laat zien ten opzichte van bestaande methoden.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← Vorige Volgende →