cs.LG Arbeiten | Gist.Science

Active Advantage-Aligned Online Reinforcement Learning with Offline Data

Die Arbeit stellt A3RL vor, einen neuen Online-Reinforcement-Learning-Ansatz, der durch eine konfidenzbasierte, aktive Stichprobenstrategie (A3) Offline- und Online-Daten dynamisch kombiniert, um die Stichprobeneffizienz zu steigern und das Vergessen früherer Fähigkeiten zu vermeiden.

Xuefeng Liu, Hung T. C. Le, Siyu Chen, Rick Stevens, Zhuoran Yang, Matthew R. Walter, Yuxin Chen2026-03-10🤖 cs.LG

Language in the Flow of Time: Time-Series-Paired Texts Weaved into a Unified Temporal Narrative

Die Studie stellt das Framework „Texts as Time Series" (TaTS) vor, das zeitlich gepaarte Texte als Hilfsvariablen nutzt, um bestehende reine Zahlen-basierte Zeitreihenmodelle ohne Architekturänderungen zu erweitern und deren Vorhersage- sowie Imputationsleistung in multimodalen Szenarien zu verbessern.

Zihao Li, Xiao Lin, Zhining Liu, Jiaru Zou, Ziwei Wu, Lecheng Zheng, Dongqi Fu, Yada Zhu, Hendrik Hamann, Hanghang Tong, Jingrui He2026-03-10🤖 cs.LG

LaVCa: LLM-assisted Visual Cortex Captioning

Die Studie stellt LaVCa vor, eine datengestützte Methode, die große Sprachmodelle nutzt, um präzise natürliche Sprachbeschreibungen für die Selektivität von Neuronen im visuellen Kortex zu generieren und damit tiefere Einblicke in die menschliche visuelle Repräsentation sowie feinere funktionale Differenzierungen als bisherige Ansätze ermöglicht.

Takuya Matsuyama, Shinji Nishimoto, Yu Takagi2026-03-10🤖 cs.LG

Unveiling Downstream Performance Scaling of LLMs: A Clustering-Based Perspective

Die Studie stellt ein Clustering-basiertes Framework vor, das Aufgaben nach Schwierigkeitsgrad gruppiert, um die Leistung von Large Language Models auf zukünftigen Downstream-Aufgaben mit hoher Genauigkeit vorherzusagen und so die Herausforderungen unvorhersehbarer Skalierungseffekte und inkonsistenter Leistungsmuster zu überwinden.

Chengyin Xu, Kaiyuan Chen, Xiao Li, Ke Shen, Chenggang Li2026-03-10🤖 cs.LG

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby Thomas2026-03-10💻 cs

A Simple and Effective Reinforcement Learning Method for Text-to-Image Diffusion Fine-tuning

Die Autoren stellen LOOP vor, eine neue Reinforcement-Learning-Methode für die Feinabstimmung von Text-zu-Bild-Diffusionsmodellen, die die Varianzreduktionstechniken von REINFORCE mit der Robustheit und Stichprobeneffizienz von PPO kombiniert, um einen besseren Ausgleich zwischen Effizienz und Leistung zu erzielen.

Shashank Gupta, Chaitanya Ahuja, Tsung-Yu Lin + 4 more2026-03-10🤖 cs.AI

Go Beyond Your Means: Unlearning with Per-Sample Gradient Orthogonalization

Die Arbeit stellt OrthoGrad vor, eine neue Methode zum maschinellen Vergessen, die durch die Projektion der Gradienten der zu entfernenden Daten auf den orthogonalen Unterraum der verbleibenden Trainingsdaten Interferenzen vermeidet und so auch bei nur begrenztem Zugriff auf den ursprünglichen Datensatz effektiv funktioniert.

Aviv Shamsian, Eitan Shaar, Aviv Navon, Gal Chechik, Ethan Fetaya2026-03-10🤖 cs.LG

LLM-Powered Prediction of Hyperglycemia and Discovery of Behavioral Treatment Pathways from Wearables and Diet

Diese Studie stellt GlucoLens vor, ein erklärbares KI-System, das mithilfe von Wearable-Daten, Ernährungsinformationen und großen Sprachmodellen postprandiale Hyperglykämie bei Erwachsenen präzise vorhersagt und personalisierte Verhaltensinterventionen zur Vermeidung von Blutzuckerspitzen ableitet.

Abdullah Mamun, Asiful Arefeen, Susan B. Racette + 4 more2026-03-10🤖 cs.AI

IMPACT: Intelligent Motion Planning with Acceptable Contact Trajectories via Vision-Language Models

Die Arbeit stellt IMPACT vor, ein neuartiges Bewegungsplanungsframework, das Vision-Language-Modelle nutzt, um semantische Umgebungsinformationen zu erfassen und anisotrope Kostenkarten zu generieren, die es einem kontaktbewussten A*-Planer ermöglichen, in überfüllten Umgebungen stabile und sicherheitsbewusste Kontaktbahnen zu finden.

Yiyang Ling, Karan Owalekar, Oluwatobiloba Adesanya, Erdem Bıyık, Daniel Seita2026-03-10🤖 cs.LG

Characterizing Nonlinear Dynamics via Smooth Prototype Equivalences

Die Arbeit stellt „Smooth Prototype Equivalences" (SPE) vor, ein Framework, das mithilfe invertierbarer neuronaler Netze spärliche und verrauschte Messdaten auf prototypische dynamische Verhaltensmuster abbildet, um invariante Strukturen wie Grenzzyklen zu identifizieren und dynamische Regime ohne Kenntnis der zugrunde liegenden Gleichungen zu klassifizieren.

Roy Friedman, Noa Moriel, Matthew Ricci, Guy Pelc, Yair Weiss, Mor Nitzan2026-03-10🤖 cs.LG

MUSS: Multilevel Subset Selection for Relevance and Diversity

Die Arbeit stellt MUSS vor, eine neuartige multilevel-Methode zur effizienten und skalierbaren Auswahl relevanter sowie diverser Teilmengen, die in Anwendungen wie Empfehlungssystemen und RAG sowohl die Genauigkeit als auch die Geschwindigkeit im Vergleich zu bestehenden Ansätzen wie MMR und DGDS signifikant verbessert und theoretisch fundierte Approximationsgarantien bietet.

Vu Nguyen, Andrey Kan2026-03-10🤖 cs.LG

More Bang for the Buck: Process Reward Modeling with Entropy-Driven Uncertainty

Die Arbeit stellt EDU-PRM vor, ein neuartiges, entropiegetriebenes Prozess-Reward-Modell, das durch automatische, unsicherheitsbasierte Segmentierung von Denkprozessen teure manuelle Annotationen eliminiert und gleichzeitig bei deutlich reduziertem Trainingsdatenaufwand sowie effizienterer Token-Nutzung state-of-the-art Ergebnisse in der mathematischen Problemlösung erzielt.

Lang Cao, Renhong Chen, Yingtian Zou, Chao Peng, Huacong Xu, Yuxian Wang, Wu Ning, Qian Chen, Mofan Peng, Zijie Chen, Peishuo Su, Yitong Li2026-03-10🤖 cs.LG

Enhancing Metabolic Syndrome Prediction with Hybrid Data Balancing and Counterfactuals

Diese Studie verbessert die Vorhersage des metabolischen Syndroms durch einen neuartigen hybriden Rahmen (MetaBoost) zur Optimierung des Datenbalancings und durch eine kontrafaktische Analyse, die Blutzucker und Triglyceride als entscheidende klinische Risikofaktoren identifiziert.

Sanyam Paresh Shah, Abdullah Mamun, Shovito Barua Soumma + 1 more2026-03-10🤖 cs.AI

Estimating Item Difficulty Using Large Language Models and Tree-Based Machine Learning Algorithms

Die Studie zeigt, dass die Kombination von Large Language Models zur Extraktion linguistischer und kognitiver Merkmale mit baumbasierten maschinellen Lernalgorithmen eine genauere Schätzung der Aufgabenschwierigkeit für K-5-Mathematik- und Lesetests ermöglicht als direkte LLM-Schätzungen und somit den Bedarf an aufwendigen Vorabtests reduziert.

Pooya Razavi, Sonya Powers2026-03-10🤖 cs.LG

A Champion-level Vision-based Reinforcement Learning Agent for Competitive Racing in Gran Turismo 7

Diese Arbeit stellt einen visionbasierten Reinforcement-Learning-Agenten vor, der ausschließlich auf egozentrischen Kamerabildern und Onboard-Sensordaten basiert und in Gran Turismo 7 erstmals champion-level Leistung in wettbewerbsfähigen Rennszenarien erzielt, ohne auf externe Lokalisierung angewiesen zu sein.

Hojoon Lee, Takuma Seno, Jun Jet Tai, Kaushik Subramanian, Kenta Kawamoto, Peter Stone, Peter R. Wurman2026-03-10🤖 cs.LG

Structural Inference: Interpreting Small Language Models with Susceptibilities

Die Autoren entwickeln ein lineares Antwortframework, das neuronale Netze als bayessche statistisch-mechanische Systeme behandelt, um durch lokale Störungen der Datenverteilung effizient berechenbare Suszeptibilitäten zu ermitteln, die als Attributionswerte dienen und funktionale Module in kleinen Transformern aufdecken.

Garrett Baker, George Wang, Jesse Hoogland, Daniel Murfet2026-03-10🤖 cs.LG

Learning to Rank Critical Road Segments via Heterogeneous Graphs with Origin-Destination Flow Integration

Die Arbeit stellt HetGL2R vor, einen heterogenen Graph-Lernrahmen, der durch die Integration von Origin-Destination-Flüssen und Routeninformationen in einem Tripartiten-Graphen sowie die Nutzung von Attribut-führten Graphen und Transformer-Encodern die Bedeutung von Straßenabschnitten präziser rankt als bestehende Methoden.

Ming Xu, Jinrong Xiang, Zilong Xie + 1 more2026-03-10🤖 cs.LG

From LLM Reasoning to Autonomous AI Agents: A Comprehensive Review

Diese umfassende Übersicht fasst die Entwicklung von großen Sprachmodellen zu autonomen KI-Agenten zusammen, indem sie eine einheitliche Taxonomie für etwa 60 Evaluierungs-Benchmarks vorstellt, Agenten-Frameworks und Kollaborationsprotokolle analysiert sowie Anwendungen in verschiedenen Domänen und zukünftige Forschungsrichtungen beleuchtet.

Mohamed Amine Ferrag, Norbert Tihanyi, Merouane Debbah2026-03-10🤖 cs.LG

StablePCA: Distributionally Robust Learning of Shared Representations from Multi-Source Data

Die Arbeit stellt StablePCA vor, einen verteilungsrobusten Rahmen zur Extraktion stabiler latenter Darstellungen aus multi-sourcigen Daten durch Maximierung der worst-case erklärten Varianz, der mittels konvexer Relaxierung und eines effizienten Mirror-Prox-Algorithmus mit globalen Konvergenzgarantien gelöst wird.

Zhenyu Wang, Molei Liu, Jing Lei, Francis Bach, Zijian Guo2026-03-10🤖 cs.LG

Reinforcement Learning for Individual Optimal Policy from Heterogeneous Data

Dieses Papier stellt einen individualisierten Offline-Verstärkungslernrahmen für heterogene Zeit-stationäre MDPs vor, der mithilfe eines Modells mit individuellen latenten Variablen und des P4L-Algorithmus suboptimale Polices für heterogene Populationen vermeidet und eine schnelle Regret-Konvergenz unter schwachen Annahmen garantiert.

Rui Miao, Babak Shahbaba, Annie Qu2026-03-10🤖 cs.LG

← Zurück Weiter →