cs.LG Arbeiten | Gist.Science

Long Chain-of-Thought Compression via Fine-Grained Group Policy Optimization

Die Arbeit stellt Fine-grained Group Policy Optimization (FGO) vor, einen Reinforcement-Learning-Algorithmus, der als effiziente Weiterentwicklung von GRPO übermäßige Chain-of-Thought-Verläufe in großen Sprachmodellen komprimiert und dabei gleichzeitig die Probleme der ineffizienten Datennutzung sowie des Entropie-Kollapses löst, ohne die Leistungsfähigkeit zu beeinträchtigen.

Xinchen Han, Hossam Afifi, Michel Marot, Xilu Wang, Lu Yin2026-03-12🤖 cs.LG

GOT-JEPA: Generic Object Tracking with Model Adaptation and Occlusion Handling using Joint-Embedding Predictive Architecture

Die Arbeit stellt GOT-JEPA vor, ein Framework zur Vorhersage von Tracking-Modellen mittels Joint-Embedding Predictive Architecture, das in Kombination mit dem OccuSolver-Modul die Generalisierungsfähigkeit und die Verarbeitungsleistung bei Verdeckungen in der generischen Objektverfolgung signifikant verbessert.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu Lin2026-03-12🤖 cs.AI

LexiSafe: Offline Safe Reinforcement Learning with Lexicographic Safety-Reward Hierarchy

Das Paper stellt LexiSafe vor, ein theoretisch fundiertes Offline-Safe-Reinforcement-Learning-Framework, das durch eine lexikographische Hierarchie von Sicherheits- und Belohnungszielen sowie strukturelle Verzerrungen Sicherheitsverletzungen in cyber-physischen Systemen effektiv verhindert und gleichzeitig die Leistung verbessert.

Hsin-Jung Yang, Zhanhong Jiang, Prajwal Koirala, Qisai Liu, Cody Fleming, Soumik Sarkar2026-03-12⚡ eess

ZACH-ViT: Regime-Dependent Inductive Bias in Compact Vision Transformers for Medical Imaging

Die Arbeit stellt ZACH-ViT vor, einen kompakten Vision Transformer ohne Positionscodierung und [CLS]-Token, der durch permutationsinvariante Verarbeitung und globale Durchschnittspooling in datenarmen medizinischen Bildgebungsszenarien regimeabhängige Vorteile zeigt, insbesondere bei Datensätzen mit schwachen räumlichen Priors.

Athanasios Angelakis2026-03-12⚡ eess

Benchmarking Graph Neural Networks in Solving Hard Constraint Satisfaction Problems

Diese Studie stellt neue Benchmarks für harte Zufallsprobleme aus der Sicht der statistischen Physik vor und zeigt durch einen fairen Vergleich, dass klassische Algorithmen Graph Neural Networks bei der Lösung komplexer Constraint Satisfaction Problems weiterhin überlegen sind.

Geri Skenderi, Lorenzo Buffoni, Francesco D'Amico, David Machado, Raffaele Marino, Matteo Negri, Federico Ricci-Tersenghi, Carlo Lucibello, Maria Chiara Angelini2026-03-12🔬 cond-mat

Many AI Analysts, One Dataset: Navigating the Agentic Data Science Multiverse

Die Studie zeigt, dass autonome KI-Analysten große Datenmengen kostengünstig analysieren können, wobei sie jedoch aufgrund unterschiedlicher analytischer Entscheidungen zu stark variierenden Ergebnissen führen, was die Notwendigkeit einer neuen Transparenznorm mit Multiversen-Berichterstattung unterstreicht.

Martin Bertran, Riccardo Fogliato, Zhiwei Steven Wu2026-03-12🤖 cs.AI

Active Value Querying to Minimize Additive Error in Subadditive Set Function Learning

Diese Arbeit untersucht aktive Abfragestrategien, um den additiven Fehler bei der Approximation unbekannter subadditiver Mengenfunktionen zu minimieren, indem sie Methoden zur Verringerung der Unsicherheit zwischen minimalen und maximalen Ergänzungen entwickelt und empirisch validiert.

Martin Černý, David Sychrovský, Filip Úradník, Jakub Černý2026-03-12🤖 cs.LG

How Large Language Models Get Stuck: Early structure with persistent errors

Die Studie zeigt, dass Large Language Models bei bestimmten syntaktischen Aufgaben oft frühzeitig falsche Wahrscheinlichkeitsmuster verfestigen, die sich durch das Training hinweg nicht korrigieren lassen, und führt dies auf eine fehlerhafte Bigramm-Statistik zurück, die zu verfestigten Verzerrungen führt.

Alokesh Manna, William Snyder, Whitney Tabor2026-03-12💬 cs.CL

CARE: Towards Clinical Accountability in Multi-Modal Medical Reasoning with an Evidence-Grounded Agentic Framework

Die Arbeit stellt CARE vor, ein evidenzbasiertes, agentisches Framework für die multimodale medizinische Reasoning, das durch die Dekomposition in spezialisierte Module und die Integration von pixelgenauen Bildsegmentierungen die klinische Verantwortlichkeit und Genauigkeit im Vergleich zu bestehenden Black-Box-Modellen signifikant verbessert.

Yuexi Du, Jinglu Wang, Shujie Liu, Nicha C. Dvornek, Yan Lu2026-03-12🤖 cs.AI

CFG-Ctrl: Control-Based Classifier-Free Diffusion Guidance

Die Arbeit stellt CFG-Ctrl vor, ein Framework, das Classifier-Free Guidance als Kontrollmechanismus neu interpretiert, und führt mit SMC-CFG eine auf dem Sliding-Mode-Control-Prinzip basierende Methode ein, die durch nichtlineare Rückkopplung die Stabilität und semantische Ausrichtung von Diffusionsmodellen über einen weiten Bereich von Führungsparametern verbessert.

Hanyang Wang, Yiyang Liu, Jiawei Chi, Fangfu Liu, Ran Xue, Yueqi Duan2026-03-12🤖 cs.LG

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Diese Studie zeigt, dass parameter-effizientes Feintuning (PEFT) für Code-Analyse-Aufgaben nicht nur die Speicherkosten und Rechenleistung im Vergleich zum vollständigen Feintuning drastisch reduziert, sondern auch durch geschicktes Multi-Task-Learning die Leistung von einzelnen spezialisierten Modellen und sogar von großen generischen LLMs übertreffen kann.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Die Arbeit stellt TRU (Targeted Reasoning Unlearning) vor, eine neue Methode zum gezielten Entfernen unerwünschten Wissens aus großen Sprachmodellen, die durch einen begründungsbasierten Lernzielansatz die Sicherheit und Erklärbarkeit verbessert, ohne dabei die allgemeinen Fähigkeiten des Modells zu beeinträchtigen.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Die Arbeit stellt MoE-SpAc vor, ein Inferenzframework für Mixture-of-Experts-Modelle in heterogenen Edge-Umgebungen, das durch die Nutzung von spekulativer Dekodierung als Informationsquelle für das Speichermanagement und dynamische Lastverteilung eine signifikante Steigerung der Verarbeitungsgeschwindigkeit und Effizienz erreicht.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Die vorgestellte Arbeit entwickelt einen Rahmen zur Optimierung von Kontextdaten für LLM-gesteuerte Feature-Transformationen, der durch einen geschlossenen Regelkreis mit evolutionären, auf Reinforcement Learning basierenden Erfahrungsbibliotheken und einer diversitätsbewussten Auswahl die Effizienz und Leistungsfähigkeit gegenüber bestehenden Methoden signifikant steigert.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Der Artikel stellt TAMUSA-Chat vor, ein Forschungsrahmenwerk für die Entwicklung von domänenspezifischen, verantwortungsvoll eingesetzten konversationellen KI-Systemen an Hochschulen durch Feinabstimmung und retrievalgestützte Generierung.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Diese Studie bewertet die Robustheit und pädagogische Sicherheit von offline einsetzbaren Large Language Models im Kontext des Türkisch-Unterrichts und stellt fest, dass Modelle mit 8 bis 14 Milliarden Parametern den besten Kompromiss zwischen Kosten und Sicherheit bieten, wobei Anomaliewiderstand nicht allein von der Modellgröße abhängt.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Diese Studie liefert theoretische Erklärungen für die Leistungsfähigkeit von Large Language Models, indem sie zeigt, dass In-Context Learning die Aufgabenambiguität reduziert und Chain-of-Thought das Zerlegen komplexer Probleme in bereits gelernte Teilsequenzen ermöglicht, was durch die Analyse der Token-Übergangswahrscheinlichkeiten und statistischer Fehlergrenzen untermauert wird.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Die Studie nutzt Wikidata und Wikipedia, um einen mehrsprachigen Datensatz mit über 26.000 Fragen zu lateinamerikanischen soziokulturellen Themen zu erstellen, mit dem sich nachweisen lässt, dass große Sprachmodelle bei der Behandlung lateinamerikanischer Kulturen im Vergleich zur iberischen spanischen Kultur sowie in den jeweiligen Originalsprachen signifikante Wissenslücken und Verzerrungen aufweisen.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Die Studie stellt SpreadsheetArena vor, eine Plattform zur blinden Paarvergleichsbewertung von LLM-generierten Tabellenkalkulationsworkbooks, die zeigt, dass Präferenzen für Stil, Struktur und Funktionalität stark variieren und aktuelle Spitzenmodelle oft noch nicht mit domänenspezifischen Best Practices übereinstimmen.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Diese Studie widerlegt die Annahme, dass LLM-Täuschung ausschließlich mit Lügen gleichzusetzen ist, indem sie experimentell nachweist, dass Modelle auch durch irreführende, aber faktisch wahre Aussagen täuschen können, was bestehende „Lügendetektor"-Ansätze aufgrund ihrer Unfähigkeit, solche nicht-lügenden Täuschungen zu erkennen, als unzureichend entlarvt.

Tom-Felix Berger2026-03-12💬 cs.CL

← Zurück Weiter →