cs.LG Arbeiten | Gist.Science

One Model, Many Skills: Parameter-Efficient Fine-Tuning for Multitask Code Analysis

Diese Studie zeigt, dass parameter-effizientes Feintuning (PEFT) für Code-Analyse-Aufgaben nicht nur die Speicherkosten und Rechenleistung im Vergleich zum vollständigen Feintuning drastisch reduziert, sondern auch durch geschicktes Multi-Task-Learning die Leistung von einzelnen spezialisierten Modellen und sogar von großen generischen LLMs übertreffen kann.

Amal Akli, Maxime Cordy, Mike Papadakis, Yves Le Traon2026-03-12💻 cs

Explainable LLM Unlearning Through Reasoning

Die Arbeit stellt TRU (Targeted Reasoning Unlearning) vor, eine neue Methode zum gezielten Entfernen unerwünschten Wissens aus großen Sprachmodellen, die durch einen begründungsbasierten Lernzielansatz die Sicherheit und Erklärbarkeit verbessert, ohne dabei die allgemeinen Fähigkeiten des Modells zu beeinträchtigen.

Junfeng Liao, Qizhou Wang, Shanshan Ye, Xin Yu, Ling Chen, Zhen Fang2026-03-12🤖 cs.LG

MoE-SpAc: Efficient MoE Inference Based on Speculative Activation Utility in Heterogeneous Edge Scenarios

Die Arbeit stellt MoE-SpAc vor, ein Inferenzframework für Mixture-of-Experts-Modelle in heterogenen Edge-Umgebungen, das durch die Nutzung von spekulativer Dekodierung als Informationsquelle für das Speichermanagement und dynamische Lastverteilung eine signifikante Steigerung der Verarbeitungsgeschwindigkeit und Effizienz erreicht.

Shuhuai Li, Jianghao Lin, Dongdong Ge, Yinyu Ye2026-03-12🤖 cs.LG

Evolving Demonstration Optimization for Chain-of-Thought Feature Transformation

Die vorgestellte Arbeit entwickelt einen Rahmen zur Optimierung von Kontextdaten für LLM-gesteuerte Feature-Transformationen, der durch einen geschlossenen Regelkreis mit evolutionären, auf Reinforcement Learning basierenden Erfahrungsbibliotheken und einer diversitätsbewussten Auswahl die Effizienz und Leistungsfähigkeit gegenüber bestehenden Methoden signifikant steigert.

Xinyuan Wang, Kunpeng Liu, Arun Vignesh Malarkkan, Yanjie Fu2026-03-12💬 cs.CL

TAMUSA-Chat: A Domain-Adapted Large Language Model Conversational System for Research and Responsible Deployment

Der Artikel stellt TAMUSA-Chat vor, ein Forschungsrahmenwerk für die Entwicklung von domänenspezifischen, verantwortungsvoll eingesetzten konversationellen KI-Systemen an Hochschulen durch Feinabstimmung und retrievalgestützte Generierung.

Izzat Alsmadi, Anas Alsobeh2026-03-12💬 cs.CL

There Are No Silly Questions: Evaluation of Offline LLM Capabilities from a Turkish Perspective

Diese Studie bewertet die Robustheit und pädagogische Sicherheit von offline einsetzbaren Large Language Models im Kontext des Türkisch-Unterrichts und stellt fest, dass Modelle mit 8 bis 14 Milliarden Parametern den besten Kompromiss zwischen Kosten und Sicherheit bieten, wobei Anomaliewiderstand nicht allein von der Modellgröße abhängt.

Edibe Yilmaz, Kahraman Kostas2026-03-12💬 cs.CL

Beyond the Prompt in Large Language Models: Comprehension, In-Context Learning, and Chain-of-Thought

Diese Studie liefert theoretische Erklärungen für die Leistungsfähigkeit von Large Language Models, indem sie zeigt, dass In-Context Learning die Aufgabenambiguität reduziert und Chain-of-Thought das Zerlegen komplexer Probleme in bereits gelernte Teilsequenzen ermöglicht, was durch die Analyse der Token-Übergangswahrscheinlichkeiten und statistischer Fehlergrenzen untermauert wird.

Yuling Jiao, Yanming Lai, Huazhen Lin, Wensen Ma, Houduo Qi, Defeng Sun2026-03-12💬 cs.CL

Leveraging Wikidata for Geographically Informed Sociocultural Bias Dataset Creation: Application to Latin America

Die Studie nutzt Wikidata und Wikipedia, um einen mehrsprachigen Datensatz mit über 26.000 Fragen zu lateinamerikanischen soziokulturellen Themen zu erstellen, mit dem sich nachweisen lässt, dass große Sprachmodelle bei der Behandlung lateinamerikanischer Kulturen im Vergleich zur iberischen spanischen Kultur sowie in den jeweiligen Originalsprachen signifikante Wissenslücken und Verzerrungen aufweisen.

Yannis Karmim (ALMAnaCH), Renato Pino (UCHILE), Hernan Contreras (UCHILE), Hernan Lira (CENIA), Sebastian Cifuentes (CENIA), Simon Escoffier (PUC), Luis Martí (UP4, ALPAGE), Djamé Seddah (UP4, ALPAGE), Valentin Barrière (UCHILE, CENIA)2026-03-12💬 cs.CL

SpreadsheetArena: Decomposing Preference in LLM Generation of Spreadsheet Workbooks

Die Studie stellt SpreadsheetArena vor, eine Plattform zur blinden Paarvergleichsbewertung von LLM-generierten Tabellenkalkulationsworkbooks, die zeigt, dass Präferenzen für Stil, Struktur und Funktionalität stark variieren und aktuelle Spitzenmodelle oft noch nicht mit domänenspezifischen Best Practices übereinstimmen.

Srivatsa Kundurthy, Clara Na, Michael Handley, Zach Kirshner, Chen Bo Calvin Zhang, Manasi Sharma, Emma Strubell, John Ling2026-03-12💬 cs.CL

Probing the Limits of the Lie Detector Approach to LLM Deception

Diese Studie widerlegt die Annahme, dass LLM-Täuschung ausschließlich mit Lügen gleichzusetzen ist, indem sie experimentell nachweist, dass Modelle auch durch irreführende, aber faktisch wahre Aussagen täuschen können, was bestehende „Lügendetektor"-Ansätze aufgrund ihrer Unfähigkeit, solche nicht-lügenden Täuschungen zu erkennen, als unzureichend entlarvt.

Tom-Felix Berger2026-03-12💬 cs.CL

GATech at AbjadGenEval Shared Task: Multilingual Embeddings for Arabic Machine-Generated Text Classification

Das Team GATech stellt bei der AbjadGenEval-Shared-Task einen Ansatz zur Erkennung von KI-generiertem arabischen Text vor, bei dem ein feinabgestimmter multilingualer E5-large-Encoder mit einfacher Mittelwert-Pooling-Strategie die besten Ergebnisse (F1 0,75) erzielt, da komplexere Pooling-Methoden bei begrenzten Daten nicht besser generalisieren und zudem ein deutlicher Längenunterschied zwischen menschlichen und maschinellen Texten festgestellt wurde.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

GATech at AbjadMed: Bidirectional Encoders vs. Causal Decoders: Insights from 82-Class Arabic Medical Classification

Diese Arbeit zeigt, dass für die feinkörnige Klassifizierung arabischer medizinischer Texte über 82 Kategorien spezialisierte bidirektionale Encoder wie AraBERTv2 aufgrund ihrer Fähigkeit, globale semantische Kontexte zu erfassen, deutlich besser abschneiden als kausale Decoder-Modelle.

Ahmed Khaled Khamis2026-03-12💬 cs.CL

Personalized Group Relative Policy Optimization for Heterogenous Preference Alignment

Die vorgestellte Arbeit führt Personalized GRPO (P-GRPO) ein, ein neuartiges Ausrichtungsframework, das durch die Entkopplung der Vorteilsschätzung von der aktuellen Batch-Statistik und die Normalisierung gegenüber gruppenspezifischen Belohnungshistorien die Verzerrung zugunsten dominanter Präferenzen in heterogenen Szenarien überwindet und so eine schnellere Konvergenz sowie eine präzisere Anpassung an individuelle Nutzerpräferenzen ermöglicht.

Jialu Wang, Heinrich Peters, Asad A. Butt, Navid Hashemi, Alireza Hashemi, Pouya M. Ghari, Joseph Hoover, James Rae, Morteza Dehghani2026-03-12🤖 cs.LG

Defining AI Models and AI Systems: A Framework to Resolve the Boundary Problem

Dieser Beitrag schlägt ein konzeptionelles und operatives Definitionsrahmenwerk vor, das die oft unklare Grenze zwischen KI-Modellen und KI-Systemen auflöst, um die Zuweisung regulatorischer Pflichten entlang der KI-Wertschöpfungskette zu präzisieren.

Yuanyuan Sun, Timothy Parker, Lara Gierschmann, Sana Shams, Teo Canmetin, Mathieu Duteil, Rokas Gipiškis, Ze Shen Chin2026-03-12🤖 cs.AI

LWM-Temporal: Sparse Spatio-Temporal Attention for Wireless Channel Representation Learning

LWM-Temporal ist ein neuer, aufgabenunabhängiger Basis-Modell-Ansatz für drahtlose Kanäle, der durch eine physikalisch ausgerichtete, sparse spatio-temporale Aufmerksamkeit und ein selbstüberwachtes Vortraining mit physikbasiertem Maskierungscurriculum universelle, geometrie-konsistente Kanal-Embeddings lernt, die insbesondere bei langen Vorhersagehorizonten und begrenzten Fine-Tuning-Daten signifikante Verbesserungen gegenüber bestehenden Methoden erzielen.

Sadjad Alikhani, Akshay Malhotra, Shahab Hamidi-Rad, Ahmed Alkhateeb2026-03-12🤖 cs.LG

HTM-EAR: Importance-Preserving Tiered Memory with Hybrid Routing under Saturation

Die Arbeit stellt HTM-EAR vor, ein hierarchisches Tiered-Memory-System mit hybrider Routing-Strategie und bewusster Verdrängung, das unter Sättigungsbedingungen durch den Erhalt wichtiger Informationen und gezieltes Vergessen veralteter Fakten die Abfragepräzision signifikant verbessert.

Shubham Kumar Singh2026-03-12🤖 cs.AI

Tureis: Transformer-based Unified Resilience for IoT Devices in Smart Homes

Die Arbeit stellt Tureis vor, eine selbstüberwachte, Transformer-basierte Methode, die in Smart-Home-Umgebungen mit mehreren Bewohnern und gleichzeitigen Sensorausfällen eine präzise Fehlererkennung und -lokalisierung ohne manuelle Kennzeichnung ermöglicht und dabei ressourcenschonend auf Edge-Geräten wie dem Raspberry Pi 5 läuft.

Alireza Borhani, Vafa Andalibi, Bahar Asgari2026-03-12💻 cs

Evaluating Generalization Mechanisms in Autonomous Cyber Attack Agents

Die Studie zeigt, dass autonome Cyber-Angreifer-Agenten durch IP-Adressänderungen in ihrer Generalisierungsfähigkeit stark beeinträchtigt werden, wobei zwar promptgesteuerte LLM-Agenten die höchste Erfolgswahrscheinlichkeit aufweisen, dies jedoch auf Kosten von Rechenleistung, Transparenz und Zuverlässigkeit geht.

Ondřej Lukáš, Jihoon Shin, Emilia Rivas, Diego Forni, Maria Rigaki, Carlos Catania, Aritran Piplai, Christopher Kiekintveld, Sebastian Garcia2026-03-12💻 cs

Safety Under Scaffolding: How Evaluation Conditions Shape Measured Safety

Die Studie zeigt, dass die Evaluierungsformate (z. B. Multiple-Choice vs. offen) einen größeren Einfluss auf gemessene Sicherheitswerte haben als die Scaffolding-Architekturen selbst, was universelle Sicherheitsaussagen unmöglich macht und eine kontextspezifische Prüfung pro Modell und Konfiguration erfordert.

David Gringras2026-03-12🤖 cs.AI

Gated Adaptation for Continual Learning in Human Activity Recognition

Die vorgeschlagene Methode zur kontinuierlichen Lernfähigkeit in der menschlichen Aktivitätserkennung nutzt eine parametereffiziente, kanalweise gated Modulation eingefrorener vortrainierter Merkmale, um durch selektive Skalierung statt neuer Merkmalsgenerierung sowohl Stabilität gegen katastrophales Vergessen als auch Plastizität für neue Subjekte zu gewährleisten.

Reza Rahimi Azghan, Gautham Krishna Gudur, Mohit Malu, Edison Thomaz, Giulia Pedrielli, Pavan Turaga, Hassan Ghasemzadeh2026-03-12🤖 cs.LG

← Zurück Weiter →