cs.CL Arbeiten | Gist.Science

TikZilla: Scaling Text-to-TikZ with High-Quality Data and Reinforcement Learning

Das Paper stellt TikZilla vor, ein Modell-Familie auf Basis kleiner Qwen-LLMs, die durch die Nutzung eines hochwertigen, vierfach vergrößerten Datensatzes (DaTikZ-V4) und eines zweistufigen Trainings mit überwachtem Fine-Tuning sowie bestärkendem Lernen (RL) mit semantischen Bild-Rückmeldungen die Text-zu-TikZ-Generierung so weit verbessern, dass sie GPT-4o übertrifft und mit GPT-5 gleichzieht.

Christian Greisinger, Steffen Eger2026-03-04💬 cs.CL

TAO-Attack: Toward Advanced Optimization-Based Jailbreak Attacks for Large Language Models

Die Arbeit stellt TAO-Attack vor, eine neuartige, optimierungsbasierte Jailbreak-Methode für Large Language Models, die durch eine zweistufige Verlustfunktion und eine Richtungsprioritäts-Strategie die Erfolgsrate von Angriffen signifikant steigert und dabei Abweisungen sowie pseudo-schädliche Ausgaben effektiv minimiert.

Zhi Xu, Jiaqi Li, Xiaotong Zhang + 2 more2026-03-04💬 cs.CL

Compact Prompting in Instruction-tuned LLMs for Joint Argumentative Component Detection

Diese Arbeit stellt einen neuartigen Ansatz vor, der instruction-tuned Large Language Models mit kompakten Prompts nutzt, um die Erkennung argumentativer Komponenten als Sprachgenerierungsaufgabe zu formulieren und dabei State-of-the-Art-Ergebnisse auf Standard-Benchmarks zu erzielen.

Sofiane Elguendouze, Erwan Hain, Elena Cabrio + 1 more2026-03-04💬 cs.CL

Interpreting Speaker Characteristics in the Dimensions of Self-Supervised Speech Features

Diese Arbeit zeigt, dass sich Sprechermerkmale wie Tonhöhe, Lautstärke und Formanten in einzelnen Dimensionen selbstüberwachter Sprachrepräsentationen (WavLM) isolieren lassen und durch gezielte Manipulation dieser Dimensionen in Syntheseanwendungen gesteuert werden können.

Kyle Janse van Rensburg, Benjamin van Niekerk, Herman Kamper2026-03-04⚡ eess

Evaluating Performance Drift from Model Switching in Multi-Turn LLM Systems

Die Studie zeigt, dass das Wechseln von Modellen in mehrstufigen LLM-Systemen zu signifikanten, systematischen Leistungsabweichungen führt, die durch eine neue Benchmark quantifiziert und durch die Zerlegung in Einfluss- und Anfälligkeitsterme überwacht werden können.

Raad Khraishi, Iman Zafar, Katie Myles + 1 more2026-03-04💬 cs.CL

UniSkill: A Dataset for Matching University Curricula to Professional Competencies

Die Arbeit stellt das UniSkill-Dataset vor, das manuell annotierte und synthetische Daten zur Zuordnung von Universitätskursen zu ESCO-Kompetenzen bereitstellt, und demonstriert anhand eines BERT-Modells mit 87 % F1-Score die Machbarkeit einer automatischen Kurs-Kompetenz-Matching-Lösung.

Nurlan Musazade, Joszef Mezei, Mike Zhang2026-03-04💬 cs.CL

APRES: An Agentic Paper Revision and Evaluation System

Die Studie stellt APRES vor, ein auf Large Language Models basierendes System, das wissenschaftliche Manuskripte automatisch anhand einer zitationsvorhersagenden Rubrik überarbeitet, um deren Qualität und zukünftige Wirkung zu steigern, ohne den wissenschaftlichen Kerngehalt zu verändern.

Bingchen Zhao, Jenny Zhang, Chenxi Whitehouse + 8 more2026-03-04💬 cs.CL

Type-Aware Retrieval-Augmented Generation with Dependency Closure for Solver-Executable Industrial Optimization Modeling

Die Autoren stellen eine typbewusste Retrieval-Augmented-Generation-Methode mit abhängigkeitsgeschlossenem Kontext vor, die zuverlässig ausführbare Optimierungsmodelle für industrielle Anwendungen generiert, indem sie eine domänenspezifische Wissensbasis mit mathematischen Abhängigkeiten nutzt, um die strukturellen Fehler herkömmlicher RAG-Ansätze zu vermeiden.

Y. Zhong, R. Huang, M. Wang + 4 more2026-03-04💬 cs.CL

MoD-DPO: Towards Mitigating Cross-modal Hallucinations in Omni LLMs using Modality Decoupled Preference Optimization

Die Arbeit stellt MoD-DPO vor, einen einfachen und effektiven Rahmen zur Reduzierung von cross-modalen Halluzinationen in omni-modalen Sprachmodellen durch modality-entschlüsselte Präferenzoptimierung, der die Wahrnehmungsgenauigkeit verbessert und die Überabhängigkeit von textuellen Priors verringert.

Ashutosh Chaubey, Jiacheng Pang, Mohammad Soleymani2026-03-04💬 cs.CL

BeyondSWE: Can Current Code Agent Survive Beyond Single-Repo Bug Fixing?

Die Arbeit stellt BeyondSWE vor, ein umfassendes Benchmark-System, das die aktuellen Grenzen von Code-Agenten bei komplexen, realen Aufgaben über einzelne Repositorien hinaus aufzeigt, und untersucht mit dem Framework SearchSWE, dass Suchvervollständigungen die Leistung nicht konsistent verbessern.

Guoxin Chen, Fanzhe Meng, Jiale Zhao + 12 more2026-03-04💬 cs.CL

ACE-Brain-0: Spatial Intelligence as a Shared Scaffold for Universal Embodiments

Der Bericht stellt ACE-Brain-0 vor, ein universelles multimodales Sprachmodell, das räumliche Intelligenz als gemeinsame Grundlage nutzt und durch ein Scaffold-Specialize-Reconcile-Verfahren sowie GRPO-Optimierung eine state-of-the-art Leistung über diverse Embodiments hinweg ermöglicht.

Ziyang Gong, Zehang Luo, Anke Tang + 21 more2026-03-04💬 cs.CL

Learning When to Act or Refuse: Guarding Agentic Reasoning Models for Safe Multi-Step Tool Use

Das Paper stellt MOSAIC vor, ein Nachtrainierungsframework, das Agentic-Modelle durch explizite Sicherheitsentscheidungen und präferenzbasiertes Reinforcement Learning sicherer im mehrstufigen Werkzeuggebrauch macht, indem es schädliches Verhalten signifikant reduziert und gleichzeitig die Leistung bei harmlosen Aufgaben erhält.

Aradhye Agarwal, Gurdit Siyan, Yash Pandya + 3 more2026-03-04💬 cs.CL

Understanding and Mitigating Dataset Corruption in LLM Steering

Diese Studie untersucht die Robustheit von Contrastive Steering bei LLMs gegenüber Datenkorruption und zeigt, dass der Austausch der herkömmlichen Mittelwertberechnung durch einen robusten Schätzer die meisten negativen Auswirkungen böswilliger Manipulationen wirksam verhindert.

Cullen Anderson, Narmeen Oozeer, Foad Namjoo + 3 more2026-03-04💬 cs.CL

Density-Guided Response Optimization: Community-Grounded Alignment via Implicit Acceptance Signals

Die vorgestellte Arbeit führt die „Density-Guided Response Optimization" (DGRO) ein, eine Methode, die Sprachmodelle durch die Analyse impliziter Akzeptanzsignale und der daraus resultierenden geometrischen Dichtestrukturen im Repräsentationsraum an die Normen spezifischer Online-Communities anpasst, ohne dabei auf explizite Präferenzlabels angewiesen zu sein.

Patrick Gerard, Svitlana Volkova2026-03-04💬 cs.CL

Using Learning Progressions to Guide AI Feedback for Science Learning

Die Studie zeigt, dass ein von Lernprogressionen abgeleiteter automatischer Rubrik-Ansatz für KI-gestütztes Feedback in der Chemie vergleichbare Qualitätsmerkmale wie von Experten erstellte, aufgabenspezifische Rubriken liefert und somit eine skalierbare Alternative darstellt.

Xin Xia, Nejla Yuruk, Yun Wang + 1 more2026-03-04💬 cs.CL

Factuality Challenges in the Era of Large Language Models

Dieser Beitrag untersucht die durch Large Language Models verursachten Herausforderungen wie Halluzinationen und gezielte Desinformation und skizziert notwendige technologische, regulatorische und bildungspolitische Maßnahmen, um die Verlässlichkeit von Informationen im Zeitalter der generativen KI zu gewährleisten.

Isabelle Augenstein, Timothy Baldwin, Meeyoung Cha + 15 more2026-03-03💬 cs.CL

Using ChatGPT for Data Science Analyses

Diese Arbeit bewertet das Potenzial von ChatGPT als quantitativer Co-Pilot für Datenwissenschafts-Workflows, indem sie dessen Fähigkeiten in den Bereichen Datenexploration, Visualisierung sowie überwachtes und unüberwachtes Modellieren untersucht und dabei sowohl die Stärken als auch die Grenzen des Tools beleuchtet.

Ozan Evkaya, Miguel de Carvalho2026-03-03📊 stat

Large Language Model Agent in Financial Trading: A Survey

Diese Übersichtsarbeit bietet eine umfassende Analyse des aktuellen Forschungsstands zur Verwendung von Large-Language-Model-Agenten im Finanzhandel, indem sie deren Architekturen, Eingabedaten, Backtesting-Ergebnisse und Herausforderungen zusammenfasst sowie zukünftige Forschungsrichtungen aufzeigt.

Han Ding, Yinheng Li, Junhao Wang + 3 more2026-03-03💬 cs.CL

Scaling Knowledge Graph Construction through Synthetic Data Generation and Distillation

Die Arbeit stellt SynthKG und Distill-SynthKG vor, eine Pipeline zur synthetischen Datengenerierung und Modell-Distillation, die durch das Feinabstimmen kleinerer Modelle hochwertige Dokumenten-Wissensgraphen erzeugt und damit sowohl die Qualität als auch die Effizienz von Wissensgraphen-Konstruktion und Retrieval-Aufgaben im Vergleich zu größeren Baseline-Modellen signifikant verbessert.

Prafulla Kumar Choubey, Xin Su, Man Luo + 9 more2026-03-03💬 cs.CL

Polynomial, trigonometric, and tropical activations

Diese Arbeit stellt neue Aktivierungsfunktionen auf Basis orthogonaler Polynome, trigonometrischer Funktionen und tropischer Algebra vor, die durch varianzausgleichende Initialisierung das Training tiefer Modelle wie GPT-2 und ConvNeXt ohne Gradientenprobleme ermöglichen und sich zudem durch Hermite-Interpolation nahtlos zur Feinabstimmung an klassische Aktivierungen anpassen lassen.

Ismail Khalfaoui-Hassani, Stefan Kesselheim2026-03-03💬 cs.CL

← Zurück Weiter →