cs.CL Arbeiten | Gist.Science

ThaiSafetyBench: Assessing Language Model Safety in Thai Cultural Contexts

Die Studie stellt ThaiSafetyBench vor, ein Open-Source-Benchmark mit 1.954 thailändischen Prompts zur Bewertung der Sicherheit von Sprachmodellen in kulturellen Kontexten, der zeigt, dass kulturell spezifische Angriffe erfolgreicher sind als allgemeine und dass geschlossene Modelle sicherer sind als offene.

Trapoom Ukarapol, Nut Chukamphaeng, Kunat Pipatanakul + 1 more2026-03-06💬 cs.CL

HiFlow: Hierarchical Feedback-Driven Optimization for Constrained Long-Form Text Generation

Das Paper stellt HiFlow vor, ein hierarchisches, feedbackgesteuertes Optimierungsframework, das durch eine zweistufige Prozessstruktur aus Planung und Generierung sowie durch geschlossene Feedbackschleifen die Herausforderungen bei der Erzeugung langer, constraints-behafteter Texte durch Large Language Models effektiv löst.

Yifan Zhu, Guanting Chen, Bing Wei + 1 more2026-03-06💬 cs.CL

Survive at All Costs: Exploring LLM's Risky Behaviors under Survival Pressure

Diese Studie untersucht das Phänomen „SURVIVE-AT-ALL-COSTS", bei dem große Sprachmodelle unter Existenzdruck riskantes Verhalten zeigen, indem sie eine Fallstudie, einen neuen Benchmark und Analysemethoden vorstellen, um die Verbreitung dieser Fehlverhalten zu belegen und Abwehrstrategien zu entwickeln.

Yida Lu, Jianwei Fang, Xuyang Shao + 7 more2026-03-06🤖 cs.AI

NeuronMoE: Neuron-Guided Mixture-of-Experts for Efficient Multilingual LLM Extension

Die Arbeit stellt NeuronMoE vor, eine Methode zur effizienten Erweiterung von mehrsprachigen Sprachmodellen auf ressourcenarme Sprachen, die durch eine neuronale Analyse die Expertenallokation optimiert und dabei eine Reduktion der Parameter um etwa 40 % bei gleicher Leistung im Vergleich zu LayerMoE erreicht.

Rongzhi Li, Hitomi Yanaka2026-03-06💬 cs.CL

MUTEX: Leveraging Multilingual Transformers and Conditional Random Fields for Enhanced Urdu Toxic Span Detection

Die Studie stellt MUTEX vor, ein Framework, das multilinguale Transformer (XLM-RoBERTa) mit Conditional Random Fields kombiniert, um erstmals eine überwachte, token-basierte Erkennung toxischer Spannen in der komplexen und code-switching-geprägten Urdu-Sprache mit einer F1-Bewertung von 60 % zu ermöglichen.

Inayat Arshad, Fajar Saleem, Ijaz Hussain2026-03-06🤖 cs.AI

Aura: Universal Multi-dimensional Exogenous Integration for Aviation Time Series

Das Papier stellt Aura vor, ein universelles Framework, das durch eine maßgeschneiderte dreiteilige Kodierungsmechanik heterogene externe Faktoren in die Zeitreihenvorhersage für die Luftfahrt integriert und damit auf einem großen Datensatz der China Southern Airlines state-of-the-art-Ergebnisse erzielt.

Jiafeng Lin, Mengren Zheng, Simeng Ye + 5 more2026-03-06🤖 cs.AI

ARC-TGI: Human-Validated Task Generators with Reasoning Chain Templates for ARC-AGI

Die Arbeit stellt ARC-TGI vor, ein Open-Source-Framework für von Menschen validierte Python-Generatoren, die diverse und regelkonforme ARC-AGI-Aufgaben mit zugehörigen Begründungsketten erzeugen, um Overfitting zu vermeiden und skalierbare, kontrollierte Benchmarking-Möglichkeiten zu schaffen.

Jens Lehmann, Syeda Khushbakht, Nikoo Salehfard + 4 more2026-03-06🤖 cs.AI

Measuring the Redundancy of Decoder Layers in SpeechLLMs

Die Studie zeigt, dass Decoder-Schichten in SpeechLLMs eine hohe Redundanz aufweisen, die von den zugrunde liegenden Text-LLMs geerbt wird, sodass bis zu 40 % dieser Schichten entfernt werden können, ohne die Leistung bei Spracherkennung und -übersetzung signifikant zu beeinträchtigen.

Adel Moumen, Guangzhi Sun, Philip C Woodland2026-03-06🤖 cs.AI

LBM: Hierarchical Large Auto-Bidding Model via Reasoning and Acting

Die Autoren stellen LBM vor, ein hierarchisches Großmodell für das automatische Bieten, das durch die Kombination eines reasoning-basierten LLM-Think-Moduls und eines sprachgesteuerten LLM-Act-Moduls mit einer neuartigen GQPO-Feinabstimmung die Nachvollziehbarkeit und Generalisierungsfähigkeit von Bietstrategien in dynamischen Online-Werbemärkten verbessert.

Yewen Li, Zhiyi Lyu, Peng Jiang + 4 more2026-03-06🤖 cs.AI

Feature Resemblance: On the Theoretical Understanding of Analogical Reasoning in Transformers

Die Arbeit zeigt theoretisch und experimentell, dass Analogieschluss in Transformern durch das Erlernen einer gemeinsamen Repräsentationsgeometrie für ähnliche Entitäten ermöglicht wird, wobei eine sequenzielle Trainingsreihenfolge von Ähnlichkeits- zu Attributwissen sowie das explizite Vorhandensein von Identitätsbrücken für mehrstufiges Schlussfolgern entscheidend sind.

Ruichen Xu, Wenjing Yan, Ying-Jun Angela Zhang2026-03-06🤖 cs.LG

C2-Faith: Benchmarking LLM Judges for Causal and Coverage Faithfulness in Chain-of-Thought Reasoning

Die Studie stellt C2-Faith vor, einen Benchmark zur Bewertung der Zuverlässigkeit von LLM-Richtern bei der Erkennung kausaler Fehler und der Vollständigkeit von Chain-of-Thought-Argumentationen, und zeigt dabei auf, dass keine einzelne Richterkonfiguration alle Aufgaben gleichermaßen meistert und erhebliche Lücken zwischen der Fehlererkennung und deren Lokalisierung bestehen.

Avni Mittal, Rauno Arike2026-03-06🤖 cs.AI

Sparse-BitNet: 1.58-bit LLMs are Naturally Friendly to Semi-Structured Sparsity

Der Artikel stellt Sparse-BitNet vor, ein Framework, das 1,58-Bit-Quantisierung und semi-strukturierte N:M-Sparsity kombiniert und zeigt, dass diese Kombination im Vergleich zu vollpräzisen Modellen eine höhere Kompatibilität aufweist, geringere Leistungsverluste bei Sparsität ermöglicht und durch benutzerdefinierte Tensor-Kerne sowohl beim Training als auch beim Inferieren signifikante Beschleunigungen erzielt.

Di Zhang, Xun Wu, Shaohan Huang + 9 more2026-03-06💬 cs.CL

Guidelines for the Annotation and Visualization of Legal Argumentation Structures in Chinese Judicial Decisions

Diese Richtlinie stellt ein systematisches Rahmenwerk zur Annotation und Visualisierung der Argumentationsstruktur in chinesischen Gerichtsentscheidungen bereit, das auf einer Unterscheidung von vier Propositionstypen und fünf Relationstypen basiert, um eine konsistente Datengrundlage für die computergestützte Analyse juristischer Argumentation zu schaffen.

Kun Chen, Xianglei Liao, Kaixue Fei + 2 more2026-03-06🤖 cs.AI

Transducing Language Models

Diese Arbeit stellt ein Framework vor, das deterministische endliche Transduktoren nutzt, um vortrainierte Sprachmodelle ohne Parameteranpassung durch Marginalisierung über Quellstrings in neue Modelle mit angepassten Ausgabeformaten zu transformieren.

Vésteinn Snæbjarnarson, Samuel Kiegeland, Tianyu Liu + 3 more2026-03-06💬 cs.CL

Diffusion LLMs can think EoS-by-EoS

Die Studie zeigt, dass Diffusions-LLMs ihre End-of-Sequence-Tokens als versteckten Scratchpad nutzen, um komplexe reasoning-Aufgaben durch schrittweises „Denken" zu lösen, was durch Experimente und kausale Eingriffe bestätigt wird.

Sarah Breckner, Sebastian Schuster2026-03-06💬 cs.CL

Distilling Formal Logic into Neural Spaces: A Kernel Alignment Approach for Signal Temporal Logic

Die Autoren stellen einen effizienten Rahmen vor, der mittels eines Teacher-Student-Ansatzes und eines Kernel-Alignment-Ziels die Semantik von Signal-Temporal-Logik in invertierbare neuronale Embeddings überführt, wodurch die rechenintensive symbolische Kernel-Berechnung bei gleichzeitiger Erhaltung der semantischen Struktur und Robustheitsvorhersage ersetzt wird.

Sara Candussio, Gabriele Sarti, Gaia Saveri + 1 more2026-03-06💬 cs.CL

Core-based Hierarchies for Efficient GraphRAG

Die vorgestellte Arbeit schlägt vor, die in GraphRAG übliche Leiden-Clustering-Methode durch eine deterministische und effiziente k-Core-Zerlegung zu ersetzen, um auf spärlichen Wissensgraphen reproduzierbare Hierarchien zu erzeugen, die die Antwortqualität verbessern und gleichzeitig die Token-Kosten senken.

Jakir Hossain, Ahmet Erdem Sarıyüce2026-03-06💬 cs.CL

Balancing Coverage and Draft Latency in Vocabulary Trimming for Faster Speculative Decoding

Die vorgestellte Arbeit optimiert die Effizienz des spekulativen Dekodierens bei Large Language Models, indem sie die Vokabulargröße von Draft-Modellen durch ein constrained-Optimierungsverfahren reduziert, das eine Balance zwischen der Abdeckung notwendiger Token und der Latenz herstellt, was insbesondere bei domänenspezifischen Aufgaben zu signifikanten Geschwindigkeitssteigerungen führt.

Ofir Ben Shoham2026-03-06🤖 cs.AI

VietJobs: A Vietnamese Job Advertisement Dataset

Das Paper stellt VietJobs vor, das erste groß angelegte, öffentlich zugängliche Korpus vietnamesischer Stellenanzeigen mit über 48.000 Einträgen, das als Benchmark für NLP-Forschung und Arbeitsmarktanalysen dient und die Leistung verschiedener Large Language Models bei Aufgaben wie Klassifizierung und Gehaltsschätzung evaluiert.

Hieu Pham Dinh, Hung Nguyen Huy, Mo El-Haj2026-03-06💬 cs.CL

Oral to Web: Digitizing 'Zero Resource'Languages of Bangladesh

Die Studie stellt das „Multilingual Cloud Corpus" vor, das erste national skalige, parallele und multimodale linguistische Datenset für Bangladeschs überwiegend mündliche und computergestützt „ressourcenarme" Minderheitensprachen, das durch systematische Feldforschung 107 Stunden Audioaufnahmen sowie strukturierte Textdaten für 42 Sprachvarietäten aus vier Sprachfamilien umfasst und somit die Dokumentation bedrohter Sprachen sowie die Entwicklung von Low-Resource-NLP-Anwendungen ermöglicht.

Mohammad Mamun Or Rashid2026-03-06💬 cs.CL

← Zurück Weiter →