cs.CL Arbeiten | Gist.Science

MAWARITH: A Dataset and Benchmark for Legal Inheritance Reasoning with LLMs

Die Arbeit stellt MAWARITH vor, einen umfassenden arabischen Datensatz und Benchmark mit 12.500 annotierten Erbfällen, der große Sprachmodelle durch detaillierte Schritt-für-Schritt-Lösungen und eine neue Evaluierungsmetrik (MIR-E) in der komplexen reasoning-Aufgabe des islamischen Erbrechts testet.

Abdessalam Bouchekif, Shahd Gaben, Samer Rashwani, Somaya Eltanbouly, Mutaz Al-Khatib, Heba Sbahi, Mohammed Ghaly, Emad Mohamed2026-03-10💬 cs.CL

Learning-free L2-Accented Speech Generation using Phonological Rules

Diese Arbeit stellt ein lernfreies Framework zur Erzeugung von L2-akzentuierter Sprache vor, das phonologische Regeln mit einem multilingualen Text-to-Speech-Modell kombiniert, um Akzente auf Phonemebene ohne akzentuierte Trainingsdaten zu manipulieren.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Diese Arbeit stellt das neu kuratierte Devanagari-Sprachkorpus „Nwāchā Munā" für Nepal Bhasha vor und zeigt, dass ein feinabgestimmtes nepalesisches Conformer-Modell durch proximale Transferlernen die Leistung großer multilingualer Modelle bei der Spracherkennung erreicht und dabei eine rechen-effiziente Alternative für diese unterrepräsentierte Sprache bietet.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

KCoEvo: A Knowledge Graph Augmented Framework for Evolutionary Code Generation

Die Arbeit stellt KCoEvo vor, ein durch Wissensgraphen erweitertes Framework, das die Migration von Code durch eine zweistufige Strategie aus Pfadwiedergewinnung und pfadbasiertem Code-Generierung verbessert, um die Herausforderungen durch sich entwickelnde APIs zu bewältigen.

Jiazhen Kang, Yuchen Lu, Chen Jiang, Jinrui Liu, Tianhao Zhang, Bo Jiang, Ningyuan Sun, Tongtong Wu, Guilin Qi2026-03-10💬 cs.CL

StyleBench: Evaluating Speech Language Models on Conversational Speaking Style Control

Die Arbeit stellt StyleBench vor, ein mehrstufiges Dialog-Benchmark, das die Fähigkeit von Sprachmodellen zur kontrollierten Steuerung von Sprechstil-Intensität in den Dimensionen Emotion, Geschwindigkeit, Lautstärke und Tonhöhe systematisch bewertet und dabei Leistungslücken zwischen führenden Sprachmodellen und Omni-Sprachmodellen aufzeigt.

Haishu Zhao, Aokai Hao, Yuan Ge, Zhenqiang Hong, Tong Xiao, Jingbo Zhu2026-03-10💬 cs.CL

KohakuRAG: A simple RAG framework with hierarchical document indexing

Das Paper stellt KohakuRAG vor, ein einfaches RAG-Framework mit hierarchischer Dokumentenindizierung und Ensemble-Inferenz, das beim WattBot 2025 Challenge-Wettbewerb den ersten Platz belegte und durch strukturerhaltende Abfrageplanung sowie Abstimmungsmechanismen präzise Zitationen und stabile Antworten ermöglicht.

Shih-Ying Yeh, Yueh-Feng Ku, Ko-Wei Huang, Buu-Khang Tu2026-03-10💬 cs.CL

Scalable Training of Mixture-of-Experts Models with Megatron Core

Dieser Bericht stellt das Megatron Core-Framework vor, das durch integrierte Optimierungen in den Bereichen Speicher, Kommunikation und Berechnung sowie Unterstützung für parallele Verfahren und niedrige Präzision das skalierbare Training von Mixture-of-Experts-Modellen auf Tausenden von GPUs ermöglicht und dabei hohe Rechenleistung auf NVIDIA-Hardware erreicht.

Zijie Yan (NVIDIA), Hongxiao Bai (NVIDIA), Xin Yao (NVIDIA), Dennis Liu (NVIDIA), Tong Liu (NVIDIA), Hongbin Liu (NVIDIA), Pingtian Li (NVIDIA), Evan Wu (NVIDIA), Shiqing Fan (NVIDIA), Li Tao (NVIDIA), Robin Zhang (NVIDIA), Yuzhong Wang (NVIDIA), Shifang Xu (NVIDIA), Jack Chang (NVIDIA), Xuwen Chen (NVIDIA), Kunlun Li (NVIDIA), Yan Bai (NVIDIA), Gao Deng (NVIDIA), Nan Zheng (NVIDIA), Vijay Anand Korthikanti (NVIDIA), Abhinav Khattar (NVIDIA), Ethan He (NVIDIA), Soham Govande (NVIDIA), Sangkug Lym (NVIDIA), Zhongbo Zhu (NVIDIA), Qi Zhang (NVIDIA), Haochen Yuan (NVIDIA), Xiaowei Ren (NVIDIA), Deyu Fu (NVIDIA), Tailai Ma (NVIDIA), Shunkang Zhang (NVIDIA), Jiang Shao (NVIDIA), Ray Wang (NVIDIA), Santosh Bhavani (NVIDIA), Xipeng Li (NVIDIA), Chandler Zhou (NVIDIA), David Wu (NVIDIA), Yingcan Wei (NVIDIA), Ashwath Aithal (NVIDIA), Michael Andersch (NVIDIA), Mohammad Shoeybi (NVIDIA), Jiajie Yao (NVIDIA), June Yang (NVIDIA)2026-03-10🤖 cs.LG

Large Language Model for Discrete Optimization Problems: Evaluation and Step-by-step Reasoning

Diese Studie untersucht die Leistungsfähigkeit verschiedener Large Language Models bei der Lösung diskreter Optimierungsproblemen anhand umfangreicher, erweiterter Datensätze und stellt fest, dass zwar leistungsfähigere Modelle generell besser abschneiden, die Chain-of-Thought-Methode jedoch nicht immer vorteilhaft ist und augmentierte Daten die Ergebnisse bei verständlichen Problemen trotz hoher Varianz verbessern können.

Tianhao Qian, Guilin Qi, Z. Y. Wu, Ran Gu, Xuanyi Liu, Canchen Lyu2026-03-10💬 cs.CL

3ViewSense: Spatial and Mental Perspective Reasoning from Orthographic Views in Vision-Language Models

Die Arbeit stellt 3ViewSense vor, ein Framework, das die räumliche Intelligenz von Vision-Language-Modellen durch eine auf orthografischen Ansichten basierende „Simulieren-und-Schließen"-Methode schließt, um die Lücke bei der Konstruktion kohärenter 3D-Mentalmodelle aus 2D-Beobachtungen zu überwinden.

Shaoxiong Zhan, Yanlin Lai, Zheng Liu, Hai Lin, Shen Li, Xiaodong Cai, Zijian Lin, Wen Huang, Hai-Tao Zheng2026-03-10💬 cs.CL

Whitening Reveals Cluster Commitment as the Geometric Separator of Hallucination Types

Diese Studie zeigt, dass PCA-Whitening die Unterscheidung von Halluzinationstypen in Embedding-Räumen ermöglicht, indem sie die Cluster-Commitment als geometrischen Separator identifiziert und nachweist, dass die Trennung zwischen Typ 1 und 2 eine Kapazitätsbegrenzung darstellt, während die Trennung zwischen Typ 2 und 3 signifikant ist.

Matic Korun2026-03-10💬 cs.CL

QuadAI at SemEval-2026 Task 3: Ensemble Learning of Hybrid RoBERTa and LLMs for Dimensional Aspect-Based Sentiment Analysis

Das Paper stellt ein Ensemble-System für die SemEval-2026-Aufgabe 3 vor, das einen hybriden RoBERTa-Encoder mit Large Language Models kombiniert, um durch Regressions- und Klassifikationsköpfe sowie Stacking die Genauigkeit der dimensional-aspektbasierten Sentiment-Analyse zu verbessern.

A. J. W. de Vink, Filippos Karolos Ventirozos, Natalia Amat-Lefort, Lifeng Han2026-03-10💬 cs.CL

ArcLight: A Lightweight LLM Inference Architecture for Many-Core CPUs

ArcLight ist eine neuartige, leichte Inferenzarchitektur für viele Kern-CPU-Plattformen, die durch optimiertes Speichermanagement, Thread-Scheduling und fein abgestimmte Tensor-Parallelität den Overhead beim zugriff auf NUMA-Knoten reduziert und damit den Durchsatz im Vergleich zu bestehenden Frameworks um bis zu 46 % steigert.

Yuzhuang Xu, Xu Han, Yuxuan Li, Wanxiang Che2026-03-10💬 cs.CL

Breaking Training Bottlenecks: Effective and Stable Reinforcement Learning for Coding Models

Die Arbeit stellt MicroCoder-GRPO vor, einen verbesserten Reinforcement-Learning-Ansatz mit drei Innovationen zur Überwindung von Trainingsengpässen bei Code-Modellen, der in Kombination mit einem neuen Datensatz und einem optimierten Evaluierungsframework signifikante Leistungssteigerungen auf LiveCodeBench v6 erzielt und dabei zeigt, dass sorgfältig trainierte Modelle mit größeren Modellen konkurrieren können.

Zongqian Li, Shaohan Huang, Zewen Chi, Yixuan Su, Lexin Zhou, Li Dong, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Scaling Data Difficulty: Improving Coding Models via Reinforcement Learning on Fresh and Challenging Problems

Die Studie stellt das MicroCoder-Dataset vor, das durch einen systematischen vierstufigen Verarbeitungsprozess und eine KI-gestützte Schwierigkeitsfilterung aus aktuellen Wettbewerbsaufgaben besteht und nachweislich die Leistung von Code-Generierungsmodellen bei komplexen Aufgaben im Vergleich zu herkömmlichen Datensätzen signifikant verbessert.

Zongqian Li, Tengchao Lv, Shaohan Huang, Yixuan Su, Qinzheng Sun, Qiufeng Yin, Ying Xin, Scarlett Li, Lei Cui, Nigel Collier, Furu Wei2026-03-10🤖 cs.LG

Dual-Metric Evaluation of Social Bias in Large Language Models: Evidence from an Underrepresented Nepali Cultural Context

Diese Studie analysiert die sozialen Vorurteile von sieben führenden Large Language Models im nepalesischen Kontext und zeigt mittels eines Dual-Metric-Bewertungsrahmens auf, dass implizite generative Verzerrungen, die bei moderater Temperatur am stärksten sind, durch einfache Zustimmungsmetriken nicht erfasst werden können.

Ashish Pandey, Tek Raj Chhetri2026-03-10💬 cs.CL

Benchmarking Large Language Models for Quebec Insurance: From Closed-Book to Retrieval-Augmented Generation

Diese Studie stellt mit AEPC-QA einen neuen Benchmark für die Versicherungsbranche Québecs vor und zeigt, dass zwar RAG und Schlussfolgerungstechniken die Genauigkeit von Sprachmodellen erheblich steigern können, jedoch eine instabile Kontextverarbeitung und die Überlegenheit großer Generalisten gegenüber spezialisierten Modellen eine sorgfältige Robustheitskalibrierung vor dem autonomen Einsatz erfordern.

David Beauchemin, Richard Khoury2026-03-10💬 cs.CL

DistillGuard: Evaluating Defenses Against LLM Knowledge Distillation

Die Studie „DistillGuard" zeigt, dass die meisten bestehenden Output-Level-Verteidigungsmechanismen gegen Wissensdistillation durch proprietäre LLM-APIs überraschend ineffektiv sind und nur die Entfernung von Chain-of-Thought-Antworten die mathematische Reasoning-Fähigkeit des gestohlenen Wissens signifikant beeinträchtigt.

Bo Jiang2026-03-10💬 cs.CL

AI Steerability 360: A Toolkit for Steering Large Language Models

Das Paper stellt „AI Steerability 360" vor, eine erweiterbare, quelloffene Python-Bibliothek von IBM, die ein einheitliches Interface für die Steuerung von Large Language Models über vier Kontrollflächen (Eingabe, Struktur, Zustand und Ausgabe) sowie Werkzeuge zur einfachen Entwicklung, Komposition und umfassenden Evaluierung von Steuerungsstrategien bietet.

Erik Miehling, Karthikeyan Natesan Ramamurthy, Praveen Venkateswaran, Irene Ko, Pierre Dognin, Moninder Singh, Tejaswini Pedapati, Avinash Balakrishnan, Matthew Riemer, Dennis Wei, Inge Vejsbjerg, Elizabeth M. Daly, Kush R. Varshney2026-03-10💬 cs.CL

An Efficient and Effective Evaluator for Text2SQL Models on Unseen and Unlabeled Data

Das Paper stellt FusionSQL vor, ein effizientes Evaluierungswerkzeug, das die Genauigkeit von Text2SQL-Modellen auf ungelabelten und bisher nicht gesehenen Daten schätzt, indem es Muster in den eigenen Ausgaben analysiert, ohne auf Referenzlabels angewiesen zu sein.

Trinh Pham, Thanh Tam Nguyen, Viet Huynh, Hongzhi Yin, Quoc Viet Hung Nguyen2026-03-10💬 cs.CL

SynPlanResearch-R1: Encouraging Tool Exploration for Deep Research with Synthetic Plans

Die Arbeit stellt SynPlanResearch-R1 vor, ein Framework, das durch synthetisierte Tool-Nutzungspfade die Exploration von Forschungsagenten während des kalten Start-Trainings verbessert und so die Leistung auf mehreren Benchmarks im Vergleich zu bestehenden Methoden signifikant steigert.

Hansi Zeng, Zoey Li, Yifan Gao, Chenwei Zhang, Xiaoman Pan, Tao Yang, Fengran Mo, Jiacheng Lin, Xian Li, Jingbo Shang2026-03-10💬 cs.CL

← Zurück Weiter →