cs.CL Arbeiten | Gist.Science

When Does Divide and Conquer Work for Long Context LLM? A Noise Decomposition Framework

Die Arbeit stellt ein theoretisches Raster zur Analyse von Fehlerquellen bei langen Texten in LLMs vor und zeigt, dass eine strategische Aufteilung in Chunks mit einem Aggregator selbst schwächere Modelle in der Lage versetzt, komplexe Langkontextaufgaben effektiver zu lösen als leistungsstarke Einzelmodelle.

Zhen Xu, Shang Zhu, Jue Wang + 5 more2026-03-03💬 cs.CL

LongWriter-Zero: Mastering Ultra-Long Text Generation via Reinforcement Learning

Das Paper stellt LongWriter-Zero vor, ein Reinforcement-Learning-Verfahren, das Large Language Models ohne synthetische Trainingsdaten in die Lage versetzt, ultra-lange und qualitativ hochwertige Texte zu generieren und dabei sowohl traditionelle SFT-Methoden als auch deutlich größere Modelle zu übertreffen.

Yuhao Wu, Yushi Bai, Zhiqiang Hu + 2 more2026-03-03💬 cs.CL

TTSDS2: Resources and Benchmark for Evaluating Human-Quality Text to Speech Systems

Die Autoren stellen TTSDS2 vor, ein robustes Metrik-System, das als einzige von 16 verglichenen Kennzahlen in allen Domänen eine signifikante Korrelation mit subjektiven Bewertungen aufweist, und stellen zudem umfangreiche Ressourcen wie einen Datensatz mit über 11.000 Bewertungen und ein mehrsprachiges Benchmark für die Evaluierung menschenähnlicher Text-zu-Sprache-Systeme bereit.

Christoph Minixhofer, Ondrej Klejch, Peter Bell2026-03-03⚡ eess

Breaking Barriers: Do Reinforcement Post Training Gains Transfer To Unseen Domains?

Die Studie zeigt, dass sich die durch Reinforcement Post-Training erzielten Verbesserungen der Schlussfolgerungsfähigkeiten von Large Language Models zwar auf ähnliche Aufgaben übertragen, jedoch bei Domänen mit abweichenden Denkmustern inkonsistent sind oder ganz verloren gehen.

Chuxuan Hu, Yuxuan Zhu, Antony Kellermann + 4 more2026-03-03💬 cs.CL

Cognitive models can reveal interpretable value trade-offs in language models

Die Studie zeigt, dass kognitive Modelle zur Analyse von Sprachmodellen eingesetzt werden können, um interpretierbare Wertkompromisse zu identifizieren, indem sie systematisch den Einfluss von Denkressourcen, Systemprompts und Trainingsdynamiken auf das Verhalten von LLMs untersuchen.

Sonia K. Murthy, Rosie Zhao, Jennifer Hu + 4 more2026-03-03💬 cs.CL

DAPFAM: A Domain-Aware Family-level Dataset to benchmark cross domain patent retrieval

Die Arbeit stellt DAPFAM vor, einen neuartigen Patent-Datensatz auf Familienebene mit expliziten In- und Out-of-Domain-Partitionen, der als Benchmark dient, um die erheblichen Leistungseinbußen von Retrieval-Systemen bei der querdomainbezogenen Prioritätsrecherche aufzuzeigen und die Entwicklung robusterer IR-Systeme zu fördern.

Iliass Ayaou, Denis Cavallucci, Hicham Chibane2026-03-03💬 cs.CL

XISM: an eXploratory and Interactive Graph Tool to Visualize and Evaluate Semantic Map Models

XISM ist ein interaktives System, das datengetriebene Inferenz mit Expertenwissen kombiniert, um die transparente und skalierbare Erstellung sowie Evaluierung semantischer Karten durch iterative Verfeinerung und Echtzeit-Feedback zu ermöglichen.

Zhu Liu, Zhen Hu, Lei Dai + 2 more2026-03-03💬 cs.CL

FrugalRAG: Less is More in RL Finetuning for Multi-Hop Question Answering

Der Paper stellt FrugalRAG vor, ein zweistufiges Feinabstimmungsframework, das durch den gezielten Einsatz von Reinforcement Learning die Anzahl der Retrieval-Schritte in Multi-Hop-Frage-Antwort-Aufgaben an die Schwierigkeit der Frage anpasst und so eine überlegene Effizienz bei gleichzeitig hoher Genauigkeit mit nur etwa 1.000 Trainingsbeispielen erreicht.

Abhinav Java, Srivathsan Koundinyan, Nagarajan Natarajan + 1 more2026-03-03💬 cs.CL

SASFT: Sparse Autoencoder-guided Supervised Finetuning to Mitigate Unexpected Code-Switching in LLMs

Die vorgestellte Arbeit führt den SASFT-Ansatz ein, der mithilfe von Sparse Autoencodern unerwarteten Code-Switching in großen Sprachmodellen durch die Steuerung der Voraktivierungswerte spezifischer Sprachmerkmale während des Fine-Tunings effektiv reduziert, ohne dabei die multilinguistischen Fähigkeiten zu beeinträchtigen.

Boyi Deng, Yu Wan, Baosong Yang + 3 more2026-03-03💬 cs.CL

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

Die Studie stellt SpiroLLM vor, das erste multimodale Large Language Model, das mithilfe von UK-Biobank-Daten Spirogramme versteht und interpretierbare COPD-Berichte erstellt, wodurch die klinische Zuverlässigkeit und Diagnosegenauigkeit im Vergleich zu rein textbasierten Ansätzen erheblich gesteigert wird.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

Die Arbeit stellt MultiRole-R1 vor, ein Diversitäts-fokussiertes Trainingsframework, das durch die Integration von Rollenperspektiven und Token-Vielfalt die Leistung von Large Reasoning Models bei subjektiven Aufgaben signifikant verbessert und dabei sogar die Fähigkeiten im mathematischen Reasoning steigert.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Die Studie widerlegt die Annahme, dass auswendiges Lernen die Generalisierung behindert, indem sie zeigt, dass große Sprachmodelle durch einen zweiphasigen Ansatz faktisches Wissen zunächst auswendig lernen und anschließend über semantisch sinnvolle Prompts erfolgreich generalisieren können.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

Die Arbeit stellt DeepSieve vor, ein agentices RAG-Framework, das Large Language Models als Wissensrouter einsetzt, um komplexe Anfragen in strukturierte Teilfragen zu zerlegen und durch mehrstufige Filterung präzise, tiefgründige und interpretierbare Antworten aus heterogenen Quellen zu generieren.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Das Paper stellt Uni-CoT vor, ein einheitliches Chain-of-Thought-Framework, das durch eine zweistufige Denkstrategie und ein strukturiertes Trainingskonzept kohärente multimodale Schlussfolgerungen über Text und Bild hinweg ermöglicht und dabei ressourceneffizient auf nur acht A100-GPUs trainiert werden kann.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Die Studie zeigt, dass für Mixture-of-Experts-Modelle die optimale Sparsamkeit nicht allein durch den Trainingsverlust bestimmt wird, sondern durch das Zusammenspiel von aktiven FLOPs für das logische Schlussfolgern und dem Verhältnis von Gesamt-Token zu Parametern für das Auswendiglernen, was eine Revision der klassischen skalierbaren Berechnungsgesetze erfordert.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

Die Arbeit stellt EigenBench vor, eine Black-Box-Methode, die mithilfe von EigenTrust und gegenseitigen Modellbewertungen ohne Ground-Truth-Labels quantitative Werte für die Ausrichtung von Sprachmodellen auf menschliche Werte ermittelt und dabei eine hohe Übereinstimmung mit menschlichen Urteilen sowie die Wiederherstellung bekannter Modellrankings zeigt.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Die Arbeit stellt GACD vor, eine feinstimulierungsfreie Inferenzmethode, die durch gradientenbasierte Schätzung und gezielte Unterdrückung von visuellen Verzerrungen sowie eine Neugewichtung multimodaler Beiträge Multimodal-Halluzinationen in großen Sprachmodellen effektiv reduziert.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

Die Autoren stellen DQO vor, eine auf Determinantenpunktprozessen basierende Nachtrainierungsmethode für große Sprachmodelle, die semantische Vielfalt und Antwortqualität gleichzeitig optimiert, ohne die Leistungsfähigkeit zu beeinträchtigen.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

BinaryShield ist ein bahnbrechendes System, das durch die Umwandlung von verdächtigen Prompts in datenschutzkonforme Fingerabdrücke mittels PII-Bereinigung, semantischer Einbettung und binärer Quantisierung die sichere, grenzüberschreitende Weitergabe von Bedrohungsinformationen zwischen LLM-Diensten ermöglicht, ohne die Compliance-Anforderungen zu verletzen.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Die Arbeit stellt SVDecode vor, eine theoretisch fundierte und parameter-effiziente Methode, die durch die Ableitung eines Steuerungsvektors aus dem KL-Divergenz-Gradienten die Ausgabe-Verteilung von Large Language Models direkt während des Dekodierprozesses anpasst und so die Leistung bei Downstream-Aufgaben signifikant verbessert, ohne zusätzliche trainierbare Parameter zu benötigen.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

← Zurück Weiter →