cs.CL Arbeiten | Gist.Science

SpiroLLM: Finetuning Pretrained LLMs to Understand Spirogram Time Series with Clinical Validation in COPD Reporting

Die Studie stellt SpiroLLM vor, das erste multimodale Large Language Model, das mithilfe von UK-Biobank-Daten Spirogramme versteht und interpretierbare COPD-Berichte erstellt, wodurch die klinische Zuverlässigkeit und Diagnosegenauigkeit im Vergleich zu rein textbasierten Ansätzen erheblich gesteigert wird.

Shuhao Mei, Yongchao Long, Xiaoyu Xiao + 6 more2026-03-03💬 cs.CL

Diversity-Enhanced Reasoning for Subjective Questions

Die Arbeit stellt MultiRole-R1 vor, ein Diversitäts-fokussiertes Trainingsframework, das durch die Integration von Rollenperspektiven und Token-Vielfalt die Leistung von Large Reasoning Models bei subjektiven Aufgaben signifikant verbessert und dabei sogar die Fähigkeiten im mathematischen Reasoning steigert.

Yumeng Wang, Zhiyuan Fan, Jiayu Liu + 2 more2026-03-03💬 cs.CL

Rote Learning Considered Useful: Generalizing over Memorized Data in LLMs

Die Studie widerlegt die Annahme, dass auswendiges Lernen die Generalisierung behindert, indem sie zeigt, dass große Sprachmodelle durch einen zweiphasigen Ansatz faktisches Wissen zunächst auswendig lernen und anschließend über semantisch sinnvolle Prompts erfolgreich generalisieren können.

Qinyuan Wu, Soumi Das, Mahsa Amani + 4 more2026-03-03💬 cs.CL

DeepSieve: Information Sieving via LLM-as-a-Knowledge-Router

Die Arbeit stellt DeepSieve vor, ein agentices RAG-Framework, das Large Language Models als Wissensrouter einsetzt, um komplexe Anfragen in strukturierte Teilfragen zu zerlegen und durch mehrstufige Filterung präzise, tiefgründige und interpretierbare Antworten aus heterogenen Quellen zu generieren.

Minghao Guo, Qingcheng Zeng, Xujiang Zhao + 5 more2026-03-03💬 cs.CL

Uni-cot: Towards Unified Chain-of-Thought Reasoning Across Text and Vision

Das Paper stellt Uni-CoT vor, ein einheitliches Chain-of-Thought-Framework, das durch eine zweistufige Denkstrategie und ein strukturiertes Trainingskonzept kohärente multimodale Schlussfolgerungen über Text und Bild hinweg ermöglicht und dabei ressourceneffizient auf nur acht A100-GPUs trainiert werden kann.

Luozheng Qin, Jia Gong, Yuqing Sun + 6 more2026-03-03💬 cs.CL

Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks

Die Studie zeigt, dass für Mixture-of-Experts-Modelle die optimale Sparsamkeit nicht allein durch den Trainingsverlust bestimmt wird, sondern durch das Zusammenspiel von aktiven FLOPs für das logische Schlussfolgern und dem Verhältnis von Gesamt-Token zu Parametern für das Auswendiglernen, was eine Revision der klassischen skalierbaren Berechnungsgesetze erfordert.

Taishi Nakamura, Satoki Ishikawa, Masaki Kawamura + 4 more2026-03-03💬 cs.CL

EigenBench: A Comparative Behavioral Measure of Value Alignment

Die Arbeit stellt EigenBench vor, eine Black-Box-Methode, die mithilfe von EigenTrust und gegenseitigen Modellbewertungen ohne Ground-Truth-Labels quantitative Werte für die Ausrichtung von Sprachmodellen auf menschliche Werte ermittelt und dabei eine hohe Übereinstimmung mit menschlichen Urteilen sowie die Wiederherstellung bekannter Modellrankings zeigt.

Jonathn Chang, Leonhard Piff, Suvadip Sana + 2 more2026-03-03💬 cs.CL

Mitigating Multimodal Hallucinations via Gradient-based Self-Reflection

Die Arbeit stellt GACD vor, eine feinstimulierungsfreie Inferenzmethode, die durch gradientenbasierte Schätzung und gezielte Unterdrückung von visuellen Verzerrungen sowie eine Neugewichtung multimodaler Beiträge Multimodal-Halluzinationen in großen Sprachmodellen effektiv reduziert.

Shan Wang, Maying Shen, Nadine Chang + 3 more2026-03-03💬 cs.CL

Post-training Large Language Models for Diverse High-Quality Responses

Die Autoren stellen DQO vor, eine auf Determinantenpunktprozessen basierende Nachtrainierungsmethode für große Sprachmodelle, die semantische Vielfalt und Antwortqualität gleichzeitig optimiert, ohne die Leistungsfähigkeit zu beeinträchtigen.

Yilei Chen, Souradip Chakraborty, Lorenz Wolf + 2 more2026-03-03💬 cs.CL

BinaryShield: Cross-Service Threat Intelligence in LLM Services using Privacy-Preserving Fingerprints

BinaryShield ist ein bahnbrechendes System, das durch die Umwandlung von verdächtigen Prompts in datenschutzkonforme Fingerabdrücke mittels PII-Bereinigung, semantischer Einbettung und binärer Quantisierung die sichere, grenzüberschreitende Weitergabe von Bedrohungsinformationen zwischen LLM-Diensten ermöglicht, ohne die Compliance-Anforderungen zu verletzen.

Waris Gill, Natalie Isak, Matthew Dressman2026-03-03💬 cs.CL

Distribution-Aligned Decoding for Efficient LLM Task Adaptation

Die Arbeit stellt SVDecode vor, eine theoretisch fundierte und parameter-effiziente Methode, die durch die Ableitung eines Steuerungsvektors aus dem KL-Divergenz-Gradienten die Ausgabe-Verteilung von Large Language Models direkt während des Dekodierprozesses anpasst und so die Leistung bei Downstream-Aufgaben signifikant verbessert, ohne zusätzliche trainierbare Parameter zu benötigen.

Senkang Hu, Xudong Han, Jinqi Jiang + 5 more2026-03-03💬 cs.CL

Actions Speak Louder than Prompts: A Large-Scale Study of LLMs for Graph Inference

Diese groß angelegte Studie zeigt, dass LLMs als Code-Generatoren bei Graph-Aufgaben die beste Leistung erzielen, insbesondere bei langen Texten oder komplexen Strukturen, und widerlegt die Annahme, dass LLM-basierte Methoden bei heterophilen Graphen versagen, indem sie flexibel zwischen Struktur, Merkmalen und Labels adaptieren.

Ben Finkelshtein, Silviu Cucerzan, Sujay Kumar Jauhar + 1 more2026-03-03💬 cs.CL

PMark: Towards Robust and Distortion-free Semantic-level Watermarking with Channel Constraints

Das Paper stellt PMark vor, eine neue semantische Wasserzeichenmethode für große Sprachmodelle, die auf einem theoretischen Rahmenwerk mit Proxy-Funktionen und Kanalbeschränkungen basiert, um eine robuste, verzerrungsfreie und paraphrasenresistente Erkennung maschinell generierter Texte zu ermöglichen.

Jiahao Huo, Shuliang Liu, Bin Wang + 5 more2026-03-03💬 cs.CL

Bridging Draft Policy Misalignment: Group Tree Optimization for Speculative Decoding

Die Arbeit stellt Group Tree Optimization (GTO) vor, eine Methode, die durch die Ausrichtung des Trainings auf die Baum-Decodierungspolicy und die Einführung einer baumbasierten Belohnungsfunktion die Diskrepanz zwischen Entwurfs- und Zielpolitik bei der spekulativen Decodierung überwindet und so die Akzeptanzlänge sowie die Inferenzgeschwindigkeit von Large Language Models signifikant verbessert.

Shijing Hu, Jingyang Li, Zhihui Lu + 1 more2026-03-03💬 cs.CL

Test-Time Policy Adaptation for Enhanced Multi-Turn Interactions with LLMs

Die vorgestellte Arbeit stellt T2PAM und den darauf aufbauenden, effizienten Algorithmus ROSA vor, die durch die Nutzung von Echtzeit-Feedback als Belohnungssignal und eine theoretisch fundierte, einstufige Parameteranpassung die Fähigkeit von Large Language Models verbessern, sich während multi-turn Interaktionen an Benutzerpräferenzen anzupassen und Fehler selbst zu korrigieren.

Chenxing Wei, Hong Wang, Ying He + 2 more2026-03-03💬 cs.CL

Train Once, Answer All: Many Pretraining Experiments for the Cost of One

Die vorgestellte Arbeit schlägt eine Methode vor, bei der mehrere Vorab-Trainings-Experimente gleichzeitig in einem einzigen Lauf durchgeführt werden, um die Kosten zu senken und dennoch robuste wissenschaftliche Erkenntnisse über das Verhalten großer Sprachmodelle zu gewinnen, ohne deren Gesamtleistung signifikant zu beeinträchtigen.

Sebastian Bordt, Martin Pawelczyk2026-03-03💬 cs.CL

Dynamic Level Sets

Dieses Papier stellt das neue mathematische Konzept der „dynamischen Level-Sets" vor, das auf dem Prinzip der Selbstmodifizierbarkeit beruht, bei dem eine physikalische Invariante durch einen unentscheidbaren Prozess schrittweise neu konfiguriert wird, und erklärt damit, warum dieses Konzept bisher übersehen wurde und die klassischen Ergebnisse zur Berechenbarkeit probabilistischer Turingmaschinen herausfordert.

Michael Stephen Fiske2026-03-03🔢 math-ph

FeynTune: Large Language Models for High-Energy Theory

Die Studie stellt FeynTune vor, eine Reihe von spezialisierten, auf Llama-3.1 basierenden Large Language Models, die durch Fine-Tuning auf arXiv-Abstracts aus der Hochenergiephysik trainiert wurden und bei Aufgaben wie der Abstract-Vervollständigung sowohl das Basismodell als auch führende kommerzielle LLMs übertreffen.

Paul Richmond, Prarit Agarwal, Borun Chowdhury + 2 more2026-03-02⚛️ hep-th

What Are They Filtering Out? An Experimental Benchmark of Filtering Strategies for Harm Reduction in Pretraining Datasets

Diese Studie stellt einen experimentellen Benchmark für Filterstrategien zur Schadensreduzierung in Vortrainingsdatensätzen vor und zeigt, dass diese zwar schädliche Inhalte effektiv entfernen, jedoch gleichzeitig die Unterrepräsentation vulnerabler Gruppen verstärken.

Marco Antonio Stranisci, Christian Hardmeier2025-02-17💬 cs.CL

When ChatGPT is gone: Creativity reverts and homogeneity persists

Die Studie zeigt, dass ChatGPT zwar kurzfristig die menschliche Kreativität steigert, jedoch langfristig zu einem Rückfall auf das Ausgangsniveau und zu einer anhaltenden Homogenisierung der Inhalte führt, was die dauerhafte Integration generativer KI in kreative Prozesse infrage stellt.

Qinghan Liu, Yiyong Zhou, Jihao Huang + 1 more2024-01-11💬 cs.CL

← Zurück Weiter →