cs.CL Arbeiten | Gist.Science

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

Das Paper stellt SarcasmMiner vor, ein auf Bestärkendem Lernen basierendes Nachtrainierungsframework, das durch eine Dual-Track-Destillationsstrategie und ein generatives Belohnungsmodell die robuste multimodale Sarkasmuserkennung verbessert und die F1-Leistung auf dem MUStARD++-Datensatz signifikant steigert.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Knowledge Divergence and the Value of Debate for Scalable Oversight

Diese Arbeit stellt den ersten formalen Zusammenhang zwischen KI-Debatte und RLAIF her, indem sie den Vorteil von Debatten durch die geometrische Divergenz des Wissens zwischen Modellen quantifiziert und zeigt, dass Debatten bei komplementärem Wissen entscheidend sind, während sie bei identischem Training auf RLAIF reduziert werden.

Robin Young2026-03-06🤖 cs.LG

WavSLM: Single-Stream Speech Language Modeling via WavLM Distillation

Die Arbeit stellt WavSLM vor, ein einfaches, single-stream Sprachmodell, das durch Quantisierung und Distillation von WavLM-Repräsentationen semantische und akustische Informationen ohne Textsupervision in einem einzigen Token-Stream modelliert und dabei wettbewerbsfähige Ergebnisse bei geringerer Komplexität erzielt.

Luca Della Libera, Cem Subakan, Mirco Ravanelli2026-03-06🤖 cs.AI

Med-V1: Small Language Models for Zero-shot and Scalable Biomedical Evidence Attribution

Das Paper stellt Med-V1 vor, eine Familie effizienter Small Language Models mit nur drei Milliarden Parametern, die durch Training auf hochwertigen synthetischen Daten in der biomedizinischen Evidenzattribution und Halluzinationserkennung die Leistung von teuren Frontier-Modellen wie GPT-5 erreichen und dabei skalierbare Anwendungen für die klinische Praxis ermöglichen.

Qiao Jin, Yin Fang, Lauren He + 12 more2026-03-06🤖 cs.AI

PersianPunc: A Large-Scale Dataset and BERT-Based Approach for Persian Punctuation Restoration

Die Autoren stellen den großen Datensatz „PersianPunc" und einen effizienten, auf ParsBERT basierenden Ansatz vor, der mit einer F1-Bewertung von 91,33 % eine präzise und ressourcenschonende Wiederherstellung von Satzzeichen im Persischen ermöglicht und dabei die Nachteile größerer Sprachmodelle vermeidet.

Mohammad Javad Ranjbar Kalahroodi, Heshaam Faili, Azadeh Shakery2026-03-06🤖 cs.AI

A Multilingual Human Annotated Corpus of Original and Easy-to-Read Texts to Support Access to Democratic Participatory Processes

Dieses Paper stellt ein mehrsprachiges, von Menschen annotiertes Korpus mit Originaltexten und vereinfachten Easy-to-Read-Versionen für Spanisch, Katalanisch und Italienisch vor, um die automatische Textvereinfachung zu unterstützen und den Zugang zu demokratischen Partizipationsprozessen zu fördern.

Stefan Bott, Verena Riegler, Horacio Saggion + 2 more2026-03-06💬 cs.CL

Exploring the potential and limitations of Model Merging for Multi-Domain Adaptation in ASR

Diese Arbeit untersucht die Eignung von Modell-Merging für die Mehrdomänen-Anpassung in der automatischen Spracherkennung, stellt mit BoostedTSV-M einen neuen Algorithmus vor, der die numerische Stabilität verbessert, und zeigt, dass dieser Ansatz die Leistung einer vollständigen Feinabstimmung für europäisches Portugiesisch übertrifft, während die Generalisierungsfähigkeit erhalten bleibt.

Carlos Carvalho, Francisco Teixeira, Thomas Rolland + 1 more2026-03-06💬 cs.CL

DiSCTT: Consensus-Guided Self-Curriculum for Efficient Test-Time Adaptation in Reasoning

Das Paper stellt DiSCTT vor, einen konsensgesteuerten Selbst-Lehrplan-Ansatz für die Testzeit-Adaption von Large Language Models, der durch die dynamische Zuweisung von Optimierungsstrategien basierend auf der Unsicherheit einzelner Instanzen die Effizienz und Stabilität beim Lösen von Reasoning-Aufgaben deutlich verbessert.

Mohammad Mahdi Moradi, Sudhir Mudur2026-03-06💬 cs.CL

Progressive Residual Warmup for Language Model Pretraining

Die Arbeit stellt Progressive Residual Warmup (ProRes) vor, eine Methode, die durch ein schrittweises „Warmup" der Residuen in tieferen Schichten die Stabilität und Konvergenzgeschwindigkeit beim Vortraining von Sprachmodellen verbessert und zu besserer Generalisierung sowie Downstream-Leistung führt.

Tianhao Chen, Xin Xu, Lu Yin + 4 more2026-03-06💬 cs.CL

An Exploration-Analysis-Disambiguation Reasoning Framework for Word Sense Disambiguation with Low-Parameter LLMs

Diese Studie zeigt, dass durch rationale Feinabstimmung und Chain-of-Thought-Verfahren kleine Sprachmodelle mit weniger als 4 Milliarden Parametern die Wortbedeutungsdisambiguierung ebenso effektiv bewältigen können wie große Modelle, dabei jedoch erheblich weniger Rechenleistung und Energie verbrauchen.

Deshan Sumanathilaka, Nicholas Micallef, Julian Hough2026-03-06💬 cs.CL

Dissociating Direct Access from Inference in AI Introspection

Die Studie zeigt, dass KI-Modelle eingefügte Repräsentationen durch zwei getrennte Mechanismen erkennen: eine inhaltsunabhängige direkte Zugriffsweise auf interne Zustände und eine Inferenz basierend auf Wahrscheinlichkeitsanpassungen, wobei sie bei der Identifizierung des semantischen Inhalts oft scheitern.

Harvey Lederman, Kyle Mahowald2026-03-06🤖 cs.AI

Ensembling Language Models with Sequential Monte Carlo

Diese Arbeit stellt ein einheitliches Framework vor, das mithilfe eines byte-level Sequential-Monte-Carlo-Algorithmus mehrere Sprachmodelle zu $f$ -Ensembles kombiniert, um Verzerrungen bei der Stichprobenziehung zu vermeiden und die Leistung bei strukturierten Textgenerierungsaufgaben zu verbessern.

Robin Shing Moon Chan, Tianyu Liu, Samuel Kiegeland + 5 more2026-03-06🤖 cs.AI

Distributed Partial Information Puzzles: Examining Common Ground Construction Under Epistemic Asymmetry

Die Studie stellt das verteilte Puzzle mit partiellen Informationen (DPIP) als neue multimodale Datensatz und Aufgabe vor, um die Konstruktion gemeinsamen Wissens unter epistemischer Asymmetrie zu untersuchen, und zeigt, dass sowohl moderne Large Language Models als auch ein axiomatischer Ansatz der dynamischen epistemischen Logik Schwierigkeiten haben, den Glaubenszustand und den Fortschritt in solchen kollaborativen Szenarien präzise zu verfolgen.

Yifan Zhu, Mariah Bradford, Kenneth Lai + 4 more2026-03-06🤖 cs.AI

FlashAttention-4: Algorithm and Kernel Pipelining Co-Design for Asymmetric Hardware Scaling

Dieses Paper stellt FlashAttention-4 vor, eine neuartige Implementierung für Blackwell-GPUs, die durch algorithmische und Kernel-Pipelining-Optimierungen zur Bewältigung asymmetrischer Hardware-Skalierung sowie durch die vollständige Implementierung in CuTe-DSL eine bis zu 2,7-fache Beschleunigung und deutlich schnellere Kompilierungszeiten erreicht.

Ted Zadouri, Markus Hoehnerbach, Jay Shah + 3 more2026-03-06💬 cs.CL

DEBISS: a Corpus of Individual, Semi-structured and Spoken Debates

Die Arbeit stellt das DEBISS-Korpus vor, eine Sammlung von gesprochenen und individuellen Debatten mit halbstrukturierten Merkmalen, die durch umfangreiche NLP-Annotationen wie Spracherkennung, Sprecherdiarisierung, Argumentmining und Debattantenbewertung ergänzt wird, um die Lücke im Bereich der Debattenkorpora zu schließen.

Klaywert Danillo Ferreira de Souza, David Eduardo Pereira, Cláudio E. C. Campelo + 1 more2026-03-06💬 cs.CL

NCTB-QA: A Large-Scale Bangla Educational Question Answering Dataset and Benchmarking Performance

Die Studie stellt NCTB-QA vor, einen großen, ausgewogenen Datensatz für Bangla-Fragenbeantwortung mit vielen unbeantwortbaren Fragen aus Schulbüchern, und zeigt, dass das Feinabstimmen von Transformer-Modellen die Leistung in diesem ressourcenarmen Bereich erheblich verbessert.

Abrar Eyasir, Tahsin Ahmed, Muhammad Ibrahim2026-03-06💬 cs.CL

Leveraging LLM Parametric Knowledge for Fact Checking without Retrieval

Die Studie stellt INTRA vor, eine Methode, die parametrisches Wissen von Large Language Models durch die Analyse interner Repräsentationen nutzt, um faktische Behauptungen ohne externe Retrieval-Systeme zuverlässig zu überprüfen und dabei robuste Generalisierung über verschiedene Sprachen, Quellen und Wissensbereiche hinweg zu erreichen.

Artem Vazhentsev, Maria Marina, Daniil Moskovskiy + 8 more2026-03-06🤖 cs.AI

Reasoning Theater: Disentangling Model Beliefs from Chain-of-Thought

Die Studie zeigt, dass Aktivierungsproben die interne Gewissheit von Reasoning-Modellen bereits frühzeitig erkennen können, bevor diese ihre Schlussfolgerungen offenbaren, und ermöglicht so eine effiziente Reduzierung der Token-Ausgabe durch adaptive Berechnung, während echte Unsicherheit und „Reasoning Theater" unterschieden werden.

Siddharth Boppana, Annabel Ma, Max Loeffler + 5 more2026-03-06🤖 cs.AI

Censored LLMs as a Natural Testbed for Secret Knowledge Elicitation

Diese Studie nutzt zensierte chinesische Open-Weight-LLMs als Testumgebung, um Techniken zur Förderung von Ehrlichkeit und zur Erkennung von Lügen zu evaluieren, wobei sich zwar einige Methoden als wirksam erweisen, keine jedoch falsche Antworten vollständig eliminieren kann.

Helena Casademunt, Bartosz Cywiński, Khoi Tran + 3 more2026-03-06🤖 cs.AI

The Spike, the Sparse and the Sink: Anatomy of Massive Activations and Attention Sinks

Die Studie zeigt, dass massive Aktivierungen und Attention Sinks in Transformer-Modellen zwar häufig gemeinsam auftreten, jedoch durch die Pre-Norm-Architektur bedingt sind und unterschiedliche Funktionen erfüllen, wobei erstere als globale implizite Parameter und letztere als lokale Modulatoren der Aufmerksamkeit wirken.

Shangwen Sun, Alfredo Canziani, Yann LeCun + 1 more2026-03-06🤖 cs.AI

← Zurück Weiter →