cs.CL Arbeiten | Gist.Science

Query-focused and Memory-aware Reranker for Long Context Processing

Die Autoren stellen einen leichten und effektiven Reranker vor, der auf Aufmerksamkeitswerten ausgewählter Schichten in Sprachmodellen basiert, um eine listweise Relevanzschätzung ohne Likert-Skalen-Supervision zu ermöglichen und dabei neue State-of-the-Art-Ergebnisse auf Benchmarks für lange Kontexte und Dialogverständnis zu erzielen.

Yuqing Li, Jiangnan Li, Mo Yu, Guoxuan Ding, Zheng Lin, Weiping Wang, Jie Zhou2026-03-11💬 cs.CL

Missing-by-Design: Certifiable Modality Deletion for Revocable Multimodal Sentiment Analysis

Die Arbeit stellt „Missing-by-Design" (MBD) vor, ein einheitliches Framework für multimodale Sentiment-Analyse, das durch strukturierte Repräsentationslernen und einen zertifizierbaren Parameter-Modifikationsprozess die selektive und nachweisbare Löschung spezifischer Datenmodalitäten ermöglicht, ohne die Vorhersagegenauigkeit bei unvollständigen Eingaben zu beeinträchtigen.

Rong Fu, Ziming Wang, Chunlei Meng, Jiaxuan Lu, Jiekai Wu, Kangan Qian, Hao Zhang, Simon Fong2026-03-11🤖 cs.LG

AuditBench: Evaluating Alignment Auditing Techniques on Models with Hidden Behaviors

Die Arbeit stellt AuditBench vor, einen Benchmark mit 56 Sprachmodellen, die versteckte, problematische Verhaltensweisen aufweisen, um die Wirksamkeit von Ausrichtungsaudit-Techniken zu evaluieren und dabei festzustellen, dass schwarze-Box-Tools sowie scaffolding-basierte Prompts effektiver sind als weiße-Box-Methoden, während die Auditierbarkeit stark von der Trainingsmethode abhängt.

Abhay Sheshadri, Aidan Ewart, Kai Fronsdal, Isha Gupta, Samuel R. Bowman, Sara Price, Samuel Marks, Rowan Wang2026-03-11💬 cs.CL

SkillCraft: Can LLM Agents Learn to Use Tools Skillfully?

Die Arbeit stellt SkillCraft vor, einen Benchmark und ein Evaluierungsprotokoll, das die Fähigkeit von LLM-Agenten testet, wiederverwendbare Werkzeugkombinationen („Skills") zu bilden und zu nutzen, was zu erheblichen Effizienzsteigerungen und einer starken Korrelation zwischen Erfolg und kompositorischer Fähigkeit führt.

Shiqi Chen, Jingze Gai, Ruochen Zhou, Jinghan Zhang, Tongyao Zhu, Junlong Li, Kangrui Wang, Zihan Wang, Zhengyu Chen, Klara Kaleb, Ning Miao, Siyang Gao, Cong Lu, Manling Li, Junxian He, Yee Whye Teh2026-03-11💬 cs.CL

PonderLM-3: Adaptive Token-Wise Pondering with Differentiable Masking

Das Paper stellt PonderLM-3 vor, ein vortrainiertes Framework, das durch differenzierbare Maskierung während des Trainings und eine konsistente Pruning-Regel beim Inferenzvorgang eine adaptive, tokenweise Zuweisung von Rechenleistung ermöglicht, wodurch die Berechnungskosten nur bei tatsächlichem Nutzen anfallen und eine effizientere Pareto-Grenze erreicht wird.

He Li, Feichen Song, Boyi Zeng, Shixiang Song, Zhiqin John Xu, Ziwei He, Zhouhan Lin2026-03-11💬 cs.CL

VeriInteresting: An Empirical Study of Model Prompt Interactions in Verilog Code Generation

Die Studie „VeriInteresting" liefert eine empirische Analyse der Wechselwirkungen zwischen verschiedenen Sprachmodellklassen und Prompt-Strategien bei der Verilog-Code-Generierung und identifiziert generalisierbare Muster sowie modellspezifische Trends.

Luca Collini, Andrew Hennesee, Patrick Yubeaton, Siddharth Garg, Ramesh Karri2026-03-11💻 cs

Self-hosted Lecture-to-Quiz: Local LLM MCQ Generation with Deterministic Quality Control

Diese Arbeit stellt eine vollständig lokal gehostete Pipeline vor, die Vorlesungsinhalte ohne externe APIs in Multiple-Choice-Fragen umwandelt und dabei durch deterministische Qualitätskontrollen Datenschutz, Nachvollziehbarkeit und ökologische Nachhaltigkeit im Bildungsbereich sicherstellt.

Seine A. Shintani2026-03-11💻 cs

Fish Audio S2 Technical Report

Der technische Bericht stellt Fish Audio S2 vor, ein Open-Source-Text-to-Speech-System, das durch mehrstufiges Training und eine spezielle Datenpipeline eine natürliche Sprachsteuerung, Multi-Speaker-Fähigkeiten und Multi-Turn-Generation ermöglicht und dabei mit einer effizienten SGLang-Inferenz-Engine eine Echtzeitfaktor von 0,195 sowie eine Latenz unter 100 ms erreicht.

Shijia Liao, Yuxuan Wang, Songting Liu, Yifan Cheng, Ruoyi Zhang, Tianyu Li, Shidong Li, Yisheng Zheng, Xingwei Liu, Qingzheng Wang, Zhizhuo Zhou, Jiahua Liu, Xin Chen, Dawei Han2026-03-11🤖 cs.AI

MASEval: Extending Multi-Agent Evaluation from Models to Systems

Das Paper stellt MASEval vor, ein framework-agnostisches Evaluationsframework, das nachweist, dass die Wahl des Agenten-Frameworks ebenso entscheidend für die Leistung ist wie die des zugrunde liegenden Modells, und ermöglicht somit eine systemische Analyse aller Komponenten agenter Systeme.

Cornelius Emde, Alexander Rubinstein, Anmol Goel, Ahmed Heakl, Sangdoo Yun, Seong Joon Oh, Martin Gubri2026-03-11🤖 cs.AI

One Language, Two Scripts: Probing Script-Invariance in LLM Concept Representations

Die Studie nutzt die serbische Digraphie als kontrolliertes Testfeld, um nachzuweisen, dass Sparse Autoencoder-Features in LLMs semantische Bedeutungen unabhängig von der Orthografie (lateinisch vs. kyrillisch) erfassen, wobei diese Abstraktion mit zunehmender Modellgröße weiter zunimmt.

Sripad Karne2026-03-11💬 cs.CL

MultiGraSCCo: A Multilingual Anonymization Benchmark with Annotations of Personal Identifiers

Das Paper stellt MultiGraSCCo vor, ein multilinguales Benchmark-Dataset mit über 2.500 Annotationen persönlicher Identifikatoren in zehn Sprachen, das durch maschinelle Übersetzung und kulturelle Anpassung synthetischer medizinischer Daten erstellt wurde, um die Entwicklung und Validierung von Anonymisierungssystemen zu unterstützen.

Ibrahim Baroud, Christoph Otto, Vera Czehmann, Christine Hovhannisyan, Lisa Raithel, Sebastian Möller, Roland Roller2026-03-11💬 cs.CL

From Word2Vec to Transformers: Text-Derived Composition Embeddings for Filtering Combinatorial Electrocatalysts

Die Studie zeigt, dass eine label-freie Screening-Strategie, die auf Text-abgeleiteten Word2Vec-Einbettungen von Elementen basiert, oft effizienter als Transformer-Modelle ist, um aus riesigen kombinatorischen Räumen vielversprechende Elektrokatalysator-Zusammensetzungen ohne experimentelle Daten zu identifizieren.

Lei Zhang, Markus Stricker2026-03-11🔬 cond-mat.mtrl-sci

ConFu: Contemplate the Future for Better Speculative Sampling

Die Arbeit stellt ConFu vor, ein neues Framework für spekulatives Decoding, das durch die Einführung von „Contemplate Tokens" und weichen Prompts Draft-Modellen ermöglicht, die zukünftige Generierungsrichtung des Zielmodells vorherzusehen, wodurch die Akzeptanzraten und die Geschwindigkeit im Vergleich zu EAGLE-3 signifikant gesteigert werden.

Zongyue Qin, Raghavv Goel, Mukul Gagrani, Risheek Garrepalli, Mingu Lee, Yizhou Sun2026-03-11💬 cs.CL

SciTaRC: Benchmarking QA on Scientific Tabular Data that Requires Language Reasoning and Complex Computation

Die Studie stellt mit SciTaRC einen neuen Benchmark für wissenschaftliche Tabellendaten vor, der zeigt, dass aktuelle KI-Modelle aufgrund von Schwächen in der Planausführung, dem Sprachverständnis und der Berechnung bei über 23 % der Fragen scheitern.

Hexuan Wang, Yaxuan Ren, Srikar Bommireddypalli, Shuxian Chen, Adarsh Prabhudesai, Rongkun Zhou, Elina Baral, Philipp Koehn2026-03-11💬 cs.CL

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Die Studie stellt PathoScribe vor, ein einheitliches Framework auf Basis von Retrieval-Augmented Large Language Models, das statische Pathologie-Archive in eine interaktive Wissensdatenbank verwandelt und durch Funktionen wie semantische Suche, automatische Kohortenbildung sowie klinische Fragebeantwortung die Diagnoseunterstützung und Forschungseffizienz erheblich steigert.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan Niazi2026-03-11🤖 cs.AI

VoxEmo: Benchmarking Speech Emotion Recognition with Speech LLMs

Die Arbeit stellt VoxEmo vor, ein umfassendes Benchmark-Toolkit für die Spracherkennung von Emotionen mit Sprach-LLMs, das durch die Einbeziehung von 35 Korpora in 15 Sprachen, standardisierte Prompt-Strategien und ein weiches Labeling-Verfahren die subjektive Natur menschlicher Emotionen besser abbildet als herkömmliche Ansätze.

Hezhao Zhang, Huang-Cheng Chou, Shrikanth Narayanan, Thomas Hain2026-03-11🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Das Paper stellt BiCLIP vor, einen extrem einfachen und parameterarmen Rahmen, der durch eine strukturierte geometrische Transformation multimodaler Merkmale, die auf wenigen Ankerpunkten basiert, das Zero-Shot-Lernen von Vision-Language-Modellen in spezialisierten Domänen auf den Stand des Kunstzustands bringt.

Pranav Mantini, Shishir K. Shah2026-03-11🤖 cs.AI

A Consensus-Driven Multi-LLM Pipeline for Missing-Person Investigations

Die Arbeit stellt Guardian vor, ein konsensgesteuertes Multi-LLM-System mit QLoRA-Feinabstimmung, das spezialisierte Modelle und einen Konsens-Engine koordiniert, um die Informationsgewinnung und Suchplanung bei Vermisstenfällen in den kritischen ersten 72 Stunden zu unterstützen.

Joshua Castillo, Ravi Mukkamala2026-03-11🤖 cs.AI

Automated Thematic Analysis for Clinical Qualitative Data: Iterative Codebook Refinement with Full Provenance

Die Studie stellt ein automatisiertes Framework zur thematischen Analyse klinischer qualitativer Daten vor, das durch iterative Verfeinerung des Codebuchs und vollständige Nachverfolgbarkeit die Skalierbarkeit und Reproduzierbarkeit verbessert und dabei in mehreren Datensätzen die höchste Gesamtqualität sowie eine hohe Übereinstimmung mit Expertenbewertungen erreicht.

Seungjun Yi, Joakim Nguyen, Huimin Xu, Terence Lim, Joseph Skrovan, Mehak Beri, Hitakshi Modi, Andrew Well, Carlos M. Mery, Yan Zhang, Mia K. Markey, Ying Ding2026-03-11💬 cs.CL

Learning When to Sample: Confidence-Aware Self-Consistency for Efficient LLM Chain-of-Thought Reasoning

Die vorgestellte Arbeit führt einen konfidenzbasierten Rahmen ein, der anhand eines einzelnen Lösungswegs adaptiv zwischen Einzel- und Mehrfachpfad-Reasoning entscheidet, um die Genauigkeit von Large Language Models bei gleichzeitiger Reduktion des Tokenverbrauchs um bis zu 80 % zu erhalten.

Juming Xiong, Kevin Guo, Congning Ni, Chao Yan, Katherine Brown, Avinash Baidya, Xiang Gao, Bradley Marlin, Zhijun Yin2026-03-11💬 cs.CL

← Zurück Weiter →