cs.CL Arbeiten | Gist.Science

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Das Paper stellt VoxKnesset vor, einen großen, longitudinalen hebräischen Sprachdatensatz mit Parlamentsaufnahmen von 393 Sprechern über 15 Jahre, der genutzt wird, um die Auswirkungen des Alterns auf die Sprechererkennung und Altersvorhersage zu untersuchen und robuste Sprachsysteme zu entwickeln.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Der Artikel stellt FreeAct vor, ein neuartiges Quantisierungsframework für Large Language Models, das durch die Einführung token-spezifischer Transformationen für Aktivierungen die starren Einschränkungen bestehender Methoden überwindet und so insbesondere bei Diffusions- und Multimodal-LLMs die Leistung signifikant verbessert.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Die vorgestellte Arbeit führt eine inkrementelle $k$ -NN-Graph-Konstruktion ein, die durch gezielte Verknüpfung neuer Knoten mit bereits eingefügten Nachbarn die Konnektivität garantiert und so die Robustheit des spektralen Clusterings von Text-Embeddings insbesondere bei geringer Nachbarschaftszahl ( $k$ ) verbessert.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Diese Studie stellt ein mathematisches Modell vor, das auf einer mengenwertigen Mengenfunktion basiert, um die dynamischen Mechanismen der grammatischen Geschlechtsschiebung und morphologischen Variation, insbesondere im Riffischen, durch eine formale Zuordnung von Lexemen zu morphologischen Templates zu erklären.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Diese Arbeit erklärt die überlegene Parallelisierbarkeit linearer RNNs im Vergleich zu nichtlinearen RNNs durch eine Verbindung zu Komplexitätsklassen, wonach lineare RNNs logarithmische Tiefenschaltungen darstellen, während nichtlineare Varianten P-vollständige Probleme lösen können, was eine fundamentale Barriere für ihre effiziente Parallelisierung darstellt.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Diese Studie präsentiert Bielik-Q2-Sharp, die erste systematische akademische Evaluation extremer 2-Bit-Quantisierungsmethoden für das polnische 11-Milliarden-Parameter-Sprachmodell Bielik, die zeigt, dass QuIP# und QTIP nahezu die Leistung der IQ2_XXS-Baseline bei deutlich geringerem Speicherbedarf erreichen und dabei ein Phänomen der Diskrepanz zwischen Log-Likelihood und Autoregression bei rotationsbasierten Methoden aufdecken.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Die Arbeit stellt AgentIR vor, ein retrieval-System, das durch die gemeinsame Einbettung von Suchanfragen und den dazugehörigen Denkprozessen von Deep-Research-Agenten sowie einer neuen Datengenerierungsmethode (DR-Synth) eine deutlich höhere Genauigkeit als herkömmliche Modelle erzielt.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Die Arbeit stellt SearchGym vor, eine modulare Infrastruktur für plattformübergreifendes Benchmarking und hybride Suchorchestrierung, die durch die Entkopplung von Datenrepräsentation und Retrieval-Logik reproduzierbare Systemkonfigurationen ermöglicht und neue Erkenntnisse zur optimalen Reihenfolge von semantischer Rangfolge und strukturiertem Filtern liefert.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Die Studie stellt FinRetrieval vor, einen Benchmark für die Fähigkeit von KI-Agenten, numerische Finanzdaten aus strukturierten Datenbanken zu extrahieren, und zeigt, dass die Verfügbarkeit spezialisierter APIs den Erfolg entscheidend bestimmt, während reine Web-Suche oder Reasoning-Modi nur geringe Vorteile bieten.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Diese Studie validiert einen Large-Language-Model-Ansatz, der durch die Analyse von über 16.000 TripAdvisor-Bewertungen verborgene Treiber der Passagierzufriedenheit aufdeckt und dabei eine kritische Diskrepanz zwischen operativen Verbesserungen und der sinkenden Zufriedenheit bei EgyptAir nach 2022 identifiziert.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Die Arbeit stellt CTRL-RAG vor, eine neue Reinforcement-Learning-Methode für RAG-Modelle, die durch einen kontrastiven Likelihood-basierten Belohnungsmechanismus die Kontexttreue verbessert und so Halluzinationen reduziert, ohne ausschließlich auf externe Bewertungen angewiesen zu sein.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Die Studie zeigt, dass semantische Auslöser allein ausreichen, um in feinabgestimmten Sprachmodellen eine Kontext-Isolierung schädlichen Verhaltens zu erzeugen, selbst wenn ausschließlich schädliche Trainingsdaten verwendet wurden, was eine kritische Sicherheitslücke für die Bewertung von KI-Modellen aufdeckt.

Rohan Saxena2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Diese Arbeit stellt mit „Probing Memes" ein neues Evaluationsparadigma vor, das Large Language Models als Träger kultureller Gene (Memes) betrachtet und durch eine Wahrnehmungsmatrix die komplexen Wechselwirkungen zwischen Modellen und Daten analysiert, um verborgene Fähigkeitsstrukturen und populationsbasierte Verhaltensmerkmale zu quantifizieren, die traditionelle Methoden übersehen.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Unpacking Human Preference for LLMs: Demographically Aware Evaluation with the HUMAINE Framework

Die Studie stellt das HUMAINE-Framework vor, das auf der Bewertung von 28 Sprachmodellen durch 23.404 demografisch stratiﬁzierte Teilnehmer basiert, und zeigt auf, dass Gemini 2.5 Pro insgesamt am besten abschneidet, während Präferenzen stark vom Alter abhängen und verschiedene Bewertungskriterien unterschiedlich diskriminierend wirken.

Nora Petrova, Andrew Gordon, Enzo Blindow2026-03-06💻 cs

SalamahBench: Toward Standardized Safety Evaluation for Arabic Language Models

Das Paper stellt SalamahBench vor, ein standardisiertes Sicherheitsbenchmark für arabische Sprachmodelle, das auf 8.170 Prompts basiert und zeigt, dass die Sicherheitsausrichtung aktueller Modelle uneinheitlich ist und spezialisierte Schutzmechanismen erforderlich sind.

Omar Abdelnasser, Fatemah Alharbi, Khaled Khasawneh + 2 more2026-03-06💻 cs

One Size Does Not Fit All: Token-Wise Adaptive Compression for KV Cache

Das Paper stellt DynaKV vor, ein nachträglich trainierbares Framework zur tokenweisen adaptiven Kompression des KV-Caches, das durch dynamische Zuweisung von Kompressionsraten je nach semantischer Bedeutung eine signifikante Speichereinsparung bei Erhalt der Generierungsqualität ermöglicht.

Liming Lu, Kaixi Qiu, Jiayu Zhou + 6 more2026-03-06💻 cs

Additive Multi-Step Markov Chains and the Curse of Dimensionality in Large Language Models

Diese Arbeit etabliert eine theoretische Äquivalenz zwischen additiven N-stufigen Markov-Ketten und Ketten mit schrittweiser Gedächtnisfunktion, um die Dimensionalitätsprobleme in Large Language Models zu adressieren und das Konzept der Informationstemperatur auf additive Markov-Prozesse zu erweitern.

O. V. Usatenko, S. S. Melnyk, G. M. Pritula2026-03-06💻 cs

Simulating Meaning, Nevermore! Introducing ICR: A Semiotic-Hermeneutic Metric for Evaluating Meaning in LLM Text Summaries

Dieser Artikel stellt mit dem Inductive Conceptual Rating (ICR) einen neuen semiotisch-hermeneutischen Bewertungsrahmen vor, der zeigt, dass große Sprachmodelle trotz hoher lexikalischer Ähnlichkeit oft an der semantischen Genauigkeit und kontextuellen Bedeutungserfassung menschlicher Zusammenfassungen scheitern.

Natalie Perez, Sreyoshi Bhaduri, Aman Chadha2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Die Studie stellt RoBERTa-OTA vor, ein hybrides Modell, das Transformer-Aufmerksamkeitsmechanismen mit Graph Convolutional Networks und ontologischem Wissen kombiniert, um die Genauigkeit der multiklassigen Hassrede-Erkennung über demografische Kategorien hinweg signifikant zu steigern, ohne dabei die Recheneffizienz nennenswert zu beeinträchtigen.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs

← Zurück Weiter →