Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Diese Studie präsentiert Bielik-Q2-Sharp, die erste systematische akademische Evaluation extremer 2-Bit-Quantisierungsmethoden für das polnische 11-Milliarden-Parameter-Sprachmodell Bielik, die zeigt, dass QuIP# und QTIP nahezu die Leistung der IQ2_XXS-Baseline bei deutlich geringerem Speicherbedarf erreichen und dabei ein Phänomen der Diskrepanz zwischen Log-Likelihood und Autoregression bei rotationsbasierten Methoden aufdecken.

Jakub Prejzner2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Die Arbeit stellt SearchGym vor, eine modulare Infrastruktur für plattformübergreifendes Benchmarking und hybride Suchorchestrierung, die durch die Entkopplung von Datenrepräsentation und Retrieval-Logik reproduzierbare Systemkonfigurationen ermöglicht und neue Erkenntnisse zur optimalen Reihenfolge von semantischer Rangfolge und strukturiertem Filtern liefert.

Jerome Tze-Hou Hsu2026-03-06💻 cs

Probing Memes in LLMs: A Paradigm for the Entangled Evaluation World

Diese Arbeit stellt mit „Probing Memes" ein neues Evaluationsparadigma vor, das Large Language Models als Träger kultureller Gene (Memes) betrachtet und durch eine Wahrnehmungsmatrix die komplexen Wechselwirkungen zwischen Modellen und Daten analysiert, um verborgene Fähigkeitsstrukturen und populationsbasierte Verhaltensmerkmale zu quantifizieren, die traditionelle Methoden übersehen.

Luzhou Peng, Zhengxin Yang, Honglu Ji + 6 more2026-03-06💻 cs

Multiclass Hate Speech Detection with RoBERTa-OTA: Integrating Transformer Attention and Graph Convolutional Networks

Die Studie stellt RoBERTa-OTA vor, ein hybrides Modell, das Transformer-Aufmerksamkeitsmechanismen mit Graph Convolutional Networks und ontologischem Wissen kombiniert, um die Genauigkeit der multiklassigen Hassrede-Erkennung über demografische Kategorien hinweg signifikant zu steigern, ohne dabei die Recheneffizienz nennenswert zu beeinträchtigen.

Mahmoud Abusaqer, Jamil Saquer2026-03-06💻 cs

The Thinking Boundary: Quantifying Reasoning Suitability of Multimodal Tasks via Dual Tuning

Die vorgestellte Arbeit führt das „Dual Tuning"-Framework ein, um durch den systematischen Vergleich von Chain-of-Thought- und Direkt-Antwort-Training eine „Denkgrenze" zu definieren, die bestimmt, für welche multimodalen Aufgaben reasoning-basierte Ansätze tatsächlich vorteilhaft sind und somit eine ressourcenschonende, adaptive Trainingsstrategie ermöglicht.

Ruobing Zheng, Tianqi Li, Jianing Li + 3 more2026-03-06💻 cs