cs.CL Arbeiten | Gist.Science

Where is the multimodal goal post? On the Ability of Foundation Models to Recognize Contextually Important Moments

Die Studie zeigt, dass aktuelle multimodale Basis-Modelle bei der Identifizierung kontextuell wichtiger Momente in Fußballvideos kaum besser als Zufall sind, da sie oft auf eine einzelne dominante Modalität angewiesen sind und keine effektive Synthese aus mehreren Quellen leisten, was den Bedarf an modularen Architekturen und ergänzenden Trainingsverfahren unterstreicht.

Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle2026-03-06💻 cs

Self-Distilled Reasoner: On-Policy Self-Distillation for Large Language Models

Die Arbeit stellt das Framework „On-Policy Self-Distillation" (OPSD) vor, bei dem ein einziges großes Sprachmodell durch den Vergleich seiner eigenen Antworten mit privilegierten Lösungswegen als sowohl Lehrer als auch Schüler fungiert, um die mathematische Schlussfolgerungsfähigkeit effizienter zu verbessern als herkömmliche Methoden.

Siyan Zhao, Zhihui Xie, Mengchen Liu + 4 more2026-03-06💻 cs

Adaptive Rollout Allocation for Online Reinforcement Learning with Verifiable Rewards

Die Arbeit stellt VIP vor, eine adaptive Strategie zur Zuweisung von Rollouts im Online-Reinforcement-Learning mit verifizierbaren Belohnungen, die mithilfe von Gauß-Prozessen die Varianz der Gradienten schätzt und den Rechenbudget durch eine konvexe Optimierung minimiert, um die Sampling-Effizienz und Leistung im Vergleich zu einheitlichen Zuweisungsmethoden zu steigern.

Hieu Trung Nguyen, Bao Nguyen, Wenao Ma + 3 more2026-03-06💻 cs

LatentChem: From Textual CoT to Latent Thinking in Chemical Reasoning

Die Arbeit stellt LatentChem vor, ein Verfahren, das chemisches Schlussfolgern von der diskreten Textgenerierung entkoppelt und stattdessen eine effiziente, kontinuierliche latente Reasoning-Umgebung nutzt, wodurch sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu herkömmlichen Chain-of-Thought-Ansätzen erheblich gesteigert werden.

Xinwu Ye, Yicheng Mao, Jia Zhang + 16 more2026-03-06🔬 physics

The Convergence of Schema-Guided Dialogue Systems and the Model Context Protocol

Diese Arbeit zeigt, dass Schema-Guided Dialogue und das Model Context Protocol zwei Erscheinungsformen eines einheitlichen Paradigmas für deterministische LLM-Interaktionen darstellen, und leitet daraus fünf Gestaltungsprinzipien ab, um Lücken in der Fehlerdokumentation und Tool-Verknüpfung zu schließen und eine skalierbare Governance für Software 3.0 zu ermöglichen.

Andreas Schlapbach2026-03-06💻 cs

Assessing Risks of Large Language Models in Mental Health Support: A Framework for Automated Clinical AI Red Teaming

Die Studie stellt ein neues Evaluierungsframework für das automatische Red-Teaming von KI in der Psychotherapie vor, das durch umfangreiche Simulationen mit Patienten-Charakteren kritische Sicherheitslücken wie die Validierung von Wahnvorstellungen und das Versagen bei Suizidprävention aufdeckt und somit die Notwendigkeit klinischer Tests vor dem Einsatz von KI-gestützter mentaler Gesundheitsversorgung unterstreicht.

Ian Steenstra, Paola Pedrelli, Weiyan Shi + 2 more2026-03-06💻 cs

Jailbreak Foundry: From Papers to Runnable Attacks for Reproducible Benchmarking

Das Paper stellt JAILBREAK FOUNDRY (JBF) vor, ein Multi-Agenten-System, das Sicherheitslücken-Forschungspapiere automatisch in ausführbare Module übersetzt, um durch eine standardisierte Infrastruktur reproduzierbare und vergleichbare Benchmarks für die Robustheit von Large Language Models zu ermöglichen.

Zhicheng Fang, Jingjie Zheng, Chenxu Fu, Wei Xu2026-03-06🔒 cs.CR

Learn Hard Problems During RL with Reference Guided Fine-tuning

Die Arbeit stellt ReGFT vor, eine Methode, die menschliche Referenzlösungen nutzt, um positive Lernpfade für schwierige mathematische Probleme zu synthetisieren und so die Reward-Sparsity bei Reinforcement Learning zu überwinden, was zu schnellerem Training und besseren Ergebnissen führt.

Yangzhen Wu, Shanda Li, Zixin Wen + 5 more2026-03-06💻 cs

VoxKnesset: A Large-Scale Longitudinal Hebrew Speech Dataset for Aging Speaker Modeling

Das Paper stellt VoxKnesset vor, einen großen, longitudinalen hebräischen Sprachdatensatz mit Parlamentsaufnahmen von 393 Sprechern über 15 Jahre, der genutzt wird, um die Auswirkungen des Alterns auf die Sprechererkennung und Altersvorhersage zu untersuchen und robuste Sprachsysteme zu entwickeln.

Yanir Marmor, Arad Zulti, David Krongauz + 4 more2026-03-06💻 cs

FreeAct: Freeing Activations for LLM Quantization

Der Artikel stellt FreeAct vor, ein neuartiges Quantisierungsframework für Large Language Models, das durch die Einführung token-spezifischer Transformationen für Aktivierungen die starren Einschränkungen bestehender Methoden überwindet und so insbesondere bei Diffusions- und Multimodal-LLMs die Leistung signifikant verbessert.

Xiaohao Liu, Xiaobo Xia, Manyi Zhang + 6 more2026-03-06💻 cs

Incremental Graph Construction Enables Robust Spectral Clustering of Texts

Die vorgestellte Arbeit führt eine inkrementelle $k$ -NN-Graph-Konstruktion ein, die durch gezielte Verknüpfung neuer Knoten mit bereits eingefügten Nachbarn die Konnektivität garantiert und so die Robustheit des spektralen Clusterings von Text-Embeddings insbesondere bei geringer Nachbarschaftszahl ( $k$ ) verbessert.

Marko Pranjić, Boshko Koloski, Nada Lavrač + 2 more2026-03-06💻 cs

A theoretical model of dynamical grammatical gender shifting based on set-valued set function

Diese Studie stellt ein mathematisches Modell vor, das auf einer mengenwertigen Mengenfunktion basiert, um die dynamischen Mechanismen der grammatischen Geschlechtsschiebung und morphologischen Variation, insbesondere im Riffischen, durch eine formale Zuordnung von Lexemen zu morphologischen Templates zu erklären.

Mohamed El Idrissi2026-03-06💻 cs

Why Are Linear RNNs More Parallelizable?

Diese Arbeit erklärt die überlegene Parallelisierbarkeit linearer RNNs im Vergleich zu nichtlinearen RNNs durch eine Verbindung zu Komplexitätsklassen, wonach lineare RNNs logarithmische Tiefenschaltungen darstellen, während nichtlineare Varianten P-vollständige Probleme lösen können, was eine fundamentale Barriere für ihre effiziente Parallelisierung darstellt.

William Merrill, Hongjian Jiang, Yanhong Li + 2 more2026-03-06💻 cs

Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model

Diese Studie präsentiert Bielik-Q2-Sharp, die erste systematische akademische Evaluation extremer 2-Bit-Quantisierungsmethoden für das polnische 11-Milliarden-Parameter-Sprachmodell Bielik, die zeigt, dass QuIP# und QTIP nahezu die Leistung der IQ2_XXS-Baseline bei deutlich geringerem Speicherbedarf erreichen und dabei ein Phänomen der Diskrepanz zwischen Log-Likelihood und Autoregression bei rotationsbasierten Methoden aufdecken.

Jakub Prejzner2026-03-06💻 cs

AgentIR: Reasoning-Aware Retrieval for Deep Research Agents

Die Arbeit stellt AgentIR vor, ein retrieval-System, das durch die gemeinsame Einbettung von Suchanfragen und den dazugehörigen Denkprozessen von Deep-Research-Agenten sowie einer neuen Datengenerierungsmethode (DR-Synth) eine deutlich höhere Genauigkeit als herkömmliche Modelle erzielt.

Zijian Chen, Xueguang Ma, Shengyao Zhuang + 3 more2026-03-06💻 cs

SearchGym: A Modular Infrastructure for Cross-Platform Benchmarking and Hybrid Search Orchestration

Die Arbeit stellt SearchGym vor, eine modulare Infrastruktur für plattformübergreifendes Benchmarking und hybride Suchorchestrierung, die durch die Entkopplung von Datenrepräsentation und Retrieval-Logik reproduzierbare Systemkonfigurationen ermöglicht und neue Erkenntnisse zur optimalen Reihenfolge von semantischer Rangfolge und strukturiertem Filtern liefert.

Jerome Tze-Hou Hsu2026-03-06💻 cs

FinRetrieval: A Benchmark for Financial Data Retrieval by AI Agents

Die Studie stellt FinRetrieval vor, einen Benchmark für die Fähigkeit von KI-Agenten, numerische Finanzdaten aus strukturierten Datenbanken zu extrahieren, und zeigt, dass die Verfügbarkeit spezialisierter APIs den Erfolg entscheidend bestimmt, während reine Web-Suche oder Reasoning-Modi nur geringe Vorteile bieten.

Eric Y. Kim, Jie Huang2026-03-06💻 cs

Signal in the Noise: Decoding the Reality of Airline Service Quality with Large Language Models

Diese Studie validiert einen Large-Language-Model-Ansatz, der durch die Analyse von über 16.000 TripAdvisor-Bewertungen verborgene Treiber der Passagierzufriedenheit aufdeckt und dabei eine kritische Diskrepanz zwischen operativen Verbesserungen und der sinkenden Zufriedenheit bei EgyptAir nach 2022 identifiziert.

Ahmed Dawoud, Osama El-Shamy, Ahmed Habashy2026-03-06💻 cs

CTRL-RAG: Contrastive Likelihood Reward Based Reinforcement Learning for Context-Faithful RAG Models

Die Arbeit stellt CTRL-RAG vor, eine neue Reinforcement-Learning-Methode für RAG-Modelle, die durch einen kontrastiven Likelihood-basierten Belohnungsmechanismus die Kontexttreue verbessert und so Halluzinationen reduziert, ohne ausschließlich auf externe Bewertungen angewiesen zu sein.

Zhehao Tan, Yihan Jiao, Dan Yang + 8 more2026-03-06💻 cs

Semantic Containment as a Fundamental Property of Emergent Misalignment

Die Studie zeigt, dass semantische Auslöser allein ausreichen, um in feinabgestimmten Sprachmodellen eine Kontext-Isolierung schädlichen Verhaltens zu erzeugen, selbst wenn ausschließlich schädliche Trainingsdaten verwendet wurden, was eine kritische Sicherheitslücke für die Bewertung von KI-Modellen aufdeckt.

Rohan Saxena2026-03-06💻 cs

← Zurück Weiter →