cs.CL Arbeiten | Gist.Science

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Die Studie zeigt, dass das Umschreiben von Fragen unter Verwendung von kontextbezogenen, aber antwortfreien Informationen die Genauigkeit von Sprachmodellen auf dem Benchmark „Humanity's Last Exam" signifikant verdoppeln kann, indem sie die Mehrdeutigkeit der Anfragen reduziert.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Die Studie untersucht den Einfluss zeitlicher Korpusveränderungen auf das Retrieval-Benchmark FreshStack und zeigt, dass trotz Dokumentenmigrationen die Evaluierungsergebnisse über verschiedene Zeitpunkte hinweg stabil und zuverlässig bleiben.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

Die Arbeit stellt A-MAC vor, ein adaptives Framework für die Steuerung der Langzeitgedächtnis-Einträge von LLM-Agenten, das durch die Zerlegung des Speicherwerts in fünf interpretierbare Faktoren und eine optimierte Zulassungsstrategie sowohl die Präzision als auch die Effizienz im Vergleich zu bestehenden Systemen signifikant verbessert.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Dieser Artikel stellt eine umfassende Übersicht über Streaming-Large-Language-Modelle bereit, indem er eine einheitliche Definition und systematische Taxonomie einführt, um die aktuellen Unklarheiten zu klären, sowie deren Methoden, Anwendungen und zukünftige Forschungsrichtungen analysiert.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Die Arbeit stellt GOLF vor, ein Reinforcement-Learning-Framework, das durch die Aggregation von gruppenbasiertem Sprachfeedback und die gemeinsame Optimierung von Generierung und Verfeinerung die Explorationseffizienz in Umgebungen mit spärlichen Belohnungen signifikant verbessert.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Die Studie stellt mit „Vibe Code Bench" einen neuen Benchmark für die End-to-End-Entwicklung von Webanwendungen vor, der zeigt, dass selbst die besten aktuellen KI-Modelle bei der vollständigen Erstellung funktionsfähiger Apps noch erhebliche Schwierigkeiten haben und dabei die Bedeutung von Selbsttests sowie die Auswirkungen der Evaluatoren-Auswahl auf die Ergebnisse aufdeckt.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Diese Arbeit stellt eine Methode für retrieval-augmentierte Generierung vor, die durch die koordinierte Modellierung semantischer Ausrichtung und expliziter Evidenzbeschränkungen die faktische Zuverlässigkeit und Verifizierbarkeit von Large Language Models verbessert, indem sie semantische Fehlausrichtungen und unzureichende Evidenznutzung überwindet.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

Das Paper stellt iAgentBench vor, ein dynamisches Benchmark für offene Fragen, das die Fähigkeit von Informationsagenten bewertet, Beweise aus mehreren Quellen auf hochrelevanten Themen zu integrieren und zu synthetisieren, anstatt sich auf die bloße Extraktion einzelner Passagen zu verlassen.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

Die Arbeit stellt „Stan" vor, ein auf lokalen Open-Weight-Modellen basierendes Assistenzsystem für einen Thermodynamik-Kurs, das mittels Retrieval-Augmented Generation sowohl Studierenden kontextbezogene Antworten als auch Lehrenden strukturierte Kursanalysen aus denselben Transkripten bietet, wobei Datenschutz und Reproduzierbarkeit durch den Verzicht auf Cloud-APIs gewährleistet werden.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Diese Studie zeigt, dass ein multimodaler Ansatz mit einem großen Sprachmodell, der sowohl Text- als auch Bilddaten von Visualisierungsfragen kombiniert, die Schwierigkeit von Testitems für US-Erwachsene präziser vorhersagen kann als rein text- oder bildbasierte Methoden.

Samin Khan2026-03-06💻 cs

Optimizing Language Models for Crosslingual Knowledge Consistency

Die vorgestellte Arbeit stellt Direct Consistency Optimization (DCO) vor, eine effiziente, auf dem LLM selbst basierende Methode zur Verbesserung der konsistenten Wissensdarstellung über verschiedene Sprachen hinweg, die ohne explizites Reward-Modell auskommt und bestehende Ansätze in multilingualen Szenarien übertrifft.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Die Studie zeigt, dass Stopwörter einer Beta-Rang-Funktion statt Zipfs Gesetz folgen und schlägt ein Auswahlmodell vor, das auf einer abnehmenden Hill-Funktion basiert, um diese Verteilungen analytisch zu erklären und empirisch zu validieren.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Diese Studie untersucht die Wirksamkeit von Daten-Augmentierung und Feature-Enhancement-Techniken zur Hate-Speech-Erkennung und zeigt, dass das Open-Source-Modell gpt-oss-20b die besten Ergebnisse erzielt, während traditionelle Ansätze wie Delta TF-IDF durch Daten-Augmentierung ebenfalls hohe Genauigkeiten erreichen, wobei die Erkennung impliziter Hassrede weiterhin eine Herausforderung bleibt.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Diese Studie zeigt, dass feinabgestimmte Large Language Models wie Llama 3.2 im Vergleich zu traditionellen Machine-Learning-Ansätzen und BERT insbesondere bei der komplexen, multilingualen Mehrklassen-Klassifizierung von 40 verschiedenen Kategorien illegaler Inhalte auf Online-Marktplätzen überlegene Ergebnisse erzielen.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Die Studie untersucht, wie KI-Modelle auf Basis von US-Supreme-Court-Transkripten Richterfragen für Moot-Court-Trainings simulieren können, und stellt ein zweistufiges Evaluierungsframework vor, das zwar Realismus und inhaltliche Relevanz bestätigt, aber auch signifikante Mängel wie mangelnde Diversität und Sycophancy aufdeckt, die bei herkömmlichen Evaluierungsmethoden oft unentdeckt bleiben.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Diese Arbeit stellt „Model Medicine" als ein klinisches Forschungsprogramm vor, das KI-Modelle analog zu biologischen Organismen behandelt, indem sie ein umfassendes Ökosystem aus Taxonomien, Diagnosewerkzeugen wie der Neural-MRI und therapeutischen Rahmenwerken entwickelt, um deren innere Strukturen zu verstehen, zu diagnostizieren und zu behandeln.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Diese Arbeit demonstriert, wie ein neuro-symbolisches KI-System, das auf dem Gemini Deep Think-Modell und einer systematischen Baumsuche basiert, ein offenes Problem der theoretischen Physik löste, indem es exakte analytische Lösungen für das Leistungsspektrum der Gravitationsstrahlung kosmischer Strings herleitete.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Die Autoren schlagen mit „Interactive Benchmarks" ein neues, einheitliches Evaluierungsparadigma vor, das die Fähigkeit von Modellen zur aktiven Informationsgewinnung unter Budgetbeschränkungen in interaktiven Szenarien wie Beweisen und Spielen testet, um die Zuverlässigkeit herkömmlicher Benchmarks zu überwinden und ein realistischeres Bild der Modellintelligenz zu liefern.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Die Arbeit stellt IF-RewardBench vor, ein umfassendes Meta-Evaluierungs-Benchmark für die Instruktionbefolgung, das durch die Einführung eines Präferenzgraphen und einer listweisen Evaluierung bestehende Mängel überwindet und eine stärkere Korrelation mit der Leistung in nachgelagerten Aufgaben aufweist.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Die Arbeit stellt DARE vor, ein leichtgewichtiges Retrieval-Modell, das durch die Integration von Datenverteilungsmerkmalen in die Repräsentation von R-Funktionen die Genauigkeit der Paketwiedergewinnung und die Leistung von LLM-Agenten im statistischen Ökosystem von R signifikant verbessert.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

← Zurück Weiter →