cs.CL Arbeiten | Gist.Science

Optimizing What We Trust: Reliability-Guided QUBO Selection of Multi-Agent Weak Framing Signals for Arabic Sentiment Prediction

Die Autoren stellen einen Zuverlässigkeits-bewussten Rahmen für schwache Überwachung vor, der Multi-Agenten-LLMs nutzt, um epistemische Signale zu extrahieren und mittels QUBO-basierter Subselektion ausgewogene, redundanzarme Datensätze für die arabische Sentiment-Analyse zu kuratieren, die übertragbare Strukturen erfassen, ohne starke Baselines zu beeinträchtigen.

Rabab Alkhalifa2026-03-06💻 cs

Same Input, Different Scores: A Multi Model Study on the Inconsistency of LLM Judge

Diese Studie zeigt, dass die als Richter eingesetzten großen Sprachmodelle selbst bei identischen Eingaben, verschiedenen Temperatursettings und unterschiedlichen Modellfamilien erhebliche Inkonsistenzen bei der Vergabe numerischer Bewertungen aufweisen, was die Zuverlässigkeit und Fairness von automatisierten Evaluierungsprozessen in Produktionsumgebungen in Frage stellt.

Fiona Lau2026-03-06💻 cs

Context-Dependent Affordance Computation in Vision-Language Models

Die Studie zeigt, dass Vision-Language-Modelle Affordanzen stark kontextabhängig berechnen, wobei sich sowohl die lexikalische als auch die semantische Darstellung drastisch mit dem Kontext verschieben, was auf die Notwendigkeit dynamischer, abfrageabhängiger Ontologien statt statischer Weltmodelle für die Robotik hindeutet.

Murad Farzulla2026-03-06💻 cs

Do Mixed-Vendor Multi-Agent LLMs Improve Clinical Diagnosis?

Die Studie zeigt, dass gemischte Multi-Agenten-Systeme aus verschiedenen LLM-Anbietern die klinische Diagnose durch das Zusammenführen komplementärer Induktionsverzerrungen signifikant verbessern und dabei die Leistungsfähigkeit homogener Teams übertreffen.

Grace Chang Yuan, Xiaoman Zhang, Sung Eun Kim + 1 more2026-03-06💻 cs

Generating Realistic, Protocol-Compliant Maritime Radio Dialogues using Self-Instruct and Low-Rank Adaptation

Diese Studie stellt eine compliance-bewusste Self-Instruct-Methode mit Low-Rank Adaptation und einem 26-stufigen Verifikationspipeline vor, um realistische, IMO-SMCP-konforme maritime Funkdialoge zu generieren und so die Datenknappheit für KI-gestützte Sicherheitssysteme zu überwinden.

Gürsel Akdeniz, Emin Cagatay Nakilcioglu2026-03-06💻 cs

What Is Missing: Interpretable Ratings for Large Language Model Outputs

Die vorgestellte Arbeit führt das „What Is Missing" (WIM)-Bewertungssystem ein, das natürliche Sprachfeedbacks über fehlende Informationen in skalierbare Bewertungen umwandelt, um durch größere Abstufungen und interpretierbare Labels die Effektivität von Präferenzlernverfahren für Large Language Models zu verbessern.

Nicholas Stranges, Yimin Yang2026-03-06💻 cs

Dynamic Model Routing and Cascading for Efficient LLM Inference: A Survey

Diese Arbeit bietet eine systematische Analyse und ein konzeptionelles Rahmenwerk für dynamische Routing- und Kaskadierungssysteme, die durch die adaptive Auswahl verschiedener unabhängiger Large Language Models je nach Anfragekomplexität die Inferenzeffizienz optimieren und dabei die Leistungsfähigkeit einzelner Modelle übertreffen können.

Yasmin Moslem, John D. Kelleher2026-03-06💻 cs

SkillNet: Create, Evaluate, and Connect AI Skills

Die Arbeit stellt SkillNet vor, eine offene Infrastruktur, die durch die Erstellung, Evaluierung und Vernetzung von über 200.000 KI-Fähigkeiten in einer einheitlichen Ontologie die Leistung von Agenten signifikant steigert und so den Übergang von transienter Erfahrung zu dauerhafter Meisterschaft ermöglicht.

Yuan Liang, Ruobin Zhong, Haoming Xu + 46 more2026-03-06✓ Author reviewed💻 cs

A unified foundational framework for knowledge injection and evaluation of Large Language Models in Combustion Science

Diese Studie stellt ein umfassendes End-to-End-Framework für die Entwicklung von domänenspezifischen Large Language Models in der Verbrennungswissenschaft vor, das eine multimodale Wissensdatenbank, ein Evaluierungsbenchmark und einen dreistufigen Wissensinjektionspfad kombiniert, um die Grenzen reiner Retrieval-Augmented-Generation zu überwinden und durch strukturierte Wissensgraphen sowie fortgesetztes Pretraining fundierte Modelle zu schaffen.

Zonglin Yang, Runze Mao, Tianhao Wu + 3 more2026-03-06💻 cs

Induced Numerical Instability: Hidden Costs in Multimodal Large Language Models

Die Studie identifiziert und demonstriert eine neue Fehlerart bei multimodalen großen Sprachmodellen, bei der durch die Optimierung auf numerische Instabilität minimal veränderte Bilder erzeugt werden, die zu einer signifikanten Leistungsverschlechterung führen, ohne dass dies durch herkömmliche adversarielle Angriffe erfasst wird.

Wai Tuck Wong, Jun Sun, Arunesh Sinha2026-03-06💻 cs

Query Disambiguation via Answer-Free Context: Doubling Performance on Humanity's Last Exam

Die Studie zeigt, dass das Umschreiben von Fragen unter Verwendung von kontextbezogenen, aber antwortfreien Informationen die Genauigkeit von Sprachmodellen auf dem Benchmark „Humanity's Last Exam" signifikant verdoppeln kann, indem sie die Mehrdeutigkeit der Anfragen reduziert.

Michael Majurski, Cynthia Matuszek2026-03-06💻 cs

Still Fresh? Evaluating Temporal Drift in Retrieval Benchmarks

Die Studie untersucht den Einfluss zeitlicher Korpusveränderungen auf das Retrieval-Benchmark FreshStack und zeigt, dass trotz Dokumentenmigrationen die Evaluierungsergebnisse über verschiedene Zeitpunkte hinweg stabil und zuverlässig bleiben.

Nathan Kuissi, Suraj Subrahmanyan, Nandan Thakur + 1 more2026-03-06💻 cs

Adaptive Memory Admission Control for LLM Agents

Die Arbeit stellt A-MAC vor, ein adaptives Framework für die Steuerung der Langzeitgedächtnis-Einträge von LLM-Agenten, das durch die Zerlegung des Speicherwerts in fünf interpretierbare Faktoren und eine optimierte Zulassungsstrategie sowohl die Präzision als auch die Effizienz im Vergleich zu bestehenden Systemen signifikant verbessert.

Guilin Zhang, Wei Jiang, Xiejiashan Wang + 5 more2026-03-06💻 cs

From Static Inference to Dynamic Interaction: Navigating the Landscape of Streaming Large Language Models

Dieser Artikel stellt eine umfassende Übersicht über Streaming-Large-Language-Modelle bereit, indem er eine einheitliche Definition und systematische Taxonomie einführt, um die aktuellen Unklarheiten zu klären, sowie deren Methoden, Anwendungen und zukünftige Forschungsrichtungen analysiert.

Junlong Tong, Zilong Wang, YuJie Ren + 4 more2026-03-06💻 cs

Bootstrapping Exploration with Group-Level Natural Language Feedback in Reinforcement Learning

Die Arbeit stellt GOLF vor, ein Reinforcement-Learning-Framework, das durch die Aggregation von gruppenbasiertem Sprachfeedback und die gemeinsame Optimierung von Generierung und Verfeinerung die Explorationseffizienz in Umgebungen mit spärlichen Belohnungen signifikant verbessert.

Lei Huang, Xiang Cheng, Chenxiao Zhao + 6 more2026-03-06💻 cs

Vibe Code Bench: Evaluating AI Models on End-to-End Web Application Development

Die Studie stellt mit „Vibe Code Bench" einen neuen Benchmark für die End-to-End-Entwicklung von Webanwendungen vor, der zeigt, dass selbst die besten aktuellen KI-Modelle bei der vollständigen Erstellung funktionsfähiger Apps noch erhebliche Schwierigkeiten haben und dabei die Bedeutung von Selbsttests sowie die Auswirkungen der Evaluatoren-Auswahl auf die Ergebnisse aufdeckt.

Hung Tran, Langston Nashold, Rayan Krishnan + 2 more2026-03-06💻 cs

Coordinated Semantic Alignment and Evidence Constraints for Retrieval-Augmented Generation with Large Language Models

Diese Arbeit stellt eine Methode für retrieval-augmentierte Generierung vor, die durch die koordinierte Modellierung semantischer Ausrichtung und expliziter Evidenzbeschränkungen die faktische Zuverlässigkeit und Verifizierbarkeit von Large Language Models verbessert, indem sie semantische Fehlausrichtungen und unzureichende Evidenznutzung überwindet.

Xin Chen, Saili Uday Gadgil, Jiarong Qiu2026-03-06💻 cs

iAgentBench: Benchmarking Sensemaking Capabilities of Information-Seeking Agents on High-Traffic Topics

Das Paper stellt iAgentBench vor, ein dynamisches Benchmark für offene Fragen, das die Fähigkeit von Informationsagenten bewertet, Beweise aus mehreren Quellen auf hochrelevanten Themen zu integrieren und zu synthetisieren, anstatt sich auf die bloße Extraktion einzelner Passagen zu verlassen.

Preetam Prabhu Srikar Dammu, Arnav Palkhiwala, Tanya Roosta + 1 more2026-03-06💻 cs

Stan: An LLM-based thermodynamics course assistant

Die Arbeit stellt „Stan" vor, ein auf lokalen Open-Weight-Modellen basierendes Assistenzsystem für einen Thermodynamik-Kurs, das mittels Retrieval-Augmented Generation sowohl Studierenden kontextbezogene Antworten als auch Lehrenden strukturierte Kursanalysen aus denselben Transkripten bietet, wobei Datenschutz und Reproduzierbarkeit durch den Verzicht auf Cloud-APIs gewährleistet werden.

Eric M. Furst, Vasudevan Venkateshwaran2026-03-06🔬 physics

Using Vision + Language Models to Predict Item Difficulty

Diese Studie zeigt, dass ein multimodaler Ansatz mit einem großen Sprachmodell, der sowohl Text- als auch Bilddaten von Visualisierungsfragen kombiniert, die Schwierigkeit von Testitems für US-Erwachsene präziser vorhersagen kann als rein text- oder bildbasierte Methoden.

Samin Khan2026-03-06💻 cs

← Zurück Weiter →