cs.CL Arbeiten | Gist.Science

Optimizing Language Models for Crosslingual Knowledge Consistency

Die vorgestellte Arbeit stellt Direct Consistency Optimization (DCO) vor, eine effiziente, auf dem LLM selbst basierende Methode zur Verbesserung der konsistenten Wissensdarstellung über verschiedene Sprachen hinweg, die ohne explizites Reward-Modell auskommt und bestehende Ansätze in multilingualen Szenarien übertrifft.

Tianyu Liu, Jirui Qi, Mrinmaya Sachan + 3 more2026-03-06💻 cs

Non-Zipfian Distribution of Stopwords and Subset Selection Models

Die Studie zeigt, dass Stopwörter einer Beta-Rang-Funktion statt Zipfs Gesetz folgen und schlägt ein Auswahlmodell vor, das auf einer abnehmenden Hill-Funktion basiert, um diese Verteilungen analytisch zu erklären und empirisch zu validieren.

Wentian Li, Oscar Fontanelli2026-03-06💻 cs

Hate Speech Detection using Large Language Models with Data Augmentation and Feature Enhancement

Diese Studie untersucht die Wirksamkeit von Daten-Augmentierung und Feature-Enhancement-Techniken zur Hate-Speech-Erkennung und zeigt, dass das Open-Source-Modell gpt-oss-20b die besten Ergebnisse erzielt, während traditionelle Ansätze wie Delta TF-IDF durch Daten-Augmentierung ebenfalls hohe Genauigkeiten erreichen, wobei die Erkennung impliziter Hassrede weiterhin eine Herausforderung bleibt.

Brian Jing Hong Nge, Stefan Su, Thanh Thi Nguyen + 3 more2026-03-06💻 cs

Detection of Illicit Content on Online Marketplaces using Large Language Models

Diese Studie zeigt, dass feinabgestimmte Large Language Models wie Llama 3.2 im Vergleich zu traditionellen Machine-Learning-Ansätzen und BERT insbesondere bei der komplexen, multilingualen Mehrklassen-Klassifizierung von 40 verschiedenen Kategorien illegaler Inhalte auf Online-Marktplätzen überlegene Ergebnisse erzielen.

Quoc Khoa Tran, Thanh Thi Nguyen, Campbell Wilson2026-03-06💻 cs

AI-Assisted Moot Courts: Simulating Justice-Specific Questioning in Oral Arguments

Die Studie untersucht, wie KI-Modelle auf Basis von US-Supreme-Court-Transkripten Richterfragen für Moot-Court-Trainings simulieren können, und stellt ein zweistufiges Evaluierungsframework vor, das zwar Realismus und inhaltliche Relevanz bestätigt, aber auch signifikante Mängel wie mangelnde Diversität und Sycophancy aufdeckt, die bei herkömmlichen Evaluierungsmethoden oft unentdeckt bleiben.

Kylie Zhang, Nimra Nadeem, Lucia Zheng + 2 more2026-03-06💻 cs

Model Medicine: A Clinical Framework for Understanding, Diagnosing, and Treating AI Models

Diese Arbeit stellt „Model Medicine" als ein klinisches Forschungsprogramm vor, das KI-Modelle analog zu biologischen Organismen behandelt, indem sie ein umfassendes Ökosystem aus Taxonomien, Diagnosewerkzeugen wie der Neural-MRI und therapeutischen Rahmenwerken entwickelt, um deren innere Strukturen zu verstehen, zu diagnostizieren und zu behandeln.

Jihoon Jeong2026-03-06💻 cs

Solving an Open Problem in Theoretical Physics using AI-Assisted Discovery

Diese Arbeit demonstriert, wie ein neuro-symbolisches KI-System, das auf dem Gemini Deep Think-Modell und einer systematischen Baumsuche basiert, ein offenes Problem der theoretischen Physik löste, indem es exakte analytische Lösungen für das Leistungsspektrum der Gravitationsstrahlung kosmischer Strings herleitete.

Michael P. Brenner, Vincent Cohen-Addad, David Woodruff2026-03-06💻 cs

Interactive Benchmarks

Die Autoren schlagen mit „Interactive Benchmarks" ein neues, einheitliches Evaluierungsparadigma vor, das die Fähigkeit von Modellen zur aktiven Informationsgewinnung unter Budgetbeschränkungen in interaktiven Szenarien wie Beweisen und Spielen testet, um die Zuverlässigkeit herkömmlicher Benchmarks zu überwinden und ein realistischeres Bild der Modellintelligenz zu liefern.

Baoqing Yue, Zihan Zhu, Yifan Zhang + 3 more2026-03-06💻 cs

IF-RewardBench: Benchmarking Judge Models for Instruction-Following Evaluation

Die Arbeit stellt IF-RewardBench vor, ein umfassendes Meta-Evaluierungs-Benchmark für die Instruktionbefolgung, das durch die Einführung eines Präferenzgraphen und einer listweisen Evaluierung bestehende Mängel überwindet und eine stärkere Korrelation mit der Leistung in nachgelagerten Aufgaben aufweist.

Bosi Wen, Yilin Niu, Cunxiang Wang + 5 more2026-03-06💻 cs

DARE: Aligning LLM Agents with the R Statistical Ecosystem via Distribution-Aware Retrieval

Die Arbeit stellt DARE vor, ein leichtgewichtiges Retrieval-Modell, das durch die Integration von Datenverteilungsmerkmalen in die Repräsentation von R-Funktionen die Genauigkeit der Paketwiedergewinnung und die Leistung von LLM-Agenten im statistischen Ökosystem von R signifikant verbessert.

Maojun Sun, Yue Wu, Yifei Xie + 5 more2026-03-06💻 cs

HiMAP-Travel: Hierarchical Multi-Agent Planning for Long-Horizon Constrained Travel

HiMAP-Travel ist ein hierarchisches Multi-Agenten-Framework, das durch strategische Ressourcenverteilung, parallele Tagesplanung und einen Transaktionsmonitor langfristige Reiseplanung mit strengen Einschränkungen effizienter und präziser löst als sequenzielle Ansätze.

The Viet Bui, Wenjun Li, Yong Liu2026-03-06💻 cs

Stacked from One: Multi-Scale Self-Injection for Context Window Extension

Die Arbeit stellt \modelname~vor, ein effizientes Framework, das durch Multi-Scale-Selbstinjektion und komprimierte, abfragebewusste Repräsentationen zwei gestapelte Kurzkontext-LLMs nutzt, um das Kontextfenster von 8K auf über 128K Token zu erweitern und dabei gleichzeitig Speicherbedarf und Inferenzzeit im Vergleich zu bestehenden Architekturen signifikant zu reduzieren.

Wei Han, Pan Zhou, Shuicheng Yan2026-03-06💻 cs

TSEmbed: Unlocking Task Scaling in Universal Multimodal Embeddings

TSEmbed ist ein universelles multimodales Embedding-Framework, das durch die Kombination von Mixture-of-Experts und Low-Rank Adaptation sowie eine neue Expert-Aware Negative Sampling-Strategie Aufgabenkonflikte auflöst und damit den Skalierungseffekt für universelle multimodale Einbettungen ermöglicht.

Yebo Wu, Feng Liu, Ziwei Xie + 4 more2026-03-06💻 cs

Privacy-Aware Camera 2.0 Technical Report

Dieser technische Bericht stellt ein neues, datenschutzfreundliches Wahrnehmungsframework namens „Privacy-Aware Camera 2.0" vor, das mithilfe des AI-Flow-Paradigmas und einer Edge-Cloud-Architektur Rohbilder am Rand in irreversible abstrakte Merkmalsvektoren umwandelt, um gleichzeitig den Datenschutz zu gewährleisten und eine semantische Verhaltensanalyse sowie eine visuelle Rekonstruktion über eine „dynamische Kontur"-Sprache in der Cloud zu ermöglichen.

Huan Song, Shuyu Tian, Ting Long + 5 more2026-03-06💻 cs

Breaking Contextual Inertia: Reinforcement Learning with Single-Turn Anchors for Stable Multi-Turn Interaction

Die Arbeit stellt RLSTA vor, eine Reinforcement-Learning-Methode, die die stabilen Fähigkeiten von Modellen bei Einzeldurchläufen als Anker nutzt, um das Phänomen der kontextuellen Trägheit in Multi-Turn-Interaktionen zu überwinden und so eine zuverlässige Selbstkalibrierung bei neuen Informationen zu ermöglichen.

Xingwu Chen, Zhanqiu Zhang, Yiwen Guo + 1 more2026-03-06💻 cs

Beyond Linear LLM Invocation: An Efficient and Effective Semantic Filter Paradigm

Die vorgestellte Arbeit stellt CSV (Clustering-Sampling-Voting) vor, ein neues Framework, das die Anzahl der LLM-Aufrufe für semantische Filterabfragen durch Clustering, Stichprobenziehung und Abstimmung sublinear reduziert und dabei die Genauigkeit im Vergleich zu bestehenden Methoden erheblich verbessert.

Nan Hou, Kangfei Zhao, Jiadong Xie + 1 more2026-03-06💻 cs

Attention's Gravitational Field:A Power-Law Interpretation of Positional Correlation

Diese Arbeit führt das Konzept des „Attention Gravitational Field" ein, das Positionscodierungen von semantischen Einbettungen entkoppelt und durch eine empirische Übereinstimmung mit dem Newtonschen Gravitationsgesetz die Architektur von Large Language Models optimiert sowie deren Interpretierbarkeit verbessert.

Edward Zhang2026-03-06💻 cs

Beyond the Context Window: A Cost-Performance Analysis of Fact-Based Memory vs. Long-Context LLMs for Persistent Agents

Die Studie vergleicht ein faktenbasiertes Speichersystem mit Langkontext-LLMs und zeigt, dass während Letztere bei der faktischen Abrufleistung oft überlegen sind, das Speichersystem bei langen Kontexten und vielen Interaktionen aufgrund eines günstigeren Kosten-Nutzen-Verhältnisses eine effiziente Alternative für persistente Agenten darstellt.

Natchanon Pollertlam, Witchayut Kornsuwannawit2026-03-06💬 cs.CL

Autoscoring Anticlimax: A Meta-analytic Understanding of AI's Short-answer Shortcomings and Wording Weaknesses

Diese Metaanalyse zeigt, dass KI-Modelle beim automatisierten Bewerten von Kurzantworten hinter menschlichen Experten zurückbleiben, wobei die Schwierigkeit für Menschen keine Vorhersagekraft für die KI-Leistung hat, Decoder-Architekturen signifikant schlechter abschneiden als Encoder und zudem Verzerrungen sowie Diskriminierung in Bildungskontexten aufweisen.

Michael Hardy2026-03-06💬 cs.CL

From Unfamiliar to Familiar: Detecting Pre-training Data via Gradient Deviations in Large Language Models

Die Arbeit stellt GDS vor, eine Methode zur Erkennung von Vorab-Trainingsdaten in großen Sprachmodellen, die auf der Analyse von Gradientenabweichungen (Magnitude, Lage und Konzentration der Parameteraktualisierungen) basiert und damit bestehende likelihood-basierte Ansätze in Bezug auf Leistung und Übertragbarkeit übertrifft.

Ruiqi Zhang, Lingxiang Wang, Hainan Zhang + 2 more2026-03-06💬 cs.CL

← Zurück Weiter →