cs.CL Arbeiten | Gist.Science

TransactionGPT

Das Paper stellt TransactionGPT vor, ein auf einer 3D-Transformer-Architektur basierendes Fundamentmodell für Zahlungsdaten, das durch seine effiziente Verarbeitung von Milliarden-Transaktionen und überlegene Leistung bei Anomalieerkennung sowie Transaktionsvorhersage bestehende Modelle und feinabgestimmte LLMs in Bezug auf Genauigkeit und Geschwindigkeit übertrifft.

Yingtong Dou, Zhimeng Jiang, Tianyi Zhang + 26 more2026-03-04💬 cs.CL

From Passive to Persuasive: Steering Emotional Nuance in Human-AI Negotiation

Diese Studie zeigt, dass durch gezieltes Aktivierungs-Engineering und die Anwendung emotionaler Vektoren auf Basis von Attributions-Patching LLaMA 3.1-8B so gesteuert werden kann, dass es in Verhandlungssituationen menschlichere emotionale Nuancen und eine stärkere persönliche Engagement zeigt.

Niranjan Chebrolu, Gerard Christopher Yeo, Kokil Jaidka2026-03-04💬 cs.CL

Automated Data Enrichment using Confidence-Aware Fine-Grained Debate among Open-Source LLMs for Mental Health and Online Safety

Diese Arbeit stellt ein konfidenzbewusstes, feinabgestuftes Debatten-Framework (CFD) vor, das Open-Source-LLMs zur automatischen Anreicherung von Trainingsdaten für die mentale Gesundheit und Online-Sicherheit nutzt und dabei durch die Verwendung von Debattentranskripten signifikante Verbesserungen bei nachgelagerten Aufgaben erzielt.

Junyu Mao, Anthony Hills, Talia Tseriotou + 10 more2026-03-04💬 cs.CL

GUMBridge: a Corpus for Varieties of Bridging Anaphora

Die Studie stellt GUMBridge vor, ein neues Korpus mit 16 englischen Genres und detaillierten Annotationen für verschiedene Arten von Bridging-Anaphern, und zeigt, dass die automatische Auflösung und Klassifizierung dieser Phänomene auch für moderne Large Language Models eine herausfordernde Aufgabe bleibt.

Lauren Levine, Amir Zeldes2026-03-04💬 cs.CL

Activation Steering for Masked Diffusion Language Models

Diese Arbeit stellt eine effiziente Aktivierungssteuerungsmethode für Masked Diffusion Language Models vor, die durch das Einfügen einer einzigen, aus Kontrast-Prompts extrahierten Richtung in die Residual-Aktivierungen eine systematische Verhaltensänderung (z. B. Sicherheitsverweigerung) ohne Optimierung ermöglicht und dabei architekturspezifische sowie diffusionsspezifische Besonderheiten wie die Wirksamkeit von Vor-Instruktion-Token aufdeckt.

Adi Shnaidman, Erin Feiglin, Osher Yaari + 3 more2026-03-04💬 cs.CL

Entropy Sentinel: Continuous LLM Accuracy Monitoring from Decoding Entropy Traces in STEM

Die Studie zeigt, dass Entropieprofile aus den Inferenz-Logits von LLMs als skalierbares Signal dienen können, um die Genauigkeit in verschiedenen STEM-Domänen zu überwachen und datengesteuerte Verbesserungen zu priorisieren.

Pedro Memoli Buffa, Luciano Del Corro2026-03-04💬 cs.CL

Contextual Drag: How Errors in the Context Affect LLM Reasoning

Die Studie zeigt, dass das Phänomen „Contextual Drag" die Leistung von Sprachmodellen bei der Selbstverbesserung um 10–20 % verschlechtert, indem fehlgeschlagene Versuche im Kontext zu strukturell ähnlichen Folgefähern führen, die durch gängige Korrekturmechanismen nicht vollständig behoben werden können.

Yun Cheng, Xingyu Zhu, Haoyu Zhao + 1 more2026-03-04💬 cs.CL

Can LLMs Discern the Traits Influencing Your Preferences? Evaluating Personality-Driven Preference Alignment in LLMs

Die Studie zeigt, dass die Nutzung von Präferenzen, die auf den stabilen Persönlichkeitsmerkmalen (Big Five) eines Nutzers basieren, die Genauigkeit personalisierter Antworten von Large Language Models erheblich verbessert, und stellt dafür den Datensatz PACIFIC sowie ein entsprechendes Framework vor.

Tianyu Zhao, Siqi Li, Yasser Shoukry + 1 more2026-03-04💬 cs.CL

Steer2Edit: From Activation Steering to Component-Level Editing

Die Arbeit stellt Steer2Edit vor, ein trainingsfreies Framework, das Aktivierungssteuerung in interpretierbare, komponentenbasierte Gewichtsänderungen umwandelt, um die Kompromisse zwischen Sicherheit, Wahrhaftigkeit und Effizienz bei Large Language Models zu verbessern.

Chung-En Sun, Ge Yan, Zimo Wang + 1 more2026-03-04💬 cs.CL

MedXIAOHE: A Comprehensive Recipe for Building Medical MLLMs

Die Arbeit stellt MedXIAOHE vor, ein medizinisches Vision-Language-Modell, das durch einen entitätsbasierten kontinuierlichen Vortrainingsansatz, verstärktes Lernen und agentenbasiertes Training mit Werkzeugen sowie evidenzbasiertes Schließen state-of-the-art-Leistung in der medizinischen Diagnostik und Berichterstattung erzielt und dabei die Zuverlässigkeit und Nachvollziehbarkeit klinischer Anwendungen verbessert.

Baorong Shi, Bo Cui, Boyuan Jiang + 17 more2026-03-04⚡ eess

Rethinking the Role of LLMs in Time Series Forecasting

Diese Studie widerlegt frühere Skepsis und belegt durch eine groß angelegte Analyse, dass Large Language Models die Zeitreihenvorhersage insbesondere bei domänenübergreifender Generalisierung signifikant verbessern, wobei sowohl Vorwissen als auch die Modellarchitektur komplementäre Rollen spielen.

Xin Qiu, Junlong Tong, Yirong Sun + 3 more2026-03-04💬 cs.CL

Spilled Energy in Large Language Models

Die Arbeit stellt eine trainingsfreie Methode vor, die das Softmax-Verhalten von Large Language Models als Energie-basiertes Modell neu interpretiert, um durch die Analyse von „verschwendeter Energie" und marginalisierter Energie Halluzinationen und Fehler ohne zusätzliche Trainingskosten präzise zu erkennen.

Adrian Robert Minut, Hazem Dewidar, Iacopo Masi2026-03-04💬 cs.CL

Classroom Final Exam: An Instructor-Tested Reasoning Benchmark

Die Studie stellt CFE-Bench vor, ein multimodales Benchmark mit authentischen Universitätsprüfungen aus über 20 MINT-Fächern, das zeigt, dass selbst fortschrittliche Sprachmodelle bei mehrstufigen Schlussfolgerungen oft an der Konsistenz der Zwischenschritte scheitern und weniger effizient als menschliche Dozenten lösen.

Chongyang Gao, Diji Yang, Shuyan Zhou + 4 more2026-03-04💬 cs.CL

RuCL: Stratified Rubric-Based Curriculum Learning for Multimodal Large Language Model Reasoning

Die Arbeit stellt RuCL vor, ein neuartiges Curriculum-Learning-Framework für multimodale Large Language Models, das durch die dynamische Gewichtung generalisierter, stratifizierter Rubriken die Trainingsdynamik optimiert und so zu einem signifikanten Genauigkeitsgewinn bei visuellen Reasoning-Aufgaben führt.

Yukun Chen, Jiaming Li, Longze Chen + 10 more2026-03-04💬 cs.CL

Scalable Multilingual Multimodal Machine Translation with Speech-Text Fusion

Diese Arbeit stellt einen skalierbaren, sprachgesteuerten Rahmen für die multimodale maschinelle Übersetzung vor, der durch die Fusion von Sprach- und Textdaten sowie einen Selbst-Optimierungsmechanismus neue State-of-the-Art-Ergebnisse auf Benchmark-Datensätzen wie Multi30K und FLORES-200 erzielt.

Yexing Du, Youcheng Pan, Zekun Wang + 7 more2026-03-04💬 cs.CL

DeepXiv-SDK: An Agentic Data Interface for Scientific Literature

Das Paper stellt DeepXiv-SDK vor, eine dreischichtige Schnittstelle, die den Zugriff von KI-Agenten auf wissenschaftliche Literatur durch die Umwandlung unstrukturierter Daten in strukturierte JSON-Formate und die Bereitstellung von Tools für effiziente, kostengünstige und skalierbare Recherche optimiert.

Hongjin Qian, Ziyi Xia, Ze Liu + 11 more2026-03-04💬 cs.CL

Super Research: Answering Highly Complex Questions with Large Language Models through Super Deep and Super Wide Research

Das Paper stellt „Super Research" vor, eine neue Aufgabe und Benchmark, die Large Language Models durch strukturierte Zerlegung, extrem breite und tiefe Recherchen sowie graphenbasierte Audits befähigt, hochkomplexe Fragen zu lösen, die Hunderte von Suchschritten und die Synthese tausender Quellen erfordern.

Yubo Dong, Nianhao You, Yuxuan Hou + 5 more2026-03-04💬 cs.CL

Piecing Together Cross-Document Coreference Resolution Datasets: Systematic Dataset Analysis and Unification

Die Studie stellt uCDCR vor, ein einheitliches Dataset, das diverse englische Cross-Document-Coreference-Korpora für Entitäten und Ereignisse konsolidiert, um durch standardisierte Analyse und Bewertung die Fragmentierung des Forschungsfelds zu überwinden und die Generalisierbarkeit von Modellen zu verbessern.

Anastasia Zhukova, Terry Ruas, Jan Philip Wahle + 1 more2026-03-04💬 cs.CL

QIME: Constructing Interpretable Medical Text Embeddings via Ontology-Grounded Questions

Das Paper stellt QIME vor, ein Framework, das durch die Verankerung in medizinischen Ontologien und die Generierung semantisch atomarer Ja/Nein-Fragen interpretierbare biomedizinische Texteinbettungen erstellt, die nicht nur die Erklärbarkeit für klinische Entscheidungen verbessern, sondern auch die Leistungslücke zu Black-Box-Modellen erheblich verringern.

Yixuan Tang, Zhenghong Lin, Yandong Sun + 3 more2026-03-04💬 cs.CL

ClinConsensus: A Consensus-Based Benchmark for Evaluating Chinese Medical LLMs across Difficulty Levels

Das Paper stellt ClinConsensus vor, ein von klinischen Experten erstelltes Benchmark-System für chinesische medizinische LLMs, das offene Fälle über den gesamten Versorgungsverlauf hinweg abdeckt und durch eine neuartige Bewertungsmethode (CACS@k) sowie ein Dual-Judge-Framework eine zuverlässige, skalierbare Evaluierung komplexer klinischer Szenarien ermöglicht.

Xiang Zheng, Han Li, Wenjie Luo + 9 more2026-03-04💬 cs.CL

← Zurück Weiter →