cs.CL Arbeiten | Gist.Science

The Third Ambition: Artificial Intelligence and the Science of Human Behavior

Dieser Artikel schlägt vor, große Sprachmodelle als drittes, neues Forschungsziel neben Produktivität und Ausrichtung zu nutzen, indem er sie als wissenschaftliche Instrumente zur Analyse menschlichen Verhaltens, kultureller Muster und moralischer Argumentation auf Basis ihrer als Kondensat menschlicher Symbolik verstandenen Trainingsdaten einsetzt.

W. Russell Neuman, Chad Coleman2026-03-10💬 cs.CL

To Predict or Not to Predict? Towards reliable uncertainty estimation in the presence of noise

Die Studie zeigt, dass Monte-Carlo-Dropout-Methoden im Vergleich zu Softmax-basierten Ansätzen eine robustere Unsicherheitsschätzung für multilinguale Textklassifizierung unter verrauschten Bedingungen bieten und durch das Abstimmen unsicherer Vorhersagen die Gesamtleistung signifikant verbessern.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

How Much Noise Can BERT Handle? Insights from Multilingual Sentence Difficulty Detection

Diese Studie untersucht den Einfluss verschiedener Rauschfilterungsmethoden auf die Leistung von BERT-Modellen bei der multilingualen Erkennung von Satzschwierigkeiten und zeigt, dass explizite Rauscherkennung insbesondere bei kleineren Datensätzen die Vorhersagequalität erheblich steigern kann, während vortrainierte Sprachmodelle bei größeren Datensätzen bereits eine robuste Basisleistung bieten.

Nouran Khallaf, Serge Sharoff2026-03-10💬 cs.CL

RILEC: Detection and Generation of L1 Russian Interference Errors in English Learner Texts

Die Arbeit stellt RILEC vor, einen umfangreichen Datensatz und ein Framework zur Erkennung und Generierung von englischen Lernertexten, die durch russische L1-Interferenzfehler geprägt sind, um Lehrern und Lernenden bei der Identifizierung und Korrektur solcher Fehler zu helfen.

Darya Kharlamova, Irina Proskurina2026-03-10💬 cs.CL

Position: LLMs Must Use Functor-Based and RAG-Driven Bias Mitigation for Fairness

Diese Positionspapier plädiert für einen kombinierten Ansatz zur Bekämpfung von Verzerrungen in großen Sprachmodellen, der kategorientheoretische Funktoren zur strukturellen Entschärfung von Vorurteilen mit retrievalgestützter Generierung (RAG) zur dynamischen Kontextualisierung durch externe Wissensquellen verbindet, um faire und gerechte Ausgaben zu gewährleisten.

Ravi Ranjan, Utkarsh Grover, Agorista Polyzou2026-03-10💬 cs.CL

Domain-Specific Quality Estimation for Machine Translation in Low-Resource Scenarios

Diese Studie untersucht die domänenspezifische Qualitätsschätzung für die maschinelle Übersetzung in ressourcenarmen Szenarien zwischen Englisch und indischen Sprachen und zeigt, dass die Anpassung von Transformer-Zwischenschichten mittels Low-Rank-Methoden die Robustheit und Genauigkeit von Open-Weight-Modellen signifikant verbessert.

Namrata Patil Gurav, Akashdeep Ranu, Archchana Sindhujan, Diptesh Kanojia2026-03-10🤖 cs.LG

SoK: Agentic Retrieval-Augmented Generation (RAG): Taxonomy, Architectures, Evaluation, and Research Directions

Diese Systematisierung des Wissens (SoK) stellt das erste einheitliche Rahmenwerk für autonome Retrieval-Augmented-Generation-Systeme vor, indem sie diese als sequenzielle Entscheidungsprozesse formalisiert, eine umfassende Taxonomie und Architekturdekomposition entwickelt, kritische Evaluierungslücken und systemische Risiken analysiert sowie einen Fahrplan für zukünftige Forschungsrichtungen zur Steigerung von Zuverlässigkeit und Skalierbarkeit aufzeigt.

Saroj Mishra, Suman Niroula, Umesh Yadav, Dilip Thakur, Srijan Gyawali, Shiva Gaire2026-03-10💬 cs.CL

Can Large Language Models Keep Up? Benchmarking Online Adaptation to Continual Knowledge Streams

Die Studie stellt mit OAKS einen neuen Benchmark vor, um die Fähigkeit von Large Language Models zur Online-Anpassung an kontinuierlich strömende Wissensdaten zu bewerten, und zeigt dabei erhebliche Defizite aktueller Modelle und Gedächtnissysteme bei der Verfolgung dynamischer Faktenänderungen auf.

Jiyeon Kim, Hyunji Lee, Dylan Zhou, Sue Hyun Park, Seunghyun Yoon, Trung Bui, Franck Dernoncourt, Sungmin Cha, Minjoon Seo2026-03-10💬 cs.CL

AQuA: Toward Strategic Response Generation for Ambiguous Visual Questions

Die Studie stellt AQuA vor, einen feinabgestuften Datensatz zur Klassifizierung von Ambiguitätsstufen in visuellen Fragen, der es Vision-Language-Modellen ermöglicht, durch Feinabstimmung adaptive und kontextangemessene Antwortstrategien zu entwickeln, anstatt bei Mehrdeutigkeiten übermäßig selbstbewusste Antworten zu geben.

Jihyoung Jang, Hyounghun Kim2026-03-10💬 cs.CL

Generalization in Online Reinforcement Learning for Mobile Agents

Diese Arbeit stellt mit AndroidWorld-Generalization einen neuen Benchmark und ein skalierbares Reinforcement-Learning-System vor, das zeigt, dass RL-basierte VLM-Agenten auf mobilen Geräten zwar signifikant besser auf unbekannte Aufgabeninstanzen generalisieren als überwachte Feinabstimmung, jedoch weiterhin vor erheblichen Herausforderungen bei der Generalisierung auf unbekannte Vorlagen und Anwendungen stehen.

Li Gu, Zihuan Jiang, Zhixiang Chi, Huan Liu, Ziqiang Wang, Yuanhao Yu, Glen Berseth, Yang Wang2026-03-10🤖 cs.LG

Few Tokens, Big Leverage: Preserving Safety Alignment by Constraining Safety Tokens during Fine-tuning

Die Arbeit stellt PACT vor, einen Feinabstimmungsansatz, der die Sicherheitsausrichtung von großen Sprachmodellen bewahrt, indem er gezielt nur die Konfidenz auf sicherheitsrelevanten Tokens während des Trainings an ein Referenzmodell angepasst wird, um so einen Abgleichsverlust zu verhindern, ohne die Leistung bei downstream-Aufgaben zu beeinträchtigen.

Guoli Wang, Haonan Shi, Tu Ouyang, An Wang2026-03-10🤖 cs.LG

Dial: A Knowledge-Grounded Dialect-Specific NL2SQL System

Die Arbeit stellt Dial vor, ein wissensbasiertes Framework für dialektspezifische NL2SQL-Übersetzungen, das durch eine dialektsensible logische Abfrageplanung, eine hierarchische Wissensdatenbank und einen ausführungsbasierten Debugging-Prozess die Genauigkeit und Abdeckung von Datenbankdialekten im Vergleich zu bestehenden Methoden signifikant verbessert.

Xiang Zhang, Hongming Xu, Le Zhou, Wei Zhou, Xuanhe Zhou, Guoliang Li, Yuyu Luo, Changdong Liu, Guorun Chen, Jiang Liao, Fan Wu2026-03-10🤖 cs.LG

Image Generation Models: A Technical History

Dieser Artikel bietet eine umfassende technische Übersicht über die Entwicklung von Bildgenerierungsmodellen – von VAEs und GANs bis hin zu Diffusionsverfahren – und behandelt dabei deren Architekturen, Trainingsmethoden, Grenzen sowie aktuelle Fortschritte in der Videogenerierung und die Notwendigkeit einer verantwortungsvollen Nutzung.

Rouzbeh Shirvani2026-03-10💬 cs.CL

The Dual-Stream Transformer: Channelized Architecture for Interpretable Language Modeling

Die vorgestellte Dual-Stream-Transformer-Architektur entkoppelt den Residual-Stream in einen durch Attention aktualisierten Token-Stream und einen durch Feed-Forward-Netzwerke aktualisierten Kontext-Stream, um durch skalierbare Mischstrategien eine nachweisbare Balance zwischen Interpretierbarkeit und Leistungsfähigkeit zu ermöglichen.

J. Clayton Kerce, Alexis Fox2026-03-10🤖 cs.LG

Cross-Modal Taxonomic Generalization in (Vision-) Language Models

Die Studie zeigt, dass Sprachmodelle in Vision-Language-Modellen taxonomisches Wissen (Hyperonyme) auch ohne explizite visuelle Hinweise aus rein sprachlichen Mustern rekonstruieren und verallgemeinern können, wobei diese Fähigkeit jedoch von der visuellen Kohärenz der Kategorien abhängt.

Tianyang Xu, Marcelo Sandoval-Castaneda, Karen Livescu, Greg Shakhnarovich, Kanishka Misra2026-03-10💬 cs.CL

Skip to the Good Part: Representation Structure & Inference-Time Layer Skipping in Diffusion vs. Autoregressive LLMs

Die Studie zeigt, dass Diffusions-Sprachmodelle im Vergleich zu autoregressiven Modellen redundantere, hierarchischere Repräsentationen aufweisen, die eine effiziente Inferenz durch statisches Layer-Skipping ohne Architekturänderungen ermöglichen, während autoregressive Modelle unter ähnlichen Bedingungen stark an Leistung verlieren.

Raghavv Goel, Risheek Garrepalli, Sudhanshu Agrawal, Chris Lott, Mingu Lee, Fatih Porikli2026-03-10💬 cs.CL

A Joint Neural Baseline for Concept, Assertion, and Relation Extraction from Clinical Text

Diese Arbeit stellt ein neuartiges, end-to-end-System vor, das die Aufgaben der Konzepterkennung, Assertionsklassifizierung und Relationsextraktion in klinischen Texten gemeinsam optimiert und dabei die Leistung herkömmlicher Pipeline-Ansätze signifikant übertrifft.

Fei Cheng, Ribeka Tanaka, Sadao Kurohashi2026-03-10💬 cs.CL

Bolbosh: Script-Aware Flow Matching for Kashmiri Text-to-Speech

Die Arbeit stellt Bolbosh vor, das erste Open-Source-Neural-TTS-System für die Kaschmiri-Sprache, das durch eine script-bewusste, überwachte Anpassung mittels Optimal Transport Conditional Flow Matching und einer dreistufigen akustischen Verbesserungspipeline deutlich bessere Ergebnisse als mehrsprachige Baseline-Modelle erzielt.

Tajamul Ashraf, Burhaan Rasheed Zargar, Saeed Abdul Muizz, Ifrah Mushtaq, Nazima Mehdi, Iqra Altaf Gillani, Aadil Amin Kak, Janibul Bashir2026-03-10💬 cs.CL

TableMind++: An Uncertainty-Aware Programmatic Agent for Tool-Augmented Table Reasoning

Der Artikel stellt TableMind++ vor, einen unsicherheitsbewussten, programmatischen Agenten, der durch speicherbasierte Planbereinigung, vertrauensbasierte Aktionsverfeinerung und eine dual-gewichtete Trajektorienaggregation Halluzinationen reduziert und die Tabellenreasoning-Fähigkeiten von Sprachmodellen im Vergleich zu vorherigen Ansätzen signifikant verbessert.

Mingyue Cheng, Shuo Yu, Chuang Jiang, Xiaoyu Tao, Qingyang Mao, Jie Ouyang, Qi Liu, Enhong Chen2026-03-10💬 cs.CL

Accent Vector: Controllable Accent Manipulation for Multilingual TTS Without Accented Data

Die Arbeit stellt „Accent Vector" vor, eine Methode zur kontrollierten Manipulation von Akzenten in mehrsprachigen Text-zu-Sprache-Systemen, die es ermöglicht, feingranulare Akzentstärken und Mischakzente ohne spezielle akzentuierte Trainingsdaten zu erzeugen.

Thanathai Lertpetchpun, Thanapat Trachu, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

← Zurück Weiter →