cs.CL Arbeiten | Gist.Science

MERLIN: Multi-Stage Curriculum Alignment for Multilingual Encoder-LLM Integration in Cross-Lingual Reasoning

Die Arbeit stellt MERLIN vor, ein zweistufiges Framework, das durch Curriculum-Learning und eine effiziente Anpassung mittels DoRA-Gewichten die Leistung von Encoder-LLM-Integrationen beim multilingualen logischen Schlussfolgern, insbesondere in ressourcenarmen Sprachen, signifikant verbessert.

Kosei Uemura, David Guzmán, Quang Phuoc Nguyen, Jesujoba Oluwadara Alabi, En-shiun Annie Lee, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Better Late Than Never: Meta-Evaluation of Latency Metrics for Simultaneous Speech-to-Text Translation

Die Arbeit stellt eine umfassende Meta-Evaluation von Latenzmetriken für simultane Sprach-zu-Text-Übersetzung vor, identifiziert strukturelle Verzerrungen durch Segmentierung und führt mit YAAL, LongYAAL sowie dem SoftSegmenter-Tool verbesserte Lösungen und das OmniSTEval-Toolkit ein, um zuverlässigere Bewertungen zu ermöglichen.

Peter Polák, Sara Papi, Luisa Bentivogli, Ondřej Bojar2026-03-09🤖 cs.AI

Decoding Partial Differential Equations: Cross-Modal Adaptation of Decoder-only Models to PDEs

Diese Studie zeigt, dass Decoder-only-Modelle bei der Anpassung an partielle Differentialgleichungen ohne Modifikation deutlich schlechter abschneiden als Encoder-only-Modelle, und stellt zwei neue Methoden (Parallel Flipping und Sequence Doubling) vor, die durch Nachahmung der Bidirektionalität diese Leistungslücke schließen.

Paloma García-de-Herreros, Philipp Slusallek, Dietrich Klakow, Vagrant Gautam2026-03-09🤖 cs.LG

How Reliable is Language Model Micro-Benchmarking?

Die Studie stellt fest, dass Mikro-Benchmarks für Sprachmodelle oft nicht zuverlässig genug sind, um Modelle mit ähnlicher Leistung korrekt zu rangieren, und zeigt auf, dass für konsistente Ergebnisse häufig so viele Testbeispiele benötigt werden, dass eine zufällige Stichprobe ebenso effektiv ist wie bestehende Mikro-Benchmarking-Methoden.

Gregory Yauney, Shahzaib Saqib Warraich, Swabha Swayamdipta2026-03-09🤖 cs.LG

Do LLMs Really Know What They Don't Know? Internal States Mainly Reflect Knowledge Recall Rather Than Truthfulness

Die Studie zeigt, dass die internen Zustände von LLMs primär den Abruf parametrischen Wissens widerspiegeln und nicht die Wahrheit der Ausgabe, wodurch Halluzinationen, die auf statistischen Assoziationen basieren, von faktisch korrekten Aussagen kaum unterscheidbar sind, während nur nicht-assoziierte Halluzinationen zuverlässig detektierbar bleiben.

Chi Seng Cheang, Hou Pong Chan, Wenxuan Zhang, Yang Deng2026-03-09💬 cs.CL

Just-In-Time Objectives: A General Approach for Specialized AI Interactions

Die Arbeit stellt einen Ansatz vor, bei dem durch passives Beobachten des Nutzerverhaltens sofortige, spezifische Ziele abgeleitet werden, um große Sprachmodelle dynamisch auf individuelle Aufgaben zu spezialisieren und dadurch qualitativ überlegene, maßgeschneiderte Tools sowie Antworten zu generieren.

Michelle S. Lam, Omar Shaikh, Hallie Xu, Alice Guo, Diyi Yang, Jeffrey Heer, James A. Landay, Michael S. Bernstein2026-03-09🤖 cs.AI

Chain-of-Thought Reasoning Improves Context-Aware Translation with Large Language Models

Die Studie zeigt, dass Chain-of-Thought-Reasoning die kontextbewusste Übersetzung durch große Sprachmodelle erheblich verbessert, wobei leistungsstärkere Modelle wie GPT-4 und Phi durch diesen Ansatz noch größere Fortschritte erzielen.

Shabnam Ataee, Hugo Huart, Andrei Popescu-Belis2026-03-09💬 cs.CL

Automated Coding of Communication Data Using ChatGPT: Consistency Across Subgroups

Die Studie zeigt, dass ChatGPT bei der automatisierten Kodierung von Kommunikationsdaten in Bezug auf Geschlecht und ethnische Zugehörigkeit eine mit menschlichen Bewertern vergleichbare Konsistenz aufweist, was seinen Einsatz in groß angelegten Bewertungen von Zusammenarbeit und Kommunikation ermöglicht.

Jiangang Hao, Wenju Cui, Patrick Kyllonen, Emily Kerzabi2026-03-09🤖 cs.AI

Shoot First, Ask Questions Later? Building Rational Agents that Explore and Act Like People

Die Studie stellt fest, dass Sprachmodelle in strategischen Informationsbeschaffungsaufgaben oft hinter menschlichen Fähigkeiten zurückbleiben, und entwickelt darauf aufbauend Monte-Carlo-Inferenzstrategien, die inspiriert von der bayesschen experimentellen Designtheorie die Entscheidungsfindung und Genauigkeit von Agenten signifikant verbessern und sogar schwächere Modelle in der Lage versetzen, menschliche und fortschrittliche KI-Modelle zu übertreffen.

Gabriel Grand, Valerio Pepe, Jacob Andreas, Joshua B. Tenenbaum2026-03-09🤖 cs.AI

DETECT: Determining Ease and Textual Clarity of German Text Simplifications

Die Arbeit stellt DETECT vor, die erste spezifisch für die deutsche Sprache entwickelte Metrik zur ganzheitlichen Bewertung von Textvereinfachungen, die mithilfe von synthetischen LLM-Daten trainiert wurde und in Bezug auf Einfachheit, Bedeutungsbewahrung und Flüssigkeit deutlich stärkere Korrelationen mit menschlichen Urteilen aufweist als bestehende allgemeine Metriken.

Maria Korobeynikova, Alessia Battisti, Lukas Fischer, Yingqiang Gao2026-03-09💬 cs.CL

AfriMTEB and AfriE5: Benchmarking and Adapting Text Embedding Models for African Languages

Die Arbeit stellt mit AfriMTEB ein umfassendes Benchmark für 59 afrikanische Sprachen vor und präsentiert AfriE5, ein durch cross-linguale kontrastive Distillation angepasstes Embedding-Modell, das den aktuellen State-of-the-Art bei der Texteinbettung für afrikanische Sprachen erreicht.

Kosei Uemura, Miaoran Zhang, David Ifeoluwa Adelani2026-03-09💬 cs.CL

Activation-Space Personality Steering: Hybrid Layer Selection for Stable Trait Control in LLMs

Die Arbeit stellt ein neues Verfahren vor, das mithilfe von Big-Five-Persönlichkeitsmerkmalen und einer hybriden Schichtauswahl in den Aktivierungsräumen von Large Language Models stabile und präzise Verhaltenssteuerungen ermöglicht, ohne dabei die Sprachflüssigkeit oder allgemeinen Fähigkeiten des Modells zu beeinträchtigen.

Pranav Bhandari, Nicolas Fay, Sanjeevan Selvaganapathy, Amitava Datta, Usman Naseem, Mehwish Nasim2026-03-09💬 cs.CL

Critical Confabulation: Can LLMs Hallucinate for Social Good?

Die Studie „Critical Confabulation" untersucht, wie LLMs durch kontrollierte Halluzinationen historische Lücken zugunsten marginalisierter Gruppen füllen können, ohne dabei die historische Genauigkeit zu opfern.

Peiqi Sui, Eamon Duede, Hoyt Long, Richard Jean So2026-03-09💬 cs.CL

Co-Layout: LLM-driven Co-optimization for Interior Layout

Die Arbeit stellt Co-Layout vor, ein neuartiges Framework, das Large Language Models mit gitterbasiertem ganzzahligem Programmieren kombiniert, um die Innenraumgestaltung und Möbelplatzierung durch eine effiziente grob-zu-fein-Optimierungsstrategie gemeinsam zu verbessern.

Chucheng Xiang, Ruchao Bao, Biyin Feng, Wenzheng Wu, Zhongyuan Liu, Yirui Guan, Ligang Liu2026-03-09💬 cs.CL

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Das Paper stellt SPINE vor, ein testzeitbasiertes Reinforcement-Learning-Verfahren für große Sprachmodelle, das durch token-selektive Updates an entscheidenden Verzweigungspunkten und eine Entropie-Band-Regularisierung den Zusammenfall von Antworten verhindert und die Genauigkeit bei Chain-of-Thought-Reasoning ohne externe Labels verbessert.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Diese Arbeit identifiziert und analysiert das neuartige Risiko der „Tools Orchestration Privacy Risk" (TOP-R), bei dem autonome Agenten durch die Kombination nicht-sensitiver Datenfragmente sensible Informationen ableiten, und stellt mit TOP-Bench, dem H-Score sowie wirksamen Minderungsstrategien einen systematischen Rahmen zur Bewertung und Lösung dieses Problems bereit.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Die vorgestellte Arbeit führt die Window-Based Comparison (WBC)-Methode ein, die durch die Analyse lokaler Kontextfenster anstelle globaler Durchschnitte die Wirksamkeit von Membership-Inference-Angriffen auf feinabgestimmte Large Language Models erheblich steigert und damit signifikante Datenschutzlücken aufdeckt.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Die vorgestellte Studie entwickelt einen Rahmen zur Feinabstimmung von Large Language Models, der mithilfe von sieben Lesbarkeitsmetriken und einem speziellen Datensatz altersgerechte und faktenbasierte Bildungsinhalte für sechs Schulstufen generiert und dabei im Vergleich zu reinen Prompt-Methoden eine signifikante Verbesserung der Niveauangemessenheit bei gleichzeitiger Wahrung der Richtigkeit erzielt.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Diese Studie stellt das PyMUSAS-Framework vor, das durch die Erstellung eines silberstandardisierten Datensatzes und den Einsatz hybrider regelbasierter sowie neuronaler Modelle die semantische Annotation im USAS-Rahmenwerk für fünf Sprachen erweitert und dabei umfangreiche multilinguale Evaluierungen sowie offene Ressourcen bereitstellt.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Die Arbeit stellt die Latent Exploration Decoding (LED) vor, eine trainingsfreie Dekodierungsstrategie, die durch die Aggregation und Auswahl von Zwischen-Schicht-Posterior-Werten mit maximaler Entropie den durch das Nachtrainieren verursachten Explorationskollaps in Large Reasoning Models überwindet und so die Genauigkeit auf verschiedenen Reasoning-Benchmarks verbessert.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

← Zurück Weiter →