cs.CL Arbeiten | Gist.Science

SPINE: Token-Selective Test-Time Reinforcement Learning with Entropy-Band Regularization

Das Paper stellt SPINE vor, ein testzeitbasiertes Reinforcement-Learning-Verfahren für große Sprachmodelle, das durch token-selektive Updates an entscheidenden Verzweigungspunkten und eine Entropie-Band-Regularisierung den Zusammenfall von Antworten verhindert und die Genauigkeit bei Chain-of-Thought-Reasoning ohne externe Labels verbessert.

Jianghao Wu, Yasmeen George, Jin Ye, Yicheng Wu, Daniel F. Schmidt, Jianfei Cai2026-03-09🤖 cs.LG

Agent Tools Orchestration Leaks More: Dataset, Benchmark, and Mitigation

Diese Arbeit identifiziert und analysiert das neuartige Risiko der „Tools Orchestration Privacy Risk" (TOP-R), bei dem autonome Agenten durch die Kombination nicht-sensitiver Datenfragmente sensible Informationen ableiten, und stellt mit TOP-Bench, dem H-Score sowie wirksamen Minderungsstrategien einen systematischen Rahmen zur Bewertung und Lösung dieses Problems bereit.

Yuxuan Qiao, Dongqin Liu, Hongchang Yang, Wei Zhou, Songlin Hu2026-03-09🤖 cs.AI

Window-based Membership Inference Attacks Against Fine-tuned Large Language Models

Die vorgestellte Arbeit führt die Window-Based Comparison (WBC)-Methode ein, die durch die Analyse lokaler Kontextfenster anstelle globaler Durchschnitte die Wirksamkeit von Membership-Inference-Angriffen auf feinabgestimmte Large Language Models erheblich steigert und damit signifikante Datenschutzlücken aufdeckt.

Yuetian Chen, Yuntao Du, Kaiyuan Zhang, Ashish Kundu, Charles Fleming, Bruno Ribeiro, Ninghui Li2026-03-09🤖 cs.AI

Classroom AI: Large Language Models as Grade-Specific Teachers

Die vorgestellte Studie entwickelt einen Rahmen zur Feinabstimmung von Large Language Models, der mithilfe von sieben Lesbarkeitsmetriken und einem speziellen Datensatz altersgerechte und faktenbasierte Bildungsinhalte für sechs Schulstufen generiert und dabei im Vergleich zu reinen Prompt-Methoden eine signifikante Verbesserung der Niveauangemessenheit bei gleichzeitiger Wahrung der Richtigkeit erzielt.

Jio Oh, Steven Euijong Whang, James Evans, Jindong Wang2026-03-09🤖 cs.AI

Creating a Hybrid Rule and Neural Network Based Semantic Tagger using Silver Standard Data: the PyMUSAS framework for Multilingual Semantic Annotation

Diese Studie stellt das PyMUSAS-Framework vor, das durch die Erstellung eines silberstandardisierten Datensatzes und den Einsatz hybrider regelbasierter sowie neuronaler Modelle die semantische Annotation im USAS-Rahmenwerk für fünf Sprachen erweitert und dabei umfangreiche multilinguale Evaluierungen sowie offene Ressourcen bereitstellt.

Andrew Moore, Paul Rayson, Dawn Archer, Tim Czerniak, Dawn Knight, Daisy Lal, Gearóid Ó Donnchadha, Mícheál Ó Meachair, Scott Piao, Elaine Uí Dhonnchadha, Johanna Vuorinen, Yan Yabo, Xiaobin Yang2026-03-09💬 cs.CL

Restoring Exploration after Post-Training: Latent Exploration Decoding for Large Reasoning Models

Die Arbeit stellt die Latent Exploration Decoding (LED) vor, eine trainingsfreie Dekodierungsstrategie, die durch die Aggregation und Auswahl von Zwischen-Schicht-Posterior-Werten mit maximaler Entropie den durch das Nachtrainieren verursachten Explorationskollaps in Large Reasoning Models überwindet und so die Genauigkeit auf verschiedenen Reasoning-Benchmarks verbessert.

Wenhui Tan, Fiorenzo Parascandolo, Enver Sangineto, Jianzhong Ju, Zhenbo Luo, Qian Cao, Rita Cucchiara, Ruihua Song, Jian Luan2026-03-09🤖 cs.LG

COMI: Coarse-to-fine Context Compression via Marginal Information Gain

Die Arbeit stellt COMI vor, ein zweistufiges Framework zur adaptiven Kontextkomprimierung, das durch die Optimierung des marginalen Informationsgewinns (MIG) Redundanz effektiv reduziert und dabei die semantische Relevanz für Aufgaben wie Fragebeantwortung und Zusammenfassung auch bei extrem hohen Kompressionsraten erhält.

Jiwei Tang, Shilei Liu, Zhicheng Zhang, Yujin Yuan, Libin Zheng, Wenbo Su, Bo Zheng2026-03-09💬 cs.CL

Accelerating Scientific Research with Gemini: Case Studies and Common Techniques

Diese Arbeit präsentiert Fallstudien und bewährte Techniken, die zeigen, wie Forscher mit Google's Gemini-Modellen erfolgreich zusammenarbeiten, um offene Probleme in der theoretischen Informatik und anderen Disziplinen zu lösen, neue Beweise zu generieren und KI als vielseitigen Partner im kreatischen Entdeckungsprozess zu etablieren.

David P. Woodruff, Vincent Cohen-Addad, Lalit Jain, Jieming Mao, Song Zuo, MohammadHossein Bateni, Simina Branzei, Michael P. Brenner, Lin Chen, Ying Feng, Lance Fortnow, Gang Fu, Ziyi Guan, Zahra Hadizadeh, Mohammad T. Hajiaghayi, Mahdi JafariRaviz, Adel Javanmard, Karthik C. S., Ken-ichi Kawarabayashi, Ravi Kumar, Silvio Lattanzi, Euiwoong Lee, Yi Li, Ioannis Panageas, Dimitris Paparas, Benjamin Przybocki, Bernardo Subercaseaux, Ola Svensson, Shayan Taherijam, Xuan Wu, Eylon Yogev, Morteza Zadimoghaddam, Samson Zhou, Yossi Matias, James Manyika, Vahab Mirrokni2026-03-09🤖 cs.AI

Towards Autonomous Mathematics Research

Die Arbeit stellt Aletheia vor, einen autonomen mathematischen Forschungsagenten, der auf dem Gemini Deep Think-Modell basiert und durch iterative Generierung, Verifizierung und Revision von Lösungen in natürlicher Sprache sowohl Olympiadaufgaben als auch komplexe Forschungsarbeiten, einschließlich vollständig KI-generierter und kollaborativer wissenschaftlicher Beiträge, bewältigt.

Tony Feng, Trieu H. Trinh, Garrett Bingham, Dawsen Hwang, Yuri Chervonyi, Junehyuk Jung, Joonkyung Lee, Carlo Pagano, Sang-hyun Kim, Federico Pasqualotto, Sergei Gukov, Jonathan N. Lee, Junsu Kim, Kaiying Hou, Golnaz Ghiasi, Yi Tay, YaGuang Li, Chenkai Kuang, Yuan Liu, Hanzhao Lin, Evan Zheran Liu, Nigamaa Nayakanti, Xiaomeng Yang, Heng-Tze Cheng, Demis Hassabis, Koray Kavukcuoglu, Quoc V. Le, Thang Luong2026-03-09🤖 cs.AI

DataChef: Cooking Up Optimal Data Recipes for LLM Adaptation via Reinforcement Learning

Die Arbeit stellt DataChef-32B vor, ein System, das mittels Reinforcement Learning automatisch optimale Datenrezepte zur Anpassung von Large Language Models generiert und dabei die Leistung menschlicher Experten erreicht oder sogar übertrifft.

Yicheng Chen, Zerun Ma, Xinchen Xie, Yining Li, Kai Chen2026-03-09🤖 cs.AI

The Consensus Trap: Dissecting Subjectivity and the "Ground Truth" Illusion in Data Annotation

Diese Studie widerlegt die Illusion einer objektiven „Ground Truth" in der Datenannotation, indem sie aufzeigt, wie systematische Verzerrungen und der Druck zur Konsensbildung menschliche Meinungsverschiedenheiten als Rauschen unterdrücken, und fordert stattdessen eine pluralistische Infrastruktur, die kulturelle Vielfalt als essenzielles Signal anerkennt.

Sheza Munir, Benjamin Mah, Krisha Kalsi, Shivani Kapania, Julian Posada, Edith Law, Ding Wang, Syed Ishtiaque Ahmed2026-03-09🤖 cs.AI

IntelliAsk: Learning to Ask High-Quality Research Questions via RLVR

Das Paper stellt IntelliAsk vor, ein Modell, das durch Bestärkendes Lernen mit einer speziell entwickelten Belohnungsfunktion (IntelliReward) und einem optimierten Trainingsverfahren (DAPO) hochwertige, evidenzbasierte Forschungsfragen generiert, die menschlichen Gutachterstandards entsprechen und gleichzeitig die allgemeinen Fähigkeiten des Modells verbessern.

Karun Sharma, Vidushee Vats, Shengzhi Li, Yuxiang Wang, Zhongtian Sun, Prayag Tiwari2026-03-09🤖 cs.AI

Diverse Word Choices, Same Reference: Annotating Lexically-Rich Cross-Document Coreference

Dieses Papier stellt ein überarbeitetes Annotationschema für die cross-document Coreferenzresolution vor, das lexikalische Vielfalt und Framing-Variationen in Nachrichten durch die Behandlung von Coreferenzketten als Diskurselemente berücksichtigt und durch die Neuanotation des NewsWCL50-Datensatzes sowie eines ECB+-Teils eine ausgewogenere Grundlage für die Forschung schafft.

Anastasia Zhukova, Felix Hamborg, Karsten Donnay, Norman Meuschke, Bela Gipp2026-03-09💬 cs.CL

The Cascade Equivalence Hypothesis: When Do Speech LLMs Behave Like ASR $\rightarrow$ LLM Pipelines?

Die Studie widerlegt die weit verbreitete Annahme, dass Sprach-LLMs ASR-LLM-Pipelines überlegen sind, und zeigt durch mechanistische Analysen, dass diese Modelle in den meisten Anwendungsfällen lediglich teure Kaskaden darstellen, die unter Rauschbedingungen sogar schlechter abschneiden als ihre textbasierten Pendants.

Jayadev Billa2026-03-09🤖 cs.AI

Both Ends Count! Just How Good are LLM Agents at "Text-to-Big SQL"?

Diese Studie führt neue Metriken für „Text-to-Big SQL" ein, um zu zeigen, dass herkömmliche Text-to-SQL-Benchmarks die Kosten- und Leistungsauswirkungen von LLM-Agenten bei großen Datenmengen nicht erfassen, und bietet detaillierte Einblicke in die Effizienz frontier-Modelle.

Germán T. Eizaguirre, Lars Tissen, Marc Sánchez-Artigas2026-03-09💬 cs.CL

Modality Collapse as Mismatched Decoding: Information-Theoretic Limits of Multimodal LLMs

Diese Arbeit erklärt das Phänomen des Modality Collapse in multimodalen LLMs als Informationsverlust durch fehlende Übereinstimmung zwischen Quell- und Textdaten, wobei die zugängliche Information durch die Generalisierte Gegenseitige Information begrenzt ist und primär vom Trainingsziel des Decoders abhängt, nicht von der Encoder-Architektur.

Jayadev Billa2026-03-09🤖 cs.AI

CoME: Empowering Channel-of-Mobile-Experts with Informative Hybrid-Capabilities Reasoning

Die Arbeit stellt CoME vor, ein neuartiges Agenten-Architekturkonzept, das durch spezialisierte Experten, eine progressive Trainingsstrategie und einen informationsgeleiteten DPO-Ansatz die hybriden Reasoning-Fähigkeiten mobiler Agenten für eine präzisere Aufgabenausführung verbessert.

Yuxuan Liu, Weikai Xu, Kun Huang, Changyu Chen, Jiankun Zhao, Pengzhi Gao, Wei Liu, Jian Luan, Shuo Shang, Bo Du, Ji-Rong Wen, Rui Yan2026-03-09🤖 cs.AI

Verify as You Go: An LLM-Powered Browser Extension for Fake News Detection

Die Arbeit stellt Aletheia vor, eine browserbasierte Erweiterung, die mittels Large Language Models und Retrieval-Augmented Generation Fake News nicht nur erkennt, sondern durch evidenzbasierte Erklärungen, einen Diskussionsraum und aktuelle Faktenchecks transparent und nutzerzentriert bekämpft.

Dorsaf Sallami, Esma Aïmeur2026-03-09💬 cs.CL

Omni-C: Compressing Heterogeneous Modalities into a Single Dense Encoder

Der Paper stellt Omni-C vor, einen einzigen dichten Transformer-Encoder, der durch unimodales kontrastives Vor-Training auf großen unalignierten Daten heterogene Modalitäten wie Bilder, Audio und Text effizient in gemeinsamen Repräsentationen vereint und dabei den Bedarf an Mixture-of-Expert-Architekturen, gepaarter Überwachung oder Routing-Overhead eliminiert.

Kin Wai Lau, Yasar Abbas Ur Rehman, Lai-Man Po, Pedro Porto Buarque de Gusmão2026-03-09🤖 cs.AI

Attention Meets Reachability: Structural Equivalence and Efficiency in Grammar-Constrained LLM Decoding

Diese Arbeit untersucht die strukturelle Äquivalenz und Effizienz von grammatikbeschränktem Decodieren, indem sie einen Invarianzsatz für Orakel beweist, strukturelle Mehrdeutigkeitskosten quantifiziert, untere Schranken für den Rechenaufwand herleitet und die Verzerrung durch Hard-Masking mittels Doob-h-Transform analysiert, um Optimierungsmöglichkeiten für Transformer-Architekturen aufzuzeigen.

Faruk Alpay, Bilge Senturk2026-03-09🤖 cs.LG

← Zurück Weiter →

cs.CL