cs.CL Arbeiten | Gist.Science

Evaluating LLM-Based Grant Proposal Review via Structured Perturbations

Diese Studie untersucht die Eignung von LLMs für die Begutachtung von EPSRC-Förderanträgen durch strukturierte Perturbationen und stellt fest, dass zwar ein abschnittsbasierter Ansatz die beste Leistung zeigt, die Modelle jedoch eine hohe Variabilität aufweisen und sich zu stark auf Compliance-Checks statt auf eine ganzheitliche Bewertung konzentrieren.

William Thorne, Joseph James, Yang Wang, Chenghua Lin, Diana Maynard2026-03-10💬 cs.CL

Using Multimodal and Language-Agnostic Sentence Embeddings for Abstractive Summarization

Das Paper stellt SBARThez vor, ein multimodales und mehrsprachiges Abstraktions-Summarisierungs-Framework, das vortrainierte Sentence Embeddings und einen Named Entity Injection-Mechanismus nutzt, um faktenkonsistente und präzise Zusammenfassungen für Text- und Sprachdaten zu generieren.

Chaimae Chellaf, Salima Mdhaffar, Yannick Estève, Stéphane Huet2026-03-10💬 cs.CL

LAMUS: A Large-Scale Corpus for Legal Argument Mining from U.S. Caselaw using LLMs

Die Arbeit stellt LAMUS vor, ein groß angelegtes Korpus für das Mining juristischer Argumente aus US-Rechtsprechungen, das mithilfe einer datenzentrischen Pipeline mit LLMs und menschlicher Qualitätskontrolle erstellt wurde, um die Forschung im Bereich Legal NLP voranzutreiben.

Serene Wang, Lavanya Pobbathi, Haihua Chen2026-03-10💬 cs.CL

Learning Multiple Utterance-Level Attribute Representations with a Unified Speech Encoder

Diese Arbeit stellt ein einheitliches Nachtrainierungs-Framework vor, das es einem einzigen Sprach-Grundmodell ermöglicht, durch Erweiterung des bestehenden Paradigmas der kontextuellen Einbettungen mehrere Arten von Äußerungsebenen-Repräsentationen (wie Semantik und Sprecheridentität) gleichzeitig zu erlernen, was sich in verbesserten Leistungen bei mehrsprachiger Sprachsuche und Sprechererkennung zeigt.

Maryem Bouziane, Salima Mdhaffar, Yannick Estève2026-03-10💬 cs.CL

SlowBA: An efficiency backdoor attack towards VLM-based GUI agents

Die Arbeit stellt SlowBA vor, einen neuartigen Backdoor-Angriff auf VLM-basierte GUI-Agenten, der durch eine zweistufige Belohnungsinjektion und realistische Trigger-Muster gezielt die Antwortlatenz erhöht, ohne dabei die Aufgabengenauigkeit zu beeinträchtigen.

Junxian Li, Tu Lan, Haozhen Tan, Yan Meng, Haojin Zhu2026-03-10💬 cs.CL

SPD-RAG: Sub-Agent Per Document Retrieval-Augmented Generation

Das Paper stellt SPD-RAG vor, ein hierarchisches Multi-Agenten-Framework, das komplexe Fragen über viele Dokumente hinweg durch eine spezialisierte, pro Dokument arbeitende Agentenarchitektur und eine zentrale Synthese effizienter und kostengünstiger beantwortet als herkömmliche RAG- oder Long-Context-LLM-Ansätze.

Yagiz Can Akay, Muhammed Yusuf Kartal, Esra Alparslan, Faruk Ortakoyluoglu, Arda Akpinar2026-03-10💬 cs.CL

Rethinking Attention Output Projection: Structured Hadamard Transforms for Efficient Transformers

Die vorgestellte Arbeit ersetzt die dichte Ausgabe-Projektion in Multi-Head-Attention durch eine feste, parameterfreie Walsh-Hadamard-Transformation mit einer leichten affinen Skalierung, was den Parameterbedarf um etwa 25 % senkt und gleichzeitig die Leistung erhält sowie Speicher- und Durchsatzvorteile bei wachsender Modellgröße erzielt.

Shubham Aggarwal, Lokendra Kumar2026-03-10🤖 cs.LG

Do Language Models Know Theo Has a Wife? Investigating the Proviso Problem

Die Studie untersucht, wie Sprachmodelle das „Proviso-Problem" in der Pragmatik bewältigen, und stellt fest, dass sie zwar menschliche Urteile nachahmen, dies jedoch eher durch oberflächliches Mustererkennen als durch tiefgreifendes semantisches oder pragmatisches Verständnis tun.

Tara Azin, Daniel Dumitrescu, Diana Inkpen, Raj Singh2026-03-10💬 cs.CL

Computational modeling of early language learning from acoustic speech and audiovisual input without linguistic priors

Dieser Beitrag fasst zusammen, wie selbstüberwachte und visuell verankerte Rechenmodelle zeigen, dass frühes Spracherlernen ohne starke linguistische Vorerfahrungen durch gemeinsame Lernprinzipien erklärt werden kann, die mit verschiedenen Theorien der Sprachentwicklung vereinbar sind.

Okko Räsänen2026-03-10💬 cs.CL

Adaptive Loops and Memory in Transformers: Think Harder or Know More?

Diese Arbeit stellt fest, dass Transformer-Modelle, die adaptive Schleifen für mathematisches Denken und Gated-Memory-Banken für das Abrufen von Wissen kombinieren, die Leistung von iso-FLOP-Baselines mit dreifach so vielen Schichten übertreffen, wobei eine spezialisierte Arbeitsteilung zwischen frühen und späteren Schichten beobachtet wird.

Markus Frey, Behzad Shomali, Ali Hamza Bashir, David Berghaus, Mehdi Ali2026-03-10💬 cs.CL

COACH meets QUORUM: A Framework and Pipeline for Aligning User, Expert and Developer Perspectives in LLM-generated Health Counselling

Die Studie stellt das Evaluierungsframework QUORUM und die LLM-basierte Pipeline COACH vor, um durch die Vereinigung von Entwickler-, Experten- und Nutzerperspektiven vertrauenswürdige und patientenzentrierte Gesundheitsberatungen für Krebspatienten zu entwickeln und dabei sowohl Übereinstimmungen als auch kritische Divergenzen in der Bewertung zu identifizieren.

Yee Man Ng, Bram van Dijk, Pieter Beynen, Otto Boekesteijn, Joris Jansen, Gerard van Oortmerssen, Max van Duijn, Marco Spruit2026-03-10💬 cs.CL

Revealing Behavioral Plasticity in Large Language Models: A Token-Conditional Perspective

Die Arbeit stellt das Token-Conditioned Reinforcement Learning (ToCoRL)-Framework vor, das die inhärente Verhaltensplastizität von Large Language Models durch token-bedingte Generierung und Verstärkungslernen nutzt, um präzise Verhaltensanpassungen ohne Kapazitätsverlust zu ermöglichen, wie etwa die Umwandlung von rechenintensiven Modellen in effiziente Faktenfragesteller.

Liyuan Mao, Le Yu, Jing Zhou, Chujie Zheng, Bowen Yu, Chang Gao, Shixuan Liu, An Yang, Weinan Zhang, JunYang Lin2026-03-10🤖 cs.LG

Sandpiper: Orchestrated AI-Annotation for Educational Discourse at Scale

Die Arbeit stellt Sandpiper vor, ein gemischt-initiatives System, das interaktive Dashboards mit agenten Großsprachmodellen kombiniert, um die skalierbare und methodisch rigorose Analyse von Bildungsdaten bei gleichzeitiger Wahrung des Datenschutzes und der Vermeidung von Halluzinationen zu ermöglichen.

Daryl Hedley, Doug Pietrzak, Jorge Dias, Ian Burden, Bakhtawar Ahtisham, Zhuqian Zhou, Kirk Vanacore, Josh Marland, Rachel Slama, Justin Reich, Kenneth Koedinger, René Kizilcec2026-03-10💬 cs.CL

Aligning to Illusions: Choice Blindness in Human and AI Feedback

Die Studie zeigt, dass sowohl menschliche als auch KI-gestützte Feedback-Präferenzen durch Choice Blindness und kontextuelle Manipulationen verzerrt werden, was zu einer unentdeckten Degradierung von RLHF-Modellen führt, da die zugrundeliegenden Signale nicht stabil sind und von oberflächlichen Mustern statt echter Selbstüberwachung abhängen.

Wenbin Wu2026-03-10💬 cs.CL

One Model Is Enough: Native Retrieval Embeddings from LLM Agent Hidden States

Die vorgestellte Methode eliminiert die Notwendigkeit separater Embedding-Modelle für LLM-Agenten, indem sie einen leichten Projektionskopf verwendet, um versteckte Zustände direkt in den Embedding-Raum zu projizieren, und erreicht dabei 97 % der ursprünglichen Suchqualität.

Bo Jiang2026-03-10💬 cs.CL

Can Vision-Language Models Solve the Shell Game?

Die Studie stellt VET-Bench vor, einen Benchmark, der zeigt, dass aktuelle Vision-Language-Modelle beim Verfolgen ununterscheidbarer Objekte scheitern, und schlägt mit SGCoT eine Methode vor, die durch explizite Trajektorien-Generierung die Genauigkeit auf über 90 % steigert.

Tiedong Liu, Wee Sun Lee2026-03-10💬 cs.CL

A prospective clinical feasibility study of a conversational diagnostic AI in an ambulatory primary care clinic

Diese prospektive Machbarkeitsstudie zeigt, dass ein konversationsbasiertes KI-System (AMIE) in einer realen ambulanten Umgebung sicher eingesetzt werden kann, von Patienten und Ärzten positiv bewertet wird und in Bezug auf Diagnosequalität und Behandlungspläne mit Hausärzten vergleichbar ist, wenngleich diese bei der praktischen Umsetzbarkeit und Kosteneffizienz überlegen sind.

Peter Brodeur, Jacob M. Koshy, Anil Palepu, Khaled Saab, Ava Homiar, Roma Ruparel, Charles Wu, Ryutaro Tanno, Joseph Xu, Amy Wang, David Stutz, Hannah M. Ferrera, David Barrett, Lindsey Crowley, Jihyeon Lee, Spencer E. Rittner, Ellery Wulczyn, Selena K. Zhang, Elahe Vedadi, Christine G. Kohn, Kavita Kulkarni, Vinay Kadiyala, Sara Mahdavi, Wendy Du, Jessica Williams, David Feinbloom, Renee Wong, Tao Tu, Petar Sirkovic, Alessio Orlandi, Christopher Semturs, Yun Liu, Juraj Gottweis, Dale R. Webster, Joëlle Barral, Katherine Chou, Pushmeet Kohli, Avinatan Hassidim, Yossi Matias, James Manyika, Rob Fields, Jonathan X. Li, Marc L. Cohen, Vivek Natarajan, Mike Schaekermann, Alan Karthikesalingam, Adam Rodman2026-03-10🤖 cs.LG

A Dataset for Probing Translationese Preferences in English-to-Swedish Translation

Diese Arbeit stellt das erste frei verfügbare englisch-schwedische Datenset vor, das Übersetzungsdeutsch mit idiomatischen Alternativen vergleicht und zeigt, dass Sprachmodelle oft zu wörtlichen Übersetzungen neigen, insbesondere wenn der Quelltext verfügbar ist.

Jenny Kunz, Anja Jarochenko, Marcel Bollmann2026-03-10💬 cs.CL

LycheeCluster: Efficient Long-Context Inference with Structure-Aware Chunking and Hierarchical KV Indexing

LycheeCluster ist eine neuartige Methode zur effizienten Verwaltung des KV-Caches bei Large Language Models, die durch semantisch bewusste Chunking und hierarchische Indizierung die lineare Suchkomplexität in logarithmische Zeit umwandelt und damit eine bis zu 3,6-fache Beschleunigung der Inferenz bei minimalen Leistungseinbußen ermöglicht.

Dongfang Li, Zixuan Liu, Gang Lin, Baotian Hu, Min Zhang2026-03-10🤖 cs.LG

Fanar-Sadiq: A Multi-Agent Architecture for Grounded Islamic QA

Der Artikel stellt Fanar-Sadiq vor, ein bilingualer (arabisch/englisch) Multi-Agenten-Assistent, der durch eine spezialisierte, werkzeuggestützte Architektur und Retrieval-Augmented Generation (RAG) halluzinationsfreie, zitiergenaue Antworten auf islamische Rechtsfragen, Koranverse sowie exakte Berechnungen für Zakat und Erbrecht liefert.

Ummar Abbas, Mourad Ouzzani, Mohamed Y. Eltabakh, Omar Sinan, Gagan Bhatia, Hamdy Mubarak, Majd Hawasly, Mohammed Qusay Hashim, Kareem Darwish, Firoj Alam2026-03-10💬 cs.CL

← Zurück Weiter →