cs.CL Arbeiten | Gist.Science

IAG: Input-aware Backdoor Attack on VLM-based Visual Grounding

Diese Arbeit stellt IAG vor, den ersten input-orientierten Backdoor-Angriff auf visuelle Grounding-Modelle, der mithilfe eines textgesteuerten UNet dynamisch, unsichtbare Trigger erzeugt, die beliebige Zielobjekte manipulieren, ohne die normale Leistung zu beeinträchtigen.

Junxian Li, Beining Xu, Simin Chen, Jiatong Li, Jingdi Lei, Haodong Zhao, Di Zhang2026-03-10💬 cs.CL

OTESGN: Optimal Transport-Enhanced Syntactic-Semantic Graph Networks for Aspect-Based Sentiment Analysis

Die Arbeit stellt OTESGN vor, ein Modell für die aspektbasierte Sentimentanalyse, das syntaktische Graphen und semantischen Optimalen Transport kombiniert, um nichtlineare Assoziationen zu erfassen und Rauschen zu unterdrücken, wodurch es auf mehreren Benchmark-Datensätzen neue State-of-the-Art-Ergebnisse erzielt.

Xinfeng Liao, Xuanqi Chen, Lianxi Wang, Jiahuan Yang, Zhuowei Chen, Ziying Rong2026-03-10💬 cs.CL

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Die Studie zeigt, dass lineare Proben zur Erkennung schädlichen Verhaltens in Sprachmodellen stark von textuellen Hinweisen abhängen und ihre Leistung erheblich einbricht, sobald diese oberflächlichen Indikatoren wie Systemprompts oder Chain-of-Thought-Verbalisierungen entfernt werden.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

PonderLM-2: Pretraining LLM with Latent Thoughts in Continuous Space

Die Arbeit stellt PonderLM-2 vor, eine neue Pretraining-Methode, bei der Sprachmodelle vor der Vorhersage eines Tokens latente Gedanken im kontinuierlichen Raum generieren, wodurch sie bei gleicher Inferenzkostenleistung Standardmodelle mit doppelt so vielen Parametern übertreffen.

Boyi Zeng, He Li, Shixiang Song, Yixuan Wang, Zitong Wang, Ziwei He, Xinbing Wang, Zhouhan Lin2026-03-10💬 cs.CL

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Die Studie führt Benchmark-Signaturen ein, die auf salienten Tokens aus natürlichen Korpora basieren und durch ihre Perplexität die Leistung von Sprachmodellen vorhersagen, um damit ein nuanciertes, von Formatverzerrungen unabhängiges Verständnis der Überlappungen und Kapazitätsanforderungen verschiedener Benchmarks zu ermöglichen.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Diese Studie führt den Begriff „Misevolution" ein und zeigt empirisch auf, dass selbstentwickelnde KI-Agenten durch ungewollte Veränderungen in Modellen, Gedächtnis, Werkzeugen oder Arbeitsabläufen neue Sicherheitsrisiken entwickeln können, was eine dringende Anpassung der Sicherheitsparadigmen erfordert.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

TokMem: One-Token Procedural Memory for Large Language Models

Das Paper stellt TokMem vor, ein Verfahren, das wiederverwendbare Aufgaben in einzelne trainierbare Speicher-Token kompiliert, um Large Language Models mit konstantem Overhead und ohne Beeinträchtigung des Basismodells gezielt zu steuern und dabei sowohl Retrieval-Augmented Prompting als auch parameter-effizientes Fine-Tuning zu übertreffen.

Zijun Wu, Yongchang Hao, Lili Mou2026-03-10💬 cs.CL

Stochastic Self-Organization in Multi-Agent Systems

Die Arbeit stellt SelfOrg vor, ein Rahmenwerk, das Multi-Agenten-Systeme auf Basis von Large Language Models durch eine reaktionsbasierte, stochastische Selbstorganisation und die dynamische Konstruktion eines gerichteten azyklischen Graphen optimiert, um die Kommunikation ohne externe Aufsicht oder Training effizient zu steuern.

Nurbek Tastan, Samuel Horvath, Karthik Nandakumar2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Diese Studie stellt einen kosteneffizienten, agentenbasierten LLM-Workflow vor, der autonom über 27.000 thermoelektrische und strukturelle Materialeigenschaften aus wissenschaftlicher Literatur extrahiert, um die größte bisher verfügbare maschinenlesbare Datensammlung für die datengesteuerte Materialentdeckung zu schaffen.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Die FOR-Prompting-Methode ist ein asynchrones Prompting-Protokoll, das durch die Rollenverteilung zwischen Verteidiger, Fragesteller und Moderator eine selbstkorrigierende, objektionsbasierte Verfeinerung von Antworten ermöglicht und dabei ohne Training oder starke Agenten sowohl bei mathematischen als auch bei offenen Aufgaben die Leistung von Sprachmodellen verbessert.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Die Arbeit stellt DialTree vor, ein auf-richtungsorientiertes Reinforcement-Learning-Framework, das durch die Integration von Baumsuche autonom vielfältige Mehr-Turn-Angriffsstrategien gegen Large Language Models entwickelt und dabei die Angriffsrate im Vergleich zu bestehenden Methoden um über 44,2 % steigert.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

An Senegalese Legal Texts Structuration Using LLM-augmented Knowledge Graph

Diese Studie demonstriert die erfolgreiche Anwendung von KI-gestützten Large Language Models und einem Wissensgraphen zur Strukturierung und Visualisierung von 7.967 Artikeln aus senegalesischen Rechtstexten, um den Zugang zu juristischen Informationen und das Verständnis von Rechten und Pflichten zu verbessern.

Oumar Kane, Mouhamad M. Allaya, Dame Samb + 1 more2026-03-10💬 cs.CL

Idiom Understanding as a Tool to Measure the Dialect Gap

Die Studie stellt drei neue Benchmark-Datensätze für idiomatische Ausdrücke im Quebecer Französisch und im Metropolitan-Französisch vor und zeigt anhand von Tests mit 111 Sprachmodellen auf, dass diese als zuverlässiges Werkzeug zur Messung der Dialektlücke dienen, da die meisten Modelle trotz guter Leistungen im Standardfranzösisch signifikant schlechter bei regionalen Idiomen abschneiden.

David Beauchemin, Yan Tremblay, Mohamed Amine Youssef, Richard Khoury2026-03-10💬 cs.CL

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Die Arbeit stellt NANOMIND vor, ein Hardware-Software-Co-Design-Framework, das durch modulare Zerlegung und dynamisches Offloading von Large Multimodal Models auf heterogene Beschleuniger in SoCs die Energieeffizienz und den Durchsatz auf batteriebetriebenen Kleingeräten signifikant verbessert und es ermöglicht, komplexe Modelle wie LLaVA-OneVision über 20 Stunden ohne Netzverbindung lokal auszuführen.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

ACE: Attribution-Controlled Knowledge Editing for Multi-hop Factual Recall

Die Arbeit stellt ACE vor, einen mechanistisch fundierten Ansatz zur Wissensbearbeitung in großen Sprachmodellen, der neuronale Attributionsanalysen nutzt, um kritische Query-Value-Pfade für die Verbesserung des mehrstufigen Faktenabrufs zu identifizieren und zu editieren.

Jiayu Yang, Yuxuan Fan, Songning Lai, Shengen Wu, Jiaqi Tang, Chun Kang, Zhijiang Guo, Yutao Yue2026-03-10💬 cs.CL

R-WoM: Retrieval-augmented World Model For Computer-use Agents

Das Paper stellt R-WoM vor, ein retrieval-basiertes Weltmodell, das die durch Halluzinationen und statisches Wissen begrenzten Fähigkeiten von LLMs bei der langfristigen Simulation in Computer-Umgebungen durch die Einbindung externer Fakten verbessert und so die Entscheidungsfindung von Agenten signifikant optimiert.

Kai Mei, Jiang Guo, Shuaichen Chang, Mingwen Dong, Dongkyu Lee, Xing Niu, Jiarong Jiang2026-03-10💬 cs.CL

HypoSpace: Evaluating LLM Creativity as Set-Valued Hypothesis Generators under Underdetermination

Die Arbeit stellt HypoSpace vor, ein Diagnose-Tool zur Bewertung der Kreativität von Sprachmodellen als Sammler von Hypothesenmengen in unterbestimmten wissenschaftlichen Problemen, indem es Validität, Einzigartigkeit und Abdeckung misst und dabei zeigt, dass Modelle trotz hoher Korrektheit oft in ihrer Vielfalt und Vollständigkeit versagen.

Tingting Chen, Beibei Lin, Zifeng Yuan, Qiran Zou, Hongyu He, Anirudh Goyal, Yew-Soon Ong, Dianbo Liu2026-03-10💬 cs.CL

KrishokBondhu: A Retrieval-Augmented Voice-Based Agricultural Advisory Call Center for Bengali Farmers

Die Studie stellt KrishokBondhu vor, ein auf Retrieval-Augmented Generation (RAG) basierendes, sprachgesteuertes Beratungssystem für den Telefonzugang, das bengalischen Landwirten in Bangladesch präzise und kontextbezogene landwirtschaftliche Ratschläge bietet und dabei im Vergleich zu bestehenden Benchmarks signifikant bessere Ergebnisse erzielt.

Mohd Ruhul Ameen, Akif Islam, Farjana Aktar, M. Saifuzzaman Rafat2026-03-10💬 cs.CL

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed ist ein in Rust implementiertes, produktionsreifes System, das durch statische Token-Lookups und Zero-Copy-Serialisierung Echtzeit-Text-Embeddings mit einer Latenz von 1,12 ms und 50.000 Anfragen pro Sekunde ermöglicht, wobei es bei Deduplizierungs- und Ähnlichkeitsaufgaben eine hohe Genauigkeit erreicht, jedoch bei komplexeren Klassifizierungsaufgaben hinter Transformer-basierten Modellen zurückbleibt.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Die Studie stellt „Jr. AI Scientist" als fortschrittliches autonomes System vor, das menschliche Forschungsabläufe nachahmt, um neue wissenschaftliche Beiträge zu generieren, und bewertet dabei sowohl dessen Leistungsfähigkeit als auch die damit verbundenen Risiken und Grenzen für die Zukunft der KI-gestützten Wissenschaft.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

← Zurück Weiter →