cs.AI Arbeiten | Gist.Science

Compose by Focus: Scene Graph-based Atomic Skills

Die Arbeit stellt einen Framework vor, der szenengraphbasierte Repräsentationen mit diffusionsbasiertem Imitationslernen und einem VLM-Planer kombiniert, um die Robustheit und kompositionelle Generalisierung von Robotern bei langfristigen Manipulationsaufgaben zu verbessern.

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

Der Artikel stellt FINS vor, ein leichtgewichtiges Framework, das mithilfe eines vortrainierten Fundamentmodells und eines Multi-Resolution-Hash-Grids aus einem einzigen Bild hochpräzise implizite Oberflächen und SDF-Felder in nur wenigen Sekunden rekonstruiert und damit bestehende Methoden in Geschwindigkeit und Genauigkeit übertrifft.

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

Linear probes rely on textual evidence: Results from leakage mitigation studies in language models

Die Studie zeigt, dass lineare Proben zur Erkennung schädlichen Verhaltens in Sprachmodellen stark von textuellen Hinweisen abhängen und ihre Leistung erheblich einbricht, sobald diese oberflächlichen Indikatoren wie Systemprompts oder Chain-of-Thought-Verbalisierungen entfernt werden.

Gerard Boxo, Aman Neelappa, Shivam Raval2026-03-10🤖 cs.LG

Towards Strategic Persuasion with Language Models

Diese Arbeit stellt einen theoretisch fundierten Rahmen auf Basis der Bayes'schen Persuasionstheorie vor, der es ermöglicht, die persuasiven Fähigkeiten von Sprachmodellen zu evaluieren und durch Reinforcement Learning zu trainieren, wobei sich zeigt, dass sowohl große als auch kleine Modelle signifikante Gewinne und strategisch fundierte Überzeugungsansätze erzielen können.

Zirui Cheng, Jiaxuan You2026-03-10💻 cs

Generative Evolutionary Meta-Solver (GEMS): Scalable Surrogate-Free Multi-Agent Reinforcement Learning

Die Arbeit stellt GEMS vor, einen skalierbaren, surrogatfreien Multi-Agenten-Reinforcement-Learning-Ansatz, der durch den Ersatz expliziter Policy-Populationen durch latente Anker und einen amortisierten Generator die Rechen- und Speicherkosten im Vergleich zu PSRO erheblich senkt, ohne dabei die spieltheoretischen Garantien zu verlieren.

Alakh Sharma, Gaurish Trivedi, Kartikey Singh Bhandari, Yash Sinha, Dhruv Kumar, Pratik Narang, Jagat Sesh Challa2026-03-10🤖 cs.LG

Mapping Overlaps in Benchmarks through Perplexity in the Wild

Die Studie führt Benchmark-Signaturen ein, die auf salienten Tokens aus natürlichen Korpora basieren und durch ihre Perplexität die Leistung von Sprachmodellen vorhersagen, um damit ein nuanciertes, von Formatverzerrungen unabhängiges Verständnis der Überlappungen und Kapazitätsanforderungen verschiedener Benchmarks zu ermöglichen.

Siyang Wu, Honglin Bao, Sida Li, Ari Holtzman, James A. Evans2026-03-10💬 cs.CL

ELHPlan: Efficient Long-Horizon Task Planning for Multi-Agent Collaboration

Die Arbeit stellt ELHPlan vor, ein effizientes Framework für die langfristige Aufgabenplanung in der Multi-Agenten-Kollaboration, das durch die Verwendung intentiongebundener Aktionsketten eine hohe Anpassungsfähigkeit bei gleichzeitig deutlich reduzierter Token-Nutzung im Vergleich zu bestehenden Methoden erreicht.

Shaobin Ling, Yun Wang, Chenyou Fan, Tin Lun Lam, Junjie Hu2026-03-10💻 cs

Cold-Start Active Correlation Clustering

Der Artikel stellt eine neuartige, abdeckungsorientierte Methode für das aktive Korrelations-Clustering im Cold-Start-Szenario vor, bei der keine initialen Ähnlichkeiten vorliegen, und validiert deren Wirksamkeit durch synthetische und reale Experimente.

Linus Aronsson, Han Wu, Morteza Haghir Chehreghani2026-03-10🤖 cs.LG

Your Agent May Misevolve: Emergent Risks in Self-evolving LLM Agents

Diese Studie führt den Begriff „Misevolution" ein und zeigt empirisch auf, dass selbstentwickelnde KI-Agenten durch ungewollte Veränderungen in Modellen, Gedächtnis, Werkzeugen oder Arbeitsabläufen neue Sicherheitsrisiken entwickeln können, was eine dringende Anpassung der Sicherheitsparadigmen erfordert.

Shuai Shao, Qihan Ren, Chen Qian, Boyi Wei, Dadi Guo, Jingyi Yang, Xinhao Song, Linfeng Zhang, Weinan Zhang, Dongrui Liu, Jing Shao2026-03-10🤖 cs.LG

CroSTAta: Cross-State Transition Attention Transformer for Robotic Manipulation

Die Arbeit stellt CroSTAta vor, einen Transformer-Ansatz für die robotische Manipulation, der durch eine neuartige State-Transition-Attention-Mechanik und temporale Maskierung die Robustheit gegenüber Abweichungen von Demonstrationsdaten signifikant verbessert und dabei bestehende Methoden wie TCN, LSTM und herkömmliche Cross-Attention übertrifft.

Giovanni Minelli, Giulio Turrisi, Victor Barasuol, Claudio Semini2026-03-10🤖 cs.LG

Automated Extraction of Material Properties using LLM-based AI Agents

Diese Studie stellt einen kosteneffizienten, agentenbasierten LLM-Workflow vor, der autonom über 27.000 thermoelektrische und strukturelle Materialeigenschaften aus wissenschaftlicher Literatur extrahiert, um die größte bisher verfügbare maschinenlesbare Datensammlung für die datengesteuerte Materialentdeckung zu schaffen.

Subham Ghosh, Abhishek Tewari2026-03-10🔬 cond-mat.mtrl-sci

FOR-Prompting: From Objection to Revision via an Asymmetric Prompting Protocol

Die FOR-Prompting-Methode ist ein asynchrones Prompting-Protokoll, das durch die Rollenverteilung zwischen Verteidiger, Fragesteller und Moderator eine selbstkorrigierende, objektionsbasierte Verfeinerung von Antworten ermöglicht und dabei ohne Training oder starke Agenten sowohl bei mathematischen als auch bei offenen Aufgaben die Leistung von Sprachmodellen verbessert.

He Zhang, Anzhou Zhang, Jian Dai2026-03-10💬 cs.CL

Tree-based Dialogue Reinforced Policy Optimization for Red-Teaming Attacks

Die Arbeit stellt DialTree vor, ein auf-richtungsorientiertes Reinforcement-Learning-Framework, das durch die Integration von Baumsuche autonom vielfältige Mehr-Turn-Angriffsstrategien gegen Large Language Models entwickelt und dabei die Angriffsrate im Vergleich zu bestehenden Methoden um über 44,2 % steigert.

Ruohao Guo, Afshin Oroojlooy, Roshan Sridhar, Miguel Ballesteros, Alan Ritter, Dan Roth2026-03-10🤖 cs.LG

Wasserstein Gradient Flows for Scalable and Regularized Barycenter Computation

Die vorgestellte Arbeit führt skalierbare, regularisierte Wasserstein-Gradientenflüsse ein, die durch Mini-Batch-Optimaltransport und die Integration von Label-Informationen einen neuen State-of-the-Art für die Berechnung von Baryzentren in Anwendungen wie Computer Vision und Neurobiologie darstellen.

Eduardo Fernandes Montesuma, Yassir Bendou, Mike Gartrell2026-03-10🤖 cs.LG

Tiny but Mighty: A Software-Hardware Co-Design Approach for Efficient Multimodal Inference on Battery-Powered Small Devices

Die Arbeit stellt NANOMIND vor, ein Hardware-Software-Co-Design-Framework, das durch modulare Zerlegung und dynamisches Offloading von Large Multimodal Models auf heterogene Beschleuniger in SoCs die Energieeffizienz und den Durchsatz auf batteriebetriebenen Kleingeräten signifikant verbessert und es ermöglicht, komplexe Modelle wie LLaVA-OneVision über 20 Stunden ohne Netzverbindung lokal auszuführen.

Yilong Li, Shuai Zhang, Yijing Zeng, Hao Zhang, Xinmiao Xiong, Jingyu Liu, Pan Hu, Suman Banerjee2026-03-10💬 cs.CL

Membership Inference Attacks on Tokenizers of Large Language Models

Diese Studie identifiziert Tokenizer als bisher übersehene Angriffsvektoren für Membership-Inference-Angriffe auf Large Language Models, demonstriert deren Verwundbarkeit durch fünf Angriffsmethoden und schlägt eine adaptive Verteidigung vor, um die damit verbundenen Datenschutzrisiken zu mindern.

Meng Tong, Yuntao Du, Kejiang Chen, Weiming Zhang, Ninghui Li2026-03-10💻 cs

Deliberative Dynamics and Value Alignment in LLM Debates

Diese Studie untersucht die deliberativen Dynamiken und Wertausrichtungen von LLMs in Mehr-Turn-Debatten zu alltäglichen ethischen Dilemmata und zeigt, dass sich Modelle wie GPT-4.1, Claude 3.7 Sonnet und Gemini 2.0 Flash in Bezug auf Urteilsrevisionsraten, Werteprioritäten und die Anfälligkeit für Reihenfolgeeffekte je nach Synchronisationsmodus (parallel vs. sequenziell) erheblich unterscheiden.

Pratik S. Sachdeva, Tom van Nuenen2026-03-10💻 cs

Reallocating Attention Across Layers to Reduce Multimodal Hallucination

Die Arbeit stellt einen retraining-freien, leichten Plugin-Ansatz namens „Functional Head Identification and Class-Conditioned Rescaling" vor, der durch die adaptive Neubalanceierung von wahrnehmungs- und denkorientierten Aufmerksamkeitsköpfen über die Netzwerkschichten hinweg Halluzinationen in multimodalen großen Reasoning-Modellen reduziert und dabei die Genauigkeit signifikant steigert, ohne die Architektur zu verändern oder die Latenz erheblich zu erhöhen.

Haolang Lu, Bolun Chu, WeiYe Fu, Guoshun Nan, Junning Liu, Minghui Pan, Qiankun Li, Yi Yu, Hua Wang, Kun Wang2026-03-10💻 cs

DropVLA: An Action-Level Backdoor Attack on Vision-Language-Action Models

Die Arbeit stellt DropVLA vor, einen neuartigen Backdoor-Angriff auf Vision-Language-Action-Modelle, der es Angreifern ermöglicht, unter minimaler Datenvergiftung und ohne sichtbare Leistungsverschlechterung gezielt einzelne, sicherheitskritische Roboteraktionen an vorherbestimmten Entscheidungspunkten auszulösen.

Zonghuan Xu, Jiayu Li, Yunhan Zhao, Xiang Zheng, Xingjun Ma, Yu-Gang Jiang2026-03-10💻 cs

Ego-Vision World Model for Humanoid Contact Planning

Die Arbeit stellt einen datengetriebenen Rahmen vor, der ein erlerntes Weltmodell mit sampling-basiertem MPC kombiniert, um humanoide Roboter effizient und robust physische Kontakte in unstrukturierten Umgebungen zu planen, ohne auf Demonstrationsdaten angewiesen zu sein.

Hang Liu, Yuman Gao, Sangli Teng, Yufeng Chi, Yakun Sophia Shao, Zhongyu Li, Maani Ghaffari, Koushil Sreenath2026-03-10💻 cs

← Zurück Weiter →