cs.AI Arbeiten | Gist.Science

Efficiently Aligning Draft Models via Parameter- and Data-Efficient Adaptation

Die vorgestellte Arbeit stellt EDA vor, einen parameter- und dateneffizienten Rahmen zur Anpassung von Draft-Modellen, der durch eine entkoppelte Architektur, eine Strategie zur Datenregeneration und eine Stichprobenauswahl die Leistung des spekulativen Decodings bei feinabgestimmten Zielmodellen mit geringeren Trainingskosten wiederherstellt.

Luxi Lin, Zhihang Lin, Zhanpeng Zeng, Yuhao Chen, Qingyu Zhang, Jixiang Luo, Xuelong Li, Rongrong Ji2026-03-11🤖 cs.AI

Enhancing Debunking Effectiveness through LLM-based Personality Adaptation

Diese Studie stellt eine Methode vor, bei der Large Language Models genutzt werden, um Fakenews-Entlarvungen basierend auf den Big-Five-Persönlichkeitseigenschaften zu personalisieren und deren Wirksamkeit durch automatische Evaluierung zu bestätigen, wobei sich zeigt, dass solche maßgeschneiderten Botschaften überzeugender sind, gleichzeitig aber ethische Bedenken aufwerfen.

Pietro Dell'Oglio, Alessandro Bondielli, Francesco Marcelloni, Lucia C. Passaro2026-03-11🤖 cs.AI

Compiler-First State Space Duality and Portable $O(1)$ Autoregressive Caching for Inference

Diese Arbeit demonstriert, dass sich Mamba-2 durch compilerbasierte XLA-Optimierungen ohne handgeschriebene CUDA-Kernels effizient auf CPU, NVIDIA-GPUs und TPUs portieren lässt, wodurch eine theoretische $O(1)$ -Zustandsverwaltung und hardwareunabhängige Inferenz mit hoher Leistung erreicht werden.

Cosmo Santoni2026-03-11🤖 cs.AI

Routing without Forgetting

Die Arbeit stellt „Routing without Forgetting" (RwF) vor, eine Transformer-Architektur, die durch energie-basierte assoziative Abrufschichten dynamische Prompts generiert und so das Problem des Vergessens im Online-Continual-Learning ohne explizite Aufgabenkennungen oder wiederholte Optimierung löst.

Alessio Masano, Giovanni Bellitto, Dipam Goswani, Joost Van de Weijer, Concetto Spampinato2026-03-11🤖 cs.AI

A Variational Latent Equilibrium for Learning in Cortex

Diese Arbeit stellt ein biologisch plausibles, variationsbasiertes Formalismus vor, der Backpropagation Through Time durch lokale, zeitkontinuierliche Gleichungen approximiert und damit einen Rahmen für das räumlich-zeitliche Lernen im Kortex sowie für physikalische Schaltkreise schafft.

Simon Brandt, Paul Haider, Walter Senn, Federico Benitez, Mihai A. Petrovici2026-03-11🤖 cs.AI

Context Engineering: From Prompts to Corporate Multi-Agent Architecture

Dieser Beitrag stellt Context Engineering als eigenständige Disziplin vor, die über Prompt Engineering hinausgeht und gemeinsam mit Intent und Specification Engineering ein Reifegradmodell für skalierbare, autonome Multi-Agenten-Systeme in Unternehmen bildet, indem er den Kontext als Betriebssystem des Agenten definiert.

Vera V. Vishnyakova2026-03-11🤖 cs.AI

Grounding Synthetic Data Generation With Vision and Language Models

Diese Arbeit stellt ein interpretierbares, visuell-sprachlich fundiertes Framework zur synthetischen Datengenerierung für die Fernerkundung vor und führt den ARAS400k-Datensatz ein, der durch die Kombination von realen und synthetischen Bildern nachweislich die Leistung von Modellen für semantische Segmentierung und Bildunterschriften verbessert.

Ümit Mert Ça\u{g}lar, Alptekin Temizel2026-03-11🤖 cs.AI

PRECEPT: Planning Resilience via Experience, Context Engineering & Probing Trajectories A Unified Framework for Test-Time Adaptation with Compositional Rule Learning and Pareto-Guided Prompt Evolution

Die Arbeit stellt PRECEPT vor, ein einheitliches Framework für die Anpassung von LLM-Agenten zur Laufzeit, das durch deterministische Regelabrufe, konfliktbewusstes Gedächtnis und einen pareto-gesteuerten Prompt-Evolutionsmechanismus (COMPASS) die Zuverlässigkeit, Kompositionsfähigkeit und Robustheit gegenüber veralteten oder adversarischen Informationen signifikant verbessert.

Arash Shahmansoori2026-03-11🤖 cs.AI

MM-tau-p $^2$ : Persona-Adaptive Prompting for Robust Multi-Modal Agent Evaluation in Dual-Control Settings

Die Arbeit stellt MM-tau-p² vor, einen neuen Benchmark mit 12 Metriken zur automatisierten, ganzheitlichen Evaluierung der Robustheit von multimodalen Agenten in Dual-Control-Szenarien unter Berücksichtigung von Persona-Anpassungen und Echtzeit-Interaktionen in Domänen wie Telekommunikation und Einzelhandel.

Anupam Purwar, Aditya Choudhary2026-03-11🤖 cs.AI

MiniAppBench: Evaluating the Shift from Text to Interactive HTML Responses in LLM-Powered Assistants

Die Arbeit stellt MiniAppBench vor, den ersten umfassenden Benchmark zur Bewertung der Fähigkeit von LLMs, interaktive Mini-Apps zu generieren, und führt mit MiniAppEval ein agentenbasiertes Evaluierungsframework ein, das durch browserautomatisierte Tests eine hohe Übereinstimmung mit menschlichen Urteilen erreicht.

Zuhao Zhang, Chengyue Yu, Yuante Li, Chenyi Zhuang, Linjian Mo, Shuai Li2026-03-11🤖 cs.AI

When to Lock Attention: Training-Free KV Control in Video Diffusion

Das Paper stellt KV-Lock vor, ein trainingsfreies Framework für DiT-basierte Videodiffusionsmodelle, das durch die dynamische Anpassung der KV-Caching-Rate und der CFG-Stärke auf Basis einer Halluzinationsmetrik gleichzeitig die Hintergrundkonsistenz erhält und die Vordergrundqualität bei Video-Editing-Aufgaben verbessert.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian Wang2026-03-11🤖 cs.AI

GNNs for Time Series Anomaly Detection: An Open-Source Framework and a Critical Evaluation

Diese Arbeit stellt ein Open-Source-Framework für die Anwendung von Graph Neural Networks (GNNs) zur Zeitreihen-Anomalieerkennung vor, das durch eine kritische Evaluierung nicht nur die Detektionsleistung und Interpretierbarkeit verbessert, sondern auch bestehende Mängel in der Bewertungsmethodik aufdeckt.

Federico Bello, Gonzalo Chiarlone, Marcelo Fiori, Gastón García González, Federico Larroca2026-03-11🤖 cs.AI

Logics-Parsing-Omni Technical Report

Der vorgestellte Logics-Parsing-Omni-Ansatz stellt ein einheitliches Framework vor, das durch eine hierarchische Struktur aus holistischer Detektion, feinkörniger Erkennung und mehrstufiger Interpretation sowie einem evidenzbasierten Verankerungsmechanismus multimodale, unstrukturierte Daten in nachvollziehbare, maschinenlesbare Wissensstrukturen umwandelt.

Xin An, Jingyi Cai, Xiangyang Chen, Huayao Liu, Peiting Liu, Peng Wang, Bei Yang, Xiuwen Zhu, Yongfan Chen, Baoyu Hou, Shuzhao Li, Weidong Ren, Fan Yang, Jiangtao Zhang, Xiaoxiao Xu, Lin Qu2026-03-11🤖 cs.AI

EsoLang-Bench: Evaluating Genuine Reasoning in Large Language Models via Esoteric Programming Languages

Die Arbeit stellt EsoLang-Bench vor, einen Benchmark auf Basis esoterischer Programmiersprachen, der zeigt, dass große Sprachmodelle trotz hoher Leistungen bei Standardtests kaum genuine Reasoning-Fähigkeiten besitzen und stattdessen auf Memorierung angewiesen sind.

Aman Sharma, Paras Chopra2026-03-11🤖 cs.AI

Automatic Cardiac Risk Management Classification using large-context Electronic Patients Health Records

Diese Studie stellt einen automatisierten Klassifikationsrahmen zur kardiovaskulären Risikobewertung bei geriatrischen Patienten vor, der unstrukturierte elektronische Patientenakten nutzt und zeigt, dass eine maßgeschneiderte Transformer-Architektur traditionelle Methoden sowie generative Large Language Models übertrifft.

Jacopo Vitale, David Della Morte, Luca Bacco, Mario Merone, Mark de Groot, Saskia Haitjema, Leandro Pecchia, Bram van Es2026-03-11🤖 cs.AI

AutoViVQA: A Large-Scale Automatically Constructed Dataset for Vietnamese Visual Question Answering

Die Arbeit stellt AutoViVQA vor, einen groß angelegten, automatisch erstellten Datensatz für die visuelle Beantwortung von Fragen auf Vietnamesisch, der Transformer-Architekturen nutzt und verschiedene automatische Evaluierungsmetriken im multilingualen Kontext systematisch vergleicht.

Nguyen Anh Tuong, Phan Ba Duc, Nguyen Trung Quoc, Tran Dac Thinh, Dang Duy Lan, Nguyen Quoc Thinh, Tung Le2026-03-11🤖 cs.AI

ESAinsTOD: A Unified End-to-End Schema-Aware Instruction-Tuning Framework for Task-Oriented Dialog Modeling

Das Paper stellt ESAinsTOD vor, ein einheitliches End-to-End-Framework für aufgabenorientierte Dialoge, das durch instruktions- und schemabewusste Ausrichtungsmechanismen sowie Vollparameter-Feinabstimmung von LLMs eine überlegene Generalisierung, Robustheit und Leistung auf verschiedenen Benchmarks und in Low-Resource-Szenarien erreicht.

Dechuan Teng, Chunlin Lu, Libo Qin, Wanxiang Che2026-03-11🤖 cs.AI

ActiveUltraFeedback: Efficient Preference Data Generation using Active Learning

Die Arbeit stellt ActiveUltraFeedback vor, eine modulare Active-Learning-Pipeline, die durch die gezielte Auswahl unsicherer oder qualitativ stark unterschiedlicher Antwortpaare hochwertige Präferenzdaten mit nur einem Sechstel des Annotationsaufwands im Vergleich zu statischen Baselines generiert und so die Leistung von Large Language Models signifikant verbessert.

Davit Melikidze, Marian Schneider, Jessica Lam, Martin Wertich, Ido Hakimi, Barna Pásztor, Andreas Krause2026-03-11🤖 cs.AI

Mousse: Rectifying the Geometry of Muon with Curvature-Aware Preconditioning

Die Arbeit stellt Mousse vor, einen neuen Optimierer, der durch die Kombination von Muons spektraler Stabilität mit Shampoons kroneckerfaktorisierter Vorbedingung die geometrische Anpassungsfähigkeit in stark konditionierten Landschaften verbessert und so das Training von Sprachmodellen um etwa 12 % beschleunigt.

Yechen Zhang, Shuhao Xing, Junhao Huang, Kai Lv, Yunhua Zhou, Xipeng Qiu, Qipeng Guo, Kai Chen2026-03-11🤖 cs.AI

OOD-MMSafe: Advancing MLLM Safety from Harmful Intent to Hidden Consequences

Die Arbeit stellt OOD-MMSafe, einen neuen Benchmark zur Bewertung der Fähigkeit von Multimodalen Sprachmodellen, latente Konsequenzen zu erkennen, und schlägt das CASPO-Framework vor, das durch selbstgesteuerte Belohnungen die Sicherheitsvorhersage signifikant verbessert.

Ming Wen, Kun Yang, Jingyu Zhang, Yuxuan Liu, shiwen cui, Shouling Ji, Xingjun Ma2026-03-11🤖 cs.AI

← Zurück Weiter →

cs.AI