cs.AI Arbeiten | Gist.Science

Dual Randomized Smoothing: Beyond Global Noise Variance

Die Arbeit schlägt einen „Dual Randomized Smoothing"-Ansatz vor, der durch inputabhängige Rauschvarianzen die bisherige Beschränkung globaler Varianzen überwindet und gleichzeitig hohe Genauigkeit bei kleinen und großen Robustheitsradien erreicht.

Chenhao Sun, Yuhao Mao, Martin Vechev2026-03-10🤖 cs.LG

Process-Centric Analysis of Agentic Software Systems

Die Arbeit stellt Graphectory vor, ein graphenbasiertes Framework zur prozessorientierten Analyse agenter Softwaresysteme, das nicht nur tiefere Einblicke in deren reasoning-Strategien ermöglicht, sondern durch Echtzeit-Überwachung und Interventionen die Lösungsrate von SWE-bench-Problemen signifikant steigert.

Shuyang Liu, Yang Chen, Rahul Krishna, Saurabh Sinha, Jatin Ganhotra, Reyhan Jabbarvand2026-03-10💬 cs.CL

Beyond Additivity: Sparse Isotonic Shapley Regression toward Nonlinear Explainability

Die Arbeit stellt SISR (Sparse Isotonic Shapley Regression) vor, ein einheitliches nichtlineares Erklärungsframework, das durch gleichzeitiges Lernen einer monotonen Transformation zur Wiederherstellung der Additivität und Erzwungung von L0-Sparsity die Verzerrungen herkömmlicher Shapley-Werte bei nicht-additiven Payoffs und hochdimensionalen Merkmalen überwindet.

Jialai She2026-03-10🤖 cs.LG

Parallel Decoder Transformer: Planner-Seeded Latent Coordination for Synchronized Parallel Decoding

Die Arbeit stellt den Parallel Decoder Transformer (PDT) vor, eine Architektur, die durch einen planer-gespeisten latenten Arbeitsraum und ein synchronisiertes Multi-Stream-Protokoll die parallele Dekodierung von Sprachmodellen von einer externen Orchestrierung in einen internen Koordinationsmechanismus überführt.

Logan Robbins2026-03-10💬 cs.CL

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Diese Arbeit stellt den WildRoad-Datensatz und das path-zentrische MaGRoad-Framework vor, um die Herausforderungen der Vektorisierung von Straßen in unwegsamem Gelände zu lösen und dabei sowohl die Genauigkeit als auch die Inferenzgeschwindigkeit im Vergleich zu bestehenden Methoden zu verbessern.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

SALVE: Sparse Autoencoder-Latent Vector Editing for Mechanistic Control of Neural Networks

Die Arbeit stellt SALVE vor, ein einheitliches Framework, das durch den Einsatz von Sparse Autoencodern und Grad-FAM zur Validierung eine mechanistische Interpretierbarkeit ermöglicht und präzise, dauerhafte Eingriffe im Gewichtsraum zur kontrollierten Modifikation von neuronalen Netzen erlaubt.

Vegard Flovik2026-03-10🤖 cs.LG

Adaptation of Agentic AI: A Survey of Post-Training, Memory, and Skills

Diese Arbeit bietet eine umfassende Übersicht über die Anpassung agenter KI-Systeme nach dem Pre-Training und gliedert den fragmentierten Forschungsstand in ein vierstufiges Rahmenwerk ein, das Agenten- und Werkzeuganpassung durch Methoden wie Feinabstimmung, Verstärkungslernen und adaptive Speichersysteme zusammenführt.

Pengcheng Jiang, Jiacheng Lin, Zhiyi Shi, Zifeng Wang, Luxi He, Yichen Wu, Ming Zhong, Peiyang Song, Qizheng Zhang, Heng Wang, Xueqiang Xu, Hanwen Xu, Pengrui Han, Dylan Zhang, Jiashuo Sun, Chaoqi Yang, Kun Qian, Tian Wang, Changran Hu, Manling Li, Quanzheng Li, Hao Peng, Sheng Wang, Jingbo Shang, Chao Zhang, Jiaxuan You, Liyuan Liu, Pan Lu, Yu Zhang, Heng Ji, Yejin Choi, Dawn Song, Jimeng Sun, Jiawei Han2026-03-10💬 cs.CL

Meta-RL Induces Exploration in Language Agents

Die Studie stellt LaMer vor, ein Meta-RL-Framework, das Sprachagenten durch eine cross-episodische Trainingsstruktur und kontextbasierte Reflexion befähigt, aktiv zu explorieren und sich ohne Gradientenupdates an Umgebungen anzupassen, was zu signifikant besseren Leistungen und einer stärkeren Generalisierungsfähigkeit im Vergleich zu herkömmlichen RL-Ansätzen führt.

Yulun Jiang, Liangze Jiang, Damien Teney, Michael Moor, Maria Brbic2026-03-10🤖 cs.LG

ReDepth Anything: Test-Time Depth Refinement via Self-Supervised Re-lighting

Der Artikel stellt Re-Depth Anything vor, ein Testzeit-Framework, das durch selbstüberwachtes Nachbeleuchten und Generierung mit Diffusionsmodellen die Tiefenschätzung von Foundation Models wie Depth Anything V2 und DA3 verbessert, indem es den Domänenabstand schließt und gleichzeitig eine Optimierungskollaps verhindert.

Ananta R. Bhattarai, Helge Rhodin2026-03-10🤖 cs.LG

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Diese Studie zeigt, dass bei Text-zu-SQL-Anwendungen in der Cloud Reasoning-Modelle trotz ähnlicher Genauigkeit signifikant kosteneffizienter sind als nicht-reasoning-Modelle, da die herkömmliche Optimierung nach Ausführungszeit nicht mit den tatsächlichen Verbrauchsgebühren korreliert und nicht-reasoning-Modelle durch ineffiziente Abfragen zu extremen Kostenvarianzen führen können.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

Physics-Informed Neural Networks for Device and Circuit Modeling: A Case Study of NeuroSPICE

Das Paper stellt NeuroSPICE vor, ein physik-informiertes neuronales Netzwerk-Framework, das Differential-Algebraische Gleichungen zur Simulation von Bauelementen und Schaltungen löst und sich durch seine Eignung für Optimierungs- und Inverse-Probleme sowie für die Modellierung neuartiger, stark nichtlinearer Systeme auszeichnet.

Chien-Ting Tung, Chenming Hu2026-03-10🔬 physics.app-ph

Toward a Physical Theory of Intelligence

Das vorgestellte Conservation-Congruent-Encoding (CCE)-Framework stellt ein substratneutrales physikalisches Modell dar, das Intelligenz als irreversiblen Informationsprozess beschreibt und durch die Verknüpfung von thermodynamischer Dissipation, Quantenmessung und Raumzeit-Geometrie fundamentale Grenzen für natürliche und künstliche Intelligenz ableitet.

Peter David Fagan2026-03-10💻 cs

Reliable Grid Forecasting: State Space Models for Safety-Critical Energy Systems

Diese Studie stellt einen operatorfreundlichen Evaluierungsrahmen für die Netzlastprognose vor, der zeigt, dass herkömmliche Genauigkeitsmetriken Sicherheitsrisiken verschleiern, und demonstriert, wie durch explizite Wetterintegration und bias-konstrainte Optimierungsziele die Zuverlässigkeit von State-Space-Modellen und Transformern in sicherheitskritischen Energiesystemen verbessert wird, ohne in triviale Überprognosen zu verfallen.

Sunki Hong, Jisoo Lee2026-03-10⚡ eess

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Das Paper stellt DrivingGen vor, den ersten umfassenden Benchmark für generative Weltmodelle im autonomen Fahren, der durch eine diverse Datensammlung und neue Metriken die Bewertung von visueller Realitätsnähe, Trajektorienplausibilität, zeitlicher Kohärenz und Steuerbarkeit ermöglicht, um die Entwicklung zuverlässiger und einsatzfähiger Simulationswerkzeuge zu fördern.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

Die Arbeit stellt Batch-of-Thought (BoT) vor, eine trainingsfreie Methode, die durch die gemeinsame Verarbeitung verwandter Abfragen in einem Multi-Agenten-Architektur-Setups die reasoning-Fähigkeiten von LLMs verbessert, Fehler durch Konsistenzprüfungen erkennt und die Inferenzkosten signifikant senkt.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

NC-Bench: An LLM Benchmark for Evaluating Conversational Competence

Der NC-Bench-Evaluierungsrahmen bewertet die konversationelle Kompetenz von Large Language Models nicht anhand von Inhalten, sondern anhand der strukturellen und formalen Aspekte natürlicher Gespräche, indem er auf dem IBM Natural Conversation Framework basierende Testsets für grundlegende Sequenzen, RAG-Integration und komplexe Anfragen nutzt.

Robert J. Moore, Sungeun An, Farhan Ahmed, Jay Pankaj Gala2026-03-10💬 cs.CL

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Diese Studie untersucht den LAION-Aesthetics Predictor und zeigt durch Audits und eine digitale Ethnographie auf, dass das Modell durch die Bevorzugung westlicher und männlicher Perspektiven sowie die Unterdrückung von LGBTQ+-Inhalten bestehende Machtstrukturen in der KI-generierten Bildkunst verstärkt, woraus die Notwendigkeit pluralistischerer Bewertungsansätze abgeleitet wird.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Die Arbeit stellt mit „Single-Shot Planning" einen neuen Sicherheitsansatz für Computer-Nutzungs-Agenten vor, der durch eine strikte Trennung von Planung und Ausführung Prompt-Injection-Angriffe verhindert und gleichzeitig Branch-Steering-Angriffe adressiert, wodurch sowohl Sicherheit als auch die Leistungsfähigkeit der Modelle gewährleistet werden.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Die Studie stellt BoxMind vor, ein geschlossenes KI-Expertensystem, das durch die Umwandlung von Boxkampf-Videos in hierarchische taktische Indikatoren und die Nutzung eines graphbasierten Vorhersagemodells strategische Empfehlungen generiert, die 2024 bei den Olympischen Spielen in Paris zur historischen Medaillenausbeute der chinesischen Nationalmannschaft beitrugen.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Die Arbeit stellt MSAHG vor, einen neuartigen Hypergraph-Lernansatz, der durch scenario-spezifische Subhypergraphen und einen parametrischen Trennungsmechanismus die Mobilitätsmuster von Nutzern in unterschiedlichen Kontexten effektiv modelliert und so die Genauigkeit der Empfehlung des nächsten Points of Interest (POI) in Location-Based Social Networks signifikant verbessert.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

← Zurück Weiter →