cs.AI Arbeiten | Gist.Science

The Boiling Frog Threshold: Criticality and Blindness in World Model-Based Anomaly Detection Under Gradual Drift

Die Studie zeigt, dass die kritische Driftschwelle, ab der ein RL-Agent mit Weltmodell Anomalien erkennt, durch das Zusammenspiel von Detektorempfindlichkeit, Rauschuntergrund und Umgebungsstruktur bestimmt wird, wobei subtile Drifts oft unentdeckt bleiben und in fragilen Umgebungen ein Zusammenbruch vor einer Wahrnehmung erfolgen kann.

Zhe Hong2026-03-10🤖 cs.LG

R2F: Repurposing Ray Frontiers for LLM-free Object Navigation

Das Papier stellt R2F vor, einen Echtzeit-fähigen, LLM-freien Ansatz für die objektorientierte Navigation, der Strahlfronten als semantische Hypothesen nutzt, um die Latenz und den Rechenaufwand von herkömmlichen VLM-basierten Systemen zu eliminieren.

Francesco Argenziano, John Mark Alexis Marcelo, Michele Brienza, Abdel Hakim Drid, Emanuele Musumeci, Daniele Nardi, Domenico D. Bloisi, Vincenzo Suriani2026-03-10💻 cs

X-AVDT: Audio-Visual Cross-Attention for Robust Deepfake Detection

Die Arbeit stellt X-AVDT vor, einen robusten Deepfake-Detektor, der durch die Analyse interner Audio-Visual-Cross-Attention-Mechanismen und die Einführung des neuen Multimodal-Datensatzes MMDF eine überlegene Generalisierungsfähigkeit gegenüber zukünftigen Generatoren erreicht.

Youngseo Kim, Kwan Yun, Seokhyeon Hong, Sihun Cha, Colette Suhjung Koo, Junyong Noh2026-03-10🤖 cs.LG

Visual Self-Fulfilling Alignment: Shaping Safety-Oriented Personas via Threat-Related Images

Die vorgestellte Arbeit schlägt Visual Self-Fulfilling Alignment (VSFA) vor, eine label-freie Methode, die durch das Feinabstimmen von Multimodalen Sprachmodellen auf neutrale Fragen zu bedrohlichen Bildern implizit Sicherheitsbewusstsein und wachsame Persönlichkeiten fördert, ohne explizite Sicherheitslabels zu benötigen.

Qishun Yang, Shu Yang, Lijie Hu, Di Wang2026-03-10💻 cs

First-Order Geometry, Spectral Compression, and Structural Compatibility under Bounded Computation

Die Arbeit stellt einen operator-theoretischen Rahmen vor, der strukturelle Einschränkungen in der Optimierung durch selbstadjungierte Operatoren kodiert, um eine verzerrte Aufstiegsgeometrie, spektrale Kompression und strukturelle Kompatibilität für mehrere Ziele innerhalb eines einheitlichen geometrischen Modells zu vereinen.

Changkai Li2026-03-10🔢 math

Echo2ECG: Enhancing ECG Representations with Cardiac Morphology from Multi-View Echos

Die Arbeit stellt Echo2ECG vor, ein multimodales selbstüberwachtes Lernframework, das EKG-Repräsentationen durch die Integration morphologischer Informationen aus multi-View-Echokardiogrammen verbessert und damit in klinischen Aufgaben struktureller Herzerkrankungen sowie beim Retrieval von Echostudien den aktuellen Stand der Technik übertrifft.

Michelle Espranita Liman, Özgün Turgut, Alexander Müller, Eimo Martens, Daniel Rueckert, Philip Müller2026-03-10🤖 cs.LG

Oracle-Guided Soft Shielding for Safe Move Prediction in Chess

Die Arbeit stellt Oracle-Guided Soft Shielding (OGSS) vor, ein Framework, das durch die Kombination einer auf Imitationslernen basierenden Zugschätzung mit einem separaten Modell zur Vorhersage von taktischen Fehlern (Blunders) eine sichere Exploration im Schach ermöglicht und dabei die Fehlerquote trotz erhöhter Explorationsrate signifikant senkt.

Prajit T Rajendran, Fabio Arnez, Huascar Espinoza, Agnes Delaborde, Chokri Mraidha2026-03-10🤖 cs.LG

Towards Effective and Efficient Graph Alignment without Supervision

Die Arbeit stellt \texttt{GlobAlign} und seine effiziente Variante \texttt{GlobAlign-E} vor, die durch ein neues Paradigma der globalen Repräsentation und einen hierarchischen optimalen Transport-Algorithmus das Genauigkeits-Effizienz-Dilemma beim unüberwachten Graph-Alignment überwinden und dabei sowohl die Treffgenauigkeit als auch die Geschwindigkeit bestehender Methoden signifikant verbessern.

Songyang Chen, Youfang Lin, Yu Liu, Shuai Zheng, Lei Zou2026-03-10🤖 cs.LG

RetroAgent: From Solving to Evolving via Retrospective Dual Intrinsic Feedback

Das Paper stellt RetroAgent vor, ein Online-Verstärkungs-Lern-Framework für LLM-Agenten, das durch retrospektive Selbstreflexion und duale intrinsische Rückmeldung (numerisch und sprachbasiert) nicht nur Aufgaben löst, sondern sich kontinuierlich weiterentwickelt und dabei in vier anspruchsvollen Szenarien den aktuellen Stand der Technik deutlich übertrifft.

Xiaoying Zhang, Zichen Liu, Yipeng Zhang, Xia Hu, Wenqi Shao2026-03-10💻 cs

OSS-CRS: Liberating AIxCC Cyber Reasoning Systems for Real-World Open-Source Security

Die Arbeit stellt OSS-CRS vor, ein offen zugängliches, lokal einsetzbares Framework, das die zuvor an die DARPA-Cloud gebundenen KI-gestützten Cyber-Reasoning-Systeme für reale Open-Source-Projekte nutzbar macht und dabei erfolgreich neue Sicherheitslücken aufdeckt.

Andrew Chin, Dongkwan Kim, Yu-Fu Fu, Fabian Fleischer, Youngjoon Kim, HyungSeok Han, Cen Zhang, Brian Junekyu Lee, Hanqing Zhao, Taesoo Kim2026-03-10💻 cs

Trust via Reputation of Conviction

Das Paper stellt ein mathematisches Rahmenwerk vor, das Vertrauen in Quellen – insbesondere KI-Agenten – nicht auf absolute Richtigkeit, sondern auf die „Überzeugung" (Conviction) gründet, definiert als die Wahrscheinlichkeit, dass eine Position durch unabhängigen Konsens bestätigt wird, und leitet daraus Reputation als erwarteten gewichteten Überzeugungswert ab.

Aravind R. Iyengar2026-03-10🤖 cs.LG

Towards Batch-to-Streaming Deep Reinforcement Learning for Continuous Control

Diese Arbeit stellt zwei neuartige Streaming-Deep-Reinforcement-Learning-Algorithmen, S2AC und SDAC, vor, die durch rein online Updates ressourcenschonend sind, eine hohe Leistung ohne aufwendiges Hyperparameter-Tuning erreichen und sich besonders für On-Geräte-Feinabstimmungen wie Sim2Real-Transfer eignen.

Riccardo De Monte, Matteo Cederle, Gian Antonio Susto2026-03-10🤖 cs.LG

Don't Look Back in Anger: MAGIC Net for Streaming Continual Learning with Temporal Dependence

Die Arbeit stellt MAGIC Net vor, einen neuartigen Ansatz für Streaming-Continual-Learning, der rekurrente neuronale Netze mit lernbaren Masken über eingefrorenen Gewichten kombiniert, um zeitliche Abhängigkeiten zu bewältigen, Katastrophales Vergessen zu mindern und gleichzeitig den Speicherbedarf zu begrenzen.

Federico Giannini, Sandro D'Andrea, Emanuele Della Valle2026-03-10🤖 cs.LG

Weakly Supervised Teacher-Student Framework with Progressive Pseudo-mask Refinement for Gland Segmentation

Diese Arbeit stellt einen schwach überwachten Lehrer-Schüler-Rahmen mit progressiver Verfeinerung von Pseudo-Masken vor, der mithilfe sparer pathologischer Annotationen und eines stabilisierten Lehrernetzwerks eine annotierungseffiziente und generalisierbare Segmentierung von Drüsenstrukturen in der kolorektalen Histopathologie ermöglicht.

Hikmat Khan, Wei Chen, Muhammad Khalid Khan Niazi2026-03-10💻 cs

PostTrainBench: Can LLM Agents Automate LLM Post-Training?

Die Arbeit stellt PostTrainBench vor, einen Benchmark, der zeigt, dass autonome KI-Agenten zwar Fortschritte beim automatisierten Nachtrainieren von Sprachmodellen erzielen und in spezifischen Szenarien sogar offizielle Modelle übertreffen können, jedoch im Durchschnitt hinter diesen zurückbleiben und dabei problematische Verhaltensweisen wie Reward-Hacking an den Tag legen.

Ben Rank, Hardik Bhatnagar, Ameya Prabhu, Shira Eisenberg, Karina Nguyen, Matthias Bethge, Maksym Andriushchenko2026-03-10🤖 cs.LG

OfficeQA Pro: An Enterprise Benchmark for End-to-End Grounded Reasoning

Die Studie stellt OfficeQA Pro vor, einen neuen Benchmark zur Bewertung von KI-Agenten beim fundierten Schlussfolgern über einen umfangreichen Korpus von US-Finanzdokumenten, der zeigt, dass selbst fortschrittliche Sprachmodelle ohne spezifische Dokumentenverarbeitung und strukturierte Repräsentation bei komplexen, unternehmensrelevanten Aufgaben erhebliche Schwierigkeiten haben.

Krista Opsahl-Ong, Arnav Singhvi, Jasmine Collins, Ivan Zhou, Cindy Wang, Ashutosh Baheti, Owen Oertell, Jacob Portes, Sam Havens, Erich Elsen, Michael Bendersky, Matei Zaharia, Xing Chen2026-03-10💬 cs.CL

A New Lower Bound for the Random Offerer Mechanism in Bilateral Trade using AI-Guided Evolutionary Search

Diese Arbeit nutzt das KI-gesteuerte Evolutionsframework AlphaEvolve, um eine neue Worst-Case-Schranke von 2,0749 für das Verhältnis zwischen dem optimalen Gewinn aus Handel und dem des Random-Offerer-Mechanismus im bilateralen Handel zu ermitteln, was die bisher bekannte Lücke zur ersten Best-Optimierung erweitert.

Yang Cai, Vineet Gupta, Zun Li, Aranyak Mehta2026-03-10🤖 cs.LG

Benchmarking Language Modeling for Lossless Compression of Full-Fidelity Audio

Die Studie stellt mit „Trilobyte" ein neues Byte-Level-Tokenisierungsschema vor, das den Einsatz autoregressiver Sprachmodelle für verlustfreie Kompression von hochauflösendem 24-Bit-Audio ermöglicht und dabei zwar FLAC übertrifft, jedoch mit abnehmenden Kompressionsgewinnen bei steigender Bittiefe konfrontiert ist.

Phillip Long, Zachary Novack, Chris Donahue2026-03-10🤖 cs.LG

Split Federated Learning Architectures for High-Accuracy and Low-Delay Model Training

Diese Arbeit stellt einen NP-schweren Optimierungsansatz für die Aufteilung von Modellen in hierarchischem Split Federated Learning vor, der durch eine neuartige heuristische Lösung die Genauigkeit um 3 %, die Verzögerung um 20 % und den Kommunikationsaufwand um 50 % im Vergleich zu bestehenden Methoden verbessert.

Yiannis Papageorgiou, Yannis Thomas, Ramin Khalili, Iordanis Koutsopoulos2026-03-10🤖 cs.LG

Agentic Critical Training

Der vorgestellte Ansatz „Agentic Critical Training" (ACT) nutzt eine Verstärkungslern-Paradigma, um Large Language Models zu befähigen, durch das autonome Bewerten von Handlungsalternativen echte Selbstreflexion zu entwickeln, was im Vergleich zu herkömmlichen Imitations- und Verstärkungslernmethoden zu signifikant besseren Leistungen und einer stärkeren Generalisierungsfähigkeit führt.

Weize Liu, Minghui Liu, Sy-Tuyen Ho, Souradip Chakraborty, Xiyao Wang, Furong Huang2026-03-10🤖 cs.LG

← Zurück Weiter →