cs.AI Arbeiten | Gist.Science

Taming Modality Entanglement in Continual Audio-Visual Segmentation

Diese Arbeit stellt ein neuartiges Framework namens Collision-based Multi-modal Rehearsal (CMR) vor, das durch gezielte Stichprobenselektion und kollisionsbasierte Wiederholung das Problem der Modalitätsverschränkung beim kontinuierlichen Audio-Visuellen Segmentieren löst und dabei semantische Drift sowie Verwechslungen bei häufig gemeinsam auftretenden Klassen effektiv adressiert.

Yuyang Hong, Qi Yang, Tao Zhang, Zili Wang, Zhaojin Fu, Kun Ding, Bin Fan, Shiming Xiang2026-03-10💻 cs

Reinforcing Numerical Reasoning in LLMs for Tabular Prediction via Structural Priors

Die vorgestellte Arbeit führt Permutation Relative Policy Optimization (PRPO) ein, eine Reinforcement-Learning-Methode, die strukturelle Priors nutzt, um die numerische Schlussfolgerung von Large Language Models für Tabellenvorhersagen zu stärken und dabei selbst in Zero-Shot-Szenarien die Leistung deutlich größerer Modelle zu übertreffen.

Pengxiang Cai, Zihao Gao, Wanchen Lian, Jintai Chen2026-03-10🤖 cs.LG

Rethinking Driving World Model as Synthetic Data Generator for Perception Tasks

Das Paper stellt Dream4Drive vor, ein neues Framework zur Erzeugung synthetischer, fotorealistischer Mehransichtsvideos mittels 3D-Assets und Weltmodellen, das speziell darauf ausgelegt ist, die Leistung von Wahrnehmungsmodellen im autonomen Fahren, insbesondere bei seltenen Randfällen, signifikant zu verbessern.

Kai Zeng, Zhanqian Wu, Kaixin Xiong, Xiaobao Wei, Xiangyu Guo, Zhenxin Zhu, Kalok Ho, Lijun Zhou, Bohan Zeng, Ming Lu, Haiyang Sun, Bing Wang, Guang Chen, Hangjun Ye, Wentao Zhang2026-03-10💻 cs

Human-Centered LLM-Agent System for Detecting Anomalous Digital Asset Transactions

Das Paper stellt HCLA vor, ein menschenzentriertes Multi-Agenten-System, das durch die Trennung von Evidenzbewertung und expertenähnlicher Begründung die Interpretierbarkeit und Rechenschaftspflicht bei der Erkennung anomaler Transaktionen digitaler Vermögenswerte verbessert, indem es algorithmische Befunde mit regulatorischen Urteilen in Einklang bringt.

Gyuyeon Na, Minjung Park, Hyeonjeong Cha, Sangmi Chai2026-03-10💻 cs

CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting

Die Arbeit stellt CountFormer vor, ein exemplarfreies Framework, das durch den Einsatz des selbstüberwachten Vision-Modells DINOv2 die strukturelle Konsistenz beim Zählen unbekannter Objekte verbessert und zeigt, dass die Qualität der Repräsentation entscheidend für die Leistungsfähigkeit in diesem Bereich ist.

Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen2026-03-10💻 cs

LagMemo: Language 3D Gaussian Splatting Memory for Multi-modal Open-vocabulary Multi-goal Visual Navigation

Das Paper stellt LagMemo vor, ein Navigationssystem, das eine 3D-Gauß-Splatting-Speichertechnologie mit Sprachdaten nutzt, um effiziente, offene und multimodale Zielsuche in komplexen Umgebungen zu ermöglichen, und wird durch den neu erstellten GOAT-Core-Datensatz rigoros evaluiert.

Haotian Zhou, Xiaole Wang, He Li, Zhuo Qi, Jinrun Yin, Haiyu Kong, Jianghuan Xu, Huijing Zhao2026-03-10💻 cs

SwiftEmbed: Ultra-Fast Text Embeddings via Static Token Lookup for Real-Time Applications

SwiftEmbed ist ein in Rust implementiertes, produktionsreifes System, das durch statische Token-Lookups und Zero-Copy-Serialisierung Echtzeit-Text-Embeddings mit einer Latenz von 1,12 ms und 50.000 Anfragen pro Sekunde ermöglicht, wobei es bei Deduplizierungs- und Ähnlichkeitsaufgaben eine hohe Genauigkeit erreicht, jedoch bei komplexeren Klassifizierungsaufgaben hinter Transformer-basierten Modellen zurückbleibt.

Edouard Lansiaux, Antoine Simonet, Eric Wiel2026-03-10💬 cs.CL

Vectorized Online POMDP Planning

Das Paper stellt VOPP vor, einen vektorisierten Online-POMDP-Planer, der durch die Umwandlung aller Planungsdatenstrukturen in Tensoren und die vollständige Vektorisierung der Berechnungen massive Parallelisierung ohne Synchronisationsengpässe ermöglicht und damit sowohl effizientere Lösungen als auch eine um den Faktor 1000 reduzierte Planungsbudget-Nutzung im Vergleich zu bestehenden Solvern erreicht.

Marcus Hoerger, Muhammad Sudrajat, Hanna Kurniawati2026-03-10💻 cs

Detecting AI-Generated Images via Diffusion Snap-Back Reconstruction: A Forensic Approach

Die vorgestellte Arbeit schlägt einen forensischen Ansatz zur Erkennung von KI-generierten Bildern vor, der auf der Analyse des „Diffusion Snap-Back"-Verhaltens basiert, bei dem die Rekonstruktion eines Bildes durch ein Diffusionsmodell genutzt wird, um mit einer hohen Genauigkeit von 0,993 AUROC zwischen echten und synthetischen Bildern zu unterscheiden.

Mohd Ruhul Ameen, Akif Islam2026-03-10💻 cs

Balancing Interpretability and Performance in Motor Imagery EEG Classification: A Comparative Study of ANFIS-FBCSP-PSO and EEGNet

Diese Studie vergleicht die interpretierbare ANFIS-FBCSP-PSO-Methode mit dem Deep-Learning-Modell EEGNet zur Motor-Imagery-EEG-Klassifizierung und zeigt, dass das Fuzzy-Modell bei innerhalb-subjektiven Tests überlegen ist, während EEGNet eine bessere Generalisierung über verschiedene Probanden hinweg bietet, was eine gezielte Auswahl des Systems je nach Anforderung an Interpretierbarkeit oder Robustheit ermöglicht.

Farjana Aktar, Mohd Ruhul Ameen, Akif Islam, Md Ekramul Hamid2026-03-10🤖 cs.LG

Towards Efficient Federated Learning of Networked Mixture-of-Experts for Mobile Edge Computing

Diese Arbeit stellt ein System für vernetzte Mixture-of-Experts (NMoE) im mobilen Edge-Computing vor, das durch eine effiziente, datenschutzkonforme Federated-Learning-Strategie die Herausforderungen beim Training großer KI-Modelle auf ressourcenbeschränkten Endgeräten adressiert.

Song Gao, Songyang Zhang, Shusen Jing, Shuai Zhang, Xiangwei Zhou, Yue Wang, Zhipeng Cai2026-03-10🤖 cs.LG

FATE: A Formal Benchmark Series for Frontier Algebra of Multiple Difficulty Levels

Die Arbeit stellt FATE vor, eine neue Benchmark-Serie für formale Algebra, die LLMs vor extrem schwierige Forschungsprobleme stellt und dabei massive Leistungslücken sowie spezifische Fehlermuster bei der Formalisierung aufzeigt.

Jiedong Jiang, Wanyi He, Yuefeng Wang, Guoxiong Gao, Yongle Hu, Jingting Wang, Nailin Guan, Peihao Wu, Chunbo Dai, Liang Xiao, Bin Dong2026-03-10🤖 cs.LG

Jr. AI Scientist and Its Risk Report: Autonomous Scientific Exploration from a Baseline Paper

Die Studie stellt „Jr. AI Scientist" als fortschrittliches autonomes System vor, das menschliche Forschungsabläufe nachahmt, um neue wissenschaftliche Beiträge zu generieren, und bewertet dabei sowohl dessen Leistungsfähigkeit als auch die damit verbundenen Risiken und Grenzen für die Zukunft der KI-gestützten Wissenschaft.

Atsuyuki Miyai, Mashiro Toyooka, Takashi Otonari, Zaiying Zhao, Kiyoharu Aizawa2026-03-10🤖 cs.LG

HatePrototypes: Interpretable and Transferable Representations for Implicit and Explicit Hate Speech Detection

Die Arbeit stellt HatePrototypes vor, interpretierbare und übertragbare Vektordarstellungen, die eine effiziente Erkennung sowohl von expliziter als auch von impliziter Hassrede ermöglichen, ohne wiederholtes Fine-Tuning zu erfordern.

Irina Proskurina, Marc-Antoine Carpentier, Julien Velcin2026-03-10💬 cs.CL

Think, Speak, Decide: Language-Augmented Multi-Agent Reinforcement Learning for Economic Decision-Making

Das Paper stellt LAMP vor, ein Framework für sprachaugmentiertes Multi-Agenten-Reinforcement-Learning, das durch eine „Denken-Sprechen-Entscheiden"-Pipeline numerische Daten mit sprachlicher Analyse verbindet und in Wirtschaftssimulationen signifikant bessere Ergebnisse als herkömmliche MARL- oder reine LLM-Ansätze erzielt.

Heyang Ma, Qirui Mi, Qipeng Yang, Zijun Fan, Bo Li, Haifeng Zhang2026-03-10💻 cs

UnfoldLDM: Deep Unfolding-based Blind Image Restoration with Latent Diffusion Priors

Der Artikel stellt UnfoldLDM vor, ein Deep-Unfolding-Framework, das durch die Integration eines latenten Diffusionsmodells und spezieller Module zur Schätzung von Degradationen sowie zur Wiederherstellung von Hochfrequenzdetails Blind Image Restoration verbessert.

Chunming He, Rihan Zhang, Zheng Chen, Bowen Yang, Chengyu Fang, Yunlong Lin, Yulun Zhang, Fengyang Xiao, Sina Farsiu2026-03-10💻 cs

Stable Multi-Drone GNSS Tracking System for Marine Robots

Diese Arbeit stellt ein stabiles, Echtzeit-Tracking-System für Marine-Roboter vor, das mithilfe eines Schwarmes von Drohnen, visueller Erkennung, GNSS-Triangulation und eines erweiterten Kalman-Filters die Positionsbestimmung unter der Wasseroberfläche ermöglicht, wo GNSS-Signale nicht verfügbar sind.

Shuo Wen, Edwin Meriaux, Mariana Sosa Guzmán, Zhizun Wang, Junming Shi, Gregory Dudek2026-03-10💻 cs

Towards Realistic Guarantees: A Probabilistic Certificate for SmoothLLM

Diese Arbeit verbessert die Zuverlässigkeit der SmoothLLM-Abwehr gegen Jailbreaking-Angriffe, indem sie eine strengere Annahme durch ein realistischeres probabilistisches (k, $\varepsilon$ )-Instabilitäts-Framework ersetzt, das auf empirischen Angriffsmodellen basiert und praktikable Sicherheitsgarantien für den Einsatz von LLMs liefert.

Adarsh Kumarappan, Ayushi Mehrotra2026-03-10🤖 cs.LG

Yo'City: Personalized and Boundless 3D Realistic City Scene Generation via Self-Critic Expansion

Die Arbeit stellt Yo'City vor, ein neuartiges agentic Framework, das mithilfe von Large Language Models eine personalisierte, hierarchisch geplante und unendlich erweiterbare Generierung realistischer 3D-Stadtlandschaften ermöglicht und dabei bestehende Methoden in allen Bewertungskriterien übertrifft.

Keyang Lu, Sifan Zhou, Hongbin Xu, Gang Xu, Zhifei Yang, Yikai Wang, Zhen Xiao, Jieyi Long, Ming Li2026-03-10💻 cs

Enhancing low energy reconstruction and classification in KM3NeT/ORCA with transformers

Diese Studie verbessert die Rekonstruktion und Klassifizierung von Neutrinos im KM3NeT/ORCA-Teleskop durch den Einsatz von Transformern, die mittels physik- und detektorinspirierter Attention-Masks das Verständnis für das Detektordesign sowie die Neutrinophysik ermöglichen und zudem eine effiziente Feinabstimmung zwischen verschiedenen Konfigurationen unterstützen.

Iván Mozún Mateo (on behalf of the KM3NeT collaboration)2026-03-10🔭 astro-ph

← Zurück Weiter →