cs.AI Arbeiten | Gist.Science

Neural Dynamics-Informed Pre-trained Framework for Personalized Brain Functional Network Construction

Die vorgestellte Arbeit schlägt ein auf neuronaler Dynamik basierendes vortrainiertes Framework vor, das durch die Extraktion personalisierter Aktivitätsmuster und die Vermeidung starrer Atlanten die Grenzen bestehender Methoden zur Konstruktion personalisierter funktioneller Hirnnetzwerke in heterogenen Szenarien überwindet.

Hongjie Jiang, Yifei Tang, Shuqiang Wang2026-03-10🤖 cs.LG

How Long Can Unified Multimodal Models Generate Images Reliably? Taming Long-Horizon Interleaved Image Generation via Context Curation

Die Arbeit stellt UniLongGen vor, eine trainingsfreie Inferenzstrategie, die durch dynamische Kuratierung und gezieltes Vergessen störender visueller Informationen die Zuverlässigkeit von Unified Multimodal Models bei der Generierung langer, interleaved Bilder-Text-Narrative sicherstellt.

Haoyu Chen, Qing Liu, Yuqian Zhou, He Zhang, Zhaowen Wang, Mengwei Ren, Jingjing Ren, Xiang Wang, Zhe Lin, Lei Zhu2026-03-10💻 cs

DreamSAC: Learning Hamiltonian World Models via Symmetry Exploration

Das Paper stellt DreamSAC vor, ein Framework, das durch eine unsupervisierte Symmetrie-Exploration mit Hamilton-basiertem Neugier-Anreiz und einem Hamilton-basierten Weltmodell physikalische Invarianzen lernt, um die Extrapolationsfähigkeit von Agenten in 3D-Physiksimulationen signifikant zu verbessern.

Jinzhou Tang, Fan Feng, Minghao Fu, Wenjun Lin, Biwei Huang, Keze Wang2026-03-10🤖 cs.LG

COOL-MC: Verifying and Explaining RL Policies for Multi-bridge Network Maintenance

Die Arbeit stellt COOL-MC als Werkzeug vor, das mittels probabilistischer Modellprüfung und Erklärbarkeitstechniken die Sicherheit und Entscheidungsfindung von Reinforcement-Learning-Richtlinien für die Wartung heterogener Brückennetzwerke formal verifiziert und analysiert.

Dennis Gross2026-03-10🤖 cs.LG

Learning-free L2-Accented Speech Generation using Phonological Rules

Diese Arbeit stellt ein lernfreies Framework zur Erzeugung von L2-akzentuierter Sprache vor, das phonologische Regeln mit einem multilingualen Text-to-Speech-Modell kombiniert, um Akzente auf Phonemebene ohne akzentuierte Trainingsdaten zu manipulieren.

Thanathai Lertpetchpun, Yoonjeong Lee, Jihwan Lee, Tiantian Feng, Dani Byrd, Shrikanth Narayanan2026-03-10💬 cs.CL

Targeted Speaker Poisoning Framework in Zero-Shot Text-to-Speech

Diese Arbeit stellt ein neues Problem und Evaluierungsframework namens Speech Generation Speaker Poisoning (SGSP) vor, das darauf abzielt, die Privatsphäre in Zero-Shot-Text-to-Speech-Modellen zu schützen, indem die Generierung spezifischer Sprecheridentitäten verhindert wird, während die Nutzbarkeit für andere Sprecher erhalten bleibt.

Thanapat Trachu, Thanathai Lertpetchpun, Sai Praneeth Karimireddy, Shrikanth Narayanan2026-03-10💻 cs

Nw\=ach\=a Mun\=a: A Devanagari Speech Corpus and Proximal Transfer Benchmark for Nepal Bhasha ASR

Diese Arbeit stellt das neu kuratierte Devanagari-Sprachkorpus „Nwāchā Munā" für Nepal Bhasha vor und zeigt, dass ein feinabgestimmtes nepalesisches Conformer-Modell durch proximale Transferlernen die Leistung großer multilingualer Modelle bei der Spracherkennung erreicht und dabei eine rechen-effiziente Alternative für diese unterrepräsentierte Sprache bietet.

Rishikesh Kumar Sharma, Safal Narshing Shrestha, Jenny Poudel, Rupak Tiwari, Arju Shrestha, Rupak Raj Ghimire, Bal Krishna Bal2026-03-10💬 cs.CL

GRD-Net: Generative-Reconstructive-Discriminative Anomaly Detection with Region of Interest Attention Module

Die vorgestellte GRD-Net-Architektur kombiniert einen generativen Residual-Autoencoder mit einem diskriminativen Segmentierungsnetzwerk, das mittels eines Region-of-Interest-Moduls Anomalien gezielt in relevanten Bildbereichen erkennt und so herkömmliche, datensatzabhängige Nachverarbeitungsschritte überflüssig macht.

Niccolò Ferrari, Michele Fraccaroli, Evelina Lamma2026-03-10🤖 cs.LG

A Systematic Comparison of Training Objectives for Out-of-Distribution Detection in Image Classification

Diese Studie bietet einen systematischen Vergleich verschiedener Trainingsziele für die Erkennung von Out-of-Distribution-Daten in der Bildklassifizierung und stellt fest, dass die Kreuzentropie-Verlustfunktion im Vergleich zu Prototyp-, Triplet- und Average-Precision-Verlusten die konsistenteste Gesamtleistung bei der Erkennung sowohl naher als auch entfernter OOD-Daten liefert.

Furkan Genç, Onat Özdemir, Emre Akbas2026-03-10🤖 cs.LG

Integration of deep generative Anomaly Detection algorithm in high-speed industrial line

Die vorgestellte Arbeit stellt ein halbüberwachtes, auf einem generativen adversariellen Netzwerk mit Residual-Autoencoder basierendes Anomalieerkennungssystem vor, das speziell für die Echtzeit-Inspektion auf einer hochgeschwindigkeits Blow-Fill-Seal-Produktionslinie in der Pharmaindustrie entwickelt wurde und dabei hohe Genauigkeit bei strengen Zeit- und Hardwareanforderungen gewährleistet.

Niccolò Ferrari, Nicola Zanarini, Michele Fraccaroli, Alice Bizzarri, Evelina Lamma2026-03-10🤖 cs.LG

Shorter Thoughts, Same Answers: Difficulty-Scaled Segment-Wise RL for CoT Compression

Die vorgestellte Arbeit stellt DSS-GRPO vor, einen RL-basierten Ansatz, der durch segmentweise, schwierigkeitsskalierte Belohnungen die Chain-of-Thought-Verknappung ermöglicht, ohne dabei die Qualität der eigentlichen Antwort zu beeinträchtigen.

Ye Tian, Aijun Liu2026-03-10🤖 cs.LG

SMAT: Staged Multi-Agent Training for Co-Adaptive Exoskeleton Control

Die vorgestellte Studie stellt SMAT vor, ein vierstufiges Multi-Agenten-Trainingsverfahren, das durch die Nachahmung der natürlichen menschlichen Anpassung an tragbare Geräte eine stabile und effektive Ko-Adaptation zwischen Benutzer und Hüft-Exoskelett ermöglicht, was zu einer signifikanten Reduktion der Muskelaktivierung und konsistenten positiven mechanischen Leistung ohne subjektspezifisches Nachtrainieren führt.

Yifei Yuan, Ghaith Androwis, Xianlian Zhou2026-03-10🤖 cs.LG

Evaluating Synthetic Data for Baggage Trolley Detection in Airport Logistics

Die Studie stellt eine auf NVIDIA Omniverse basierende synthetische Datenpipeline für die Erkennung von Gepäckwagen im Flughafen Algier vor und zeigt, dass eine Kombination aus synthetischen Daten und nur 40 % realer Annotationen die Leistung eines reinen Real-Daten-Modells erreicht oder übertrifft, während der Annotationsaufwand um 25 bis 35 % reduziert wird.

Abdeldjalil Taibi, Mohmoud Badlis, Amina Bensalem, Belkacem Zouilekh, Mohammed Brahimi2026-03-10🤖 cs.LG

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Die Arbeit stellt AtomicVLA vor, ein einheitliches Planungs- und Ausführungsframework, das durch eine Skill-Guided Mixture-of-Experts-Architektur skalierbare atomare Fertigkeiten lernt und so die Leistung von Robotern bei langfristigen Aufgaben und kontinuierlichem Lernen im Vergleich zu bestehenden VLA-Modellen erheblich verbessert.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Ref-DGS: Reflective Dual Gaussian Splatting

Der Artikel stellt Ref-DGS vor, ein effizientes Framework zur dualen Gaußschen Splatting, das durch die Entkopplung von Geometrie und Reflexion sowie die Nutzung lokaler und globaler Reflexionsfelder hochpräzise Oberflächenspiegelungen ohne explizites Raytracing ermöglicht.

Ningjing Fan, Yiqun Wang, Dongming Yan, Peter Wonka2026-03-10💻 cs

AI-Driven Phase Identification from X-ray Hyperspectral Imaging of cycled Na-ion Cathode Materials

Die Autoren stellen eine KI-gestützte Methode vor, die auf einem Gaussian Mixture Variational Autoencoder und dem Pearson-Korrelationskoeffizienten basiert, um aus spärlich abgetasteten Röntgen-Hyperspektralbildern nanometeraufgelöste Phasenverteilungskarten von NaxV2(PO4)2F3-Kathodenmaterialien zu erstellen und dabei komplexe Phasenheterogenitäten sowie Übergangsphasen an Korngrenzen präzise zu identifizieren.

Fayçal Adrar, Nicolas Folastre, Chloé Pablos, Stefan Stanescu, Sufal Swaraj, Raghvender Raghvender, François Cadiou, Laurence Croguennec, Matthieu Bugnet, Arnaud Demortière2026-03-10🔬 cond-mat.mtrl-sci

Memory for Autonomous LLM Agents:Mechanisms, Evaluation, and Emerging Frontiers

Diese Arbeit bietet eine umfassende Übersicht über Mechanismen, Evaluierungsmethoden und zukünftige Herausforderungen von Gedächtnissystemen in autonomen LLM-Agenten, die von 2022 bis Anfang 2026 entwickelt wurden, indem sie eine strukturierte Taxonomie einführt, verschiedene Architekturansätze analysiert und den Übergang von statischen Benchmarks zu dynamischen, mehrstufigen Evaluierungen beschreibt.

Pengfei Du2026-03-10💻 cs

Compressed-Domain-Aware Online Video Super-Resolution

Die Arbeit stellt CDA-VSR vor, einen effizienten Online-Video-Super-Resolution-Ansatz, der Komprimierungsdaten wie Bewegungsvektoren und Restkarten nutzt, um die Rechenleistung zu optimieren und gleichzeitig eine höhere Bildqualität bei Echtzeitverarbeitung zu erreichen.

Yuhang Wang, Hai Li, Shujuan Hou, Zhetao Dong, Xiaoyao Yang2026-03-10💻 cs

TDM-R1: Reinforcing Few-Step Diffusion Models with Non-Differentiable Reward

Die Arbeit stellt TDM-R1 vor, ein neuartiges Reinforcement-Learning-Verfahren, das Few-Step-Diffusionsmodelle durch die Entkopplung von Surrogat-Reward-Lernen und Generator-Training sowie die Integration nicht-differenzierbarer Belohnungssignale effizient verbessert und dabei state-of-the-art-Ergebnisse in verschiedenen Anwendungsbereichen erzielt.

Yihong Luo, Tianyang Hu, Weijian Luo, Jing Tang2026-03-10💻 cs

VoiceSHIELD-Small: Real-Time Malicious Speech Detection and Transcription

Die Arbeit stellt VoiceSHIELD-Small vor, ein leichtgewichtiges Echtzeit-Modell auf Basis von Whisper-small, das gleichzeitig Sprache transkribiert und schädliche Eingaben mit einer Genauigkeit von 99,16 % erkennt, um Sicherheitsrisiken bei Sprachschnittstellen zu minimieren.

Sumit Ranjan, Sugandha Sharma, Ubaid Abbas, Puneeth N Ail2026-03-10💻 cs

← Zurück Weiter →