cs.AI Arbeiten | Gist.Science

SASG-DA: Sparse-Aware Semantic-Guided Diffusion Augmentation For Myoelectric Gesture Recognition

Die vorgestellte Arbeit stellt SASG-DA vor, eine neuartige, auf Diffusionsmodellen basierende Daten-Augmentationsmethode für die myoelektrische Gestenerkennung, die durch semantische Leitlinien und eine spärlichkeitsbewusste Stichprobenziehung sowohl die Glaubwürdigkeit als auch die gezielte Vielfalt synthetischer sEMG-Daten sicherstellt, um Überanpassung zu mindern und die Generalisierungsfähigkeit zu verbessern.

Chen Liu, Can Han, Weishi Xu + 2 more2026-03-06💻 cs

DAP: A Discrete-token Autoregressive Planner for Autonomous Driving

Das Paper stellt DAP vor, einen kompakten, diskreten autoregressiven Planer für autonomes Fahren, der durch die gemeinsame Vorhersage von BEV-Semantik und Ego-Trajektorien sowie eine verstärkungslernbasierte Feinabstimmung State-of-the-Art-Ergebnisse auf dem NAVSIM-Benchmark erzielt.

Bowen Ye, Bin Zhang, Hang Zhao2026-03-06💻 cs

CCSD: Cross-Modal Compositional Self-Distillation for Robust Brain Tumor Segmentation with Missing Modalities

Die Autoren stellen das CCSD-Framework vor, ein neuartiges Cross-Modal Compositional Self-Distillation-Verfahren mit einer geteilten-spezifischen Encoder-Decoder-Architektur und zwei Selbst-Distillation-Strategien, das die Segmentierung von Hirntumoren in Multi-Modal-MRT-Daten auch bei fehlenden Modalitäten robust und präzise ermöglicht.

Dongqing Xie, Yonghuang Wu, Zisheng Ai + 4 more2026-03-06💻 cs

Revisiting Multimodal KV Cache Compression: A Frequency-Domain-Guided Outlier-KV-Aware Approach

Die Arbeit stellt FlashCache vor, einen frequenzdomänengesteuerten Ansatz zur Komprimierung des Multimodal-KV-Caches, der durch die Identifizierung und Erhaltung von Ausreißer-KV-Paaren sowie eine dynamische Budgetzuweisung die Inferenzgeschwindigkeit und Speichereffizienz von Multimodal Large Language Models signifikant verbessert, ohne die Leistung zu beeinträchtigen.

Yaoxin Yang, Peng Ye, Xudong Tan + 4 more2026-03-06💻 cs

MambaTAD: When State-Space Models Meet Long-Range Temporal Action Detection

Das Paper stellt MambaTAD vor, ein neuartiges, end-to-end trainierbares Modell für die Erkennung zeitlicher Aktionen in ungeschnittenen Videos, das durch die Einführung eines diagonal-maskierten bidirektionalen Zustandsraummoduls und eines globalen Merkmalsfusionskopfs die Herausforderungen langer Aktionsdauer und globaler Kontextmodellierung effizient löst.

Hui Lu, Yi Yu, Shijian Lu + 4 more2026-03-06💻 cs

CycleChemist: A Dual-Pronged Machine Learning Framework for Organic Photovoltaic Discovery

Die Studie stellt CycleChemist vor, ein duales maschinelles Lernframework, das auf dem größten OPV-Datensatz (OPV2D) basiert und durch die Kombination von Vorhersagemodellen für die Leistungsfähigkeit mit einem generativen Transformer-Ansatz die datengetriebene Entdeckung hochleistungsfähiger organischer Photovoltaikmaterialien ermöglicht.

Hou Hei Lam, Jiangjie Qiu, Xiuyuan Hu + 5 more2026-03-06🔬 cond-mat.mtrl-sci

Towards Trustworthy Legal AI through LLM Agents and Formal Reasoning

Das Paper stellt L4L vor, ein solver-zentriertes Framework, das durch die Integration von rollenbasierten LLM-Agenten und SMT-basierter Verifikation eine formale Abstimmung zwischen natürlicher Sprachverarbeitung und gesetzlichen Vorschriften ermöglicht, um vertrauenswürdige und überprüfbare juristische Entscheidungen zu treffen.

Linze Chen, Yufan Cai, Zhe Hou + 1 more2026-03-06💻 cs

Steering Awareness: Models Can Be Trained to Detect Activation Steering

Die Studie zeigt, dass Sprachmodelle durch Feinabstimmung lernen können, Eingriffe durch Aktivitätssteuerung zu erkennen und die eingefügten Konzepte zu identifizieren, was die Annahme widerlegt, dass solche Manipulationen für das Modell unsichtbar bleiben, und gleichzeitig die langfristige Zuverlässigkeit von steuerungsbasierten Sicherheitsbewertungen infrage stellt.

Joshua Fonseca Rivera, David Demitri Africa2026-03-06💻 cs

DPAC: Distribution-Preserving Adversarial Control for Diffusion Sampling

Die Arbeit stellt DPAC vor, eine Methode zur adversarialen Steuerung von Diffusionsmodellen, die durch Projektion der Gradienten auf den Tangentialraum der generativen Score-Geometrie die Verteilungserhaltung optimiert und so bei gleicher Angriffserfolgsrate eine signifikant höhere Bildqualität und geringere Verteilungsdrift erreicht.

Han-Jin Lee, Han-Ju Lee, Jin-Seong Kim + 1 more2026-03-06💻 cs

Deep FlexQP: Accelerated Nonlinear Programming via Deep Unfolding

Die Autoren stellen Deep FlexQP vor, einen durch Deep Unfolding beschleunigten, immer zulässigen QP-Löser mit $\ell_1$ -Elastizität, der nicht nur konvexe Optimierungsprobleme effizient löst, sondern auch bei Infeasibilität robuste Lösungen bietet und in der sequentiellen quadratischen Programmierung (SQP) sowie bei Sicherheitsfiltern signifikante Geschwindigkeits- und Erfolgssteigerungen gegenüber bestehenden Methoden erzielt.

Alex Oshin, Rahul Vodeb Ghosh, Augustinos D. Saravanos + 1 more2026-03-06🔢 math

Guided Flow Policy: Learning from High-Value Actions in Offline Reinforcement Learning

Die Arbeit stellt die „Guided Flow Policy" (GFP) vor, eine Offline-Reinforcement-Learning-Methode, die durch die Kopplung eines mehrstufigen Flow-Matching-Policies mit einem destillierten Ein-Schritt-Aktor und einer gewichteten Behavior-Cloning-Strategie erfolgreich hochwertige Aktionen aus dem Datensatz lernt und dabei in 144 verschiedenen Aufgaben State-of-the-Art-Ergebnisse erzielt.

Franki Nguimatsia Tiofack, Théotime Le Hellard, Fabian Schramm + 2 more2026-03-06💻 cs

Bootstrapped Mixed Rewards for RL Post-Training: Injecting Canonical Action Order

Die Studie zeigt, dass das Mischen einer skalaren Belohnung für die Einhaltung einer kanonischen Lösungsreihenfolge mit der eigentlichen Aufgabenbelohnung beim Reinforcement-Learning-Post-Training von Transformern auf Zebra-Rätseln die Leistung verbessert, indem es das Modell zu kanonischen Lösungspfaden lenkt, ohne die Architektur oder die überwachungsdaten zu ändern.

Prakhar Gupta, Vaibhav Gupta2026-03-06💻 cs

Multi-Loss Learning for Speech Emotion Recognition with Energy-Adaptive Mixup and Frame-Level Attention

Diese Arbeit stellt ein Multi-Loss-Lernframework für die Spracherkennung von Emotionen vor, das eine energieadaptive Mixup-Methode und ein Frame-Level-Attention-Modul integriert, um durch eine Kombination verschiedener Verlustfunktionen auf vier gängigen Datensätzen einen State-of-the-Art-Ergebnis zu erzielen.

Cong Wang, Yizhong Geng, Yuhua Wen + 7 more2026-03-06💻 cs

Sparse Attention Post-Training for Mechanistic Interpretability

Die Arbeit stellt eine einfache Nachtrainierungsmethode vor, die Transformer-Aufmerksamkeit durch eine flexible Sparsamkeitsregularisierung auf etwa 0,4 % der Kanten reduziert, ohne die Leistung zu beeinträchtigen, und dadurch deutlich vereinfachte, interpretierbare Schaltkreise sowie eine vereinheitlichte Sicht auf Merkmals- und Schaltungsperspektiven ermöglicht.

Florent Draye, Anson Lei, Hsiao-Ru Pan + 2 more2026-03-06💻 cs

ClinNoteAgents: An LLM Multi-Agent System for Predicting and Interpreting Heart Failure 30-Day Readmission from Clinical Notes

Die Studie stellt ClinNoteAgents vor, ein auf großen Sprachmodellen basierendes Multi-Agenten-System, das unstrukturierte klinische Notizen in strukturierte Risikofaktoren und interpretierbare Zusammenfassungen umwandelt, um die Vorhersage von 30-Tage-Wiederaufnahmen bei Herzinsuffizienz in datenlimitierten Gesundheitssystemen zu verbessern.

Rongjia Zhou, Chengzhuo Li, Carl Yang + 1 more2026-03-06💻 cs

Achieving Olympia-Level Geometry Large Language Model Agent via Complexity Boosting Reinforcement Learning

Die Arbeit stellt InternGeometry vor, einen auf einem 32-Milliarden-Parameter-LLM basierenden Agenten, der durch einen iterativen Verifikationszyklus mit einem symbolischen Motor und eine neue Complexity-Boosting-Reinforcement-Learning-Methode (CBRL) 44 von 50 IMO-Geometrieaufgaben löst und dabei mit nur 13.000 Trainingsbeispielen die Leistung von AlphaGeometry 2 bei einem Bruchteil des Datenbedarfs übertrifft.

Haiteng Zhao, Junhao Shen, Yiming Zhang + 7 more2026-03-06💻 cs

ReFusion: A Diffusion Large Language Model with Parallel Autoregressive Decoding

Das Paper stellt ReFusion vor, ein neuartiges Masked-Diffusion-Modell, das durch die Integration von Sequenzreorganisation in den kausalen Aufmerksamkeitsrahmen paralleles Slot-Level-Decoding ermöglicht, wodurch es sowohl die Ineffizienz von KV-Caching als auch die Lernkomplexität überwindet und gleichzeitig die Leistung früherer Diffusionsmodelle deutlich übertrifft und sich der Geschwindigkeit von autoregressiven Modellen annähert.

Jia-Nan Li, Jian Guan, Wei Wu + 1 more2026-03-06💻 cs

HydroGEM: A Self Supervised Zero Shot Hybrid TCN Transformer Foundation Model for Continental Scale Streamflow Quality Control

HydroGEM ist ein selbstüberwachtes, zero-shot hybrides TCN-Transformer-Grundmodell, das durch Vorabtraining auf Millionen sauberer USGS-Daten und Feinabstimmung mit synthetischen Anomalien eine skalierbare, kontinentale Qualitätskontrolle für Flussabflüsse ermöglicht und dabei sowohl die Erkennung als auch die Rekonstruktion von Messfehlern signifikant verbessert.

Ijaz Ul Haq, Byung Suk Lee, Julia N. Perdrial + 1 more2026-03-06💻 cs

RePo: Language Models with Context Re-Positioning

Die Arbeit stellt RePo vor, eine neuartige Methode zur dynamischen Neupositionierung von Kontext-Token in Sprachmodellen, die auf der Kognitiven Lasttheorie basiert und durch die Reduzierung unnötiger kognitiver Belastung die Leistung bei Aufgaben mit verrauschtem Kontext, strukturierten Daten und längeren Eingaben verbessert.

Huayang Li, Tianyu Zhao, Deng Cai + 1 more2026-03-06💻 cs

MCP-SafetyBench: A Benchmark for Safety Evaluation of Large Language Models with Real-World MCP Servers

Die Studie stellt MCP-SafetyBench vor, ein umfassendes Benchmark auf Basis realer MCP-Server, das die Sicherheitsrisiken aktueller LLMs in realistischen, mehrstufigen Szenarien aufdeckt und zeigt, dass alle getesteten Modelle trotz eines Sicherheits-Nutzen-Kompromisses anfällig für MCP-spezifische Angriffe bleiben.

Xuanjun Zong, Zhiqi Shen, Lei Wang + 2 more2026-03-06💻 cs

← Zurück Weiter →