You Don't Need All That Attention: Surgical Memorization Mitigation in Text-to-Image Diffusion Models

Die Studie stellt GUARD vor, ein neuartiges Framework zur präzisen Minderung von Memorization in Text-zu-Bild-Diffusionsmodellen, das durch eine dynamische, prompt-spezifische Abschwächung der Cross-Attention während der Inferenz die Wiedergabe von Trainingsdaten verhindert, ohne dabei die Bildqualität zu beeinträchtigen.

Kairan Zhao, Eleni Triantafillou, Peter Triantafillou2026-03-03🤖 cs.AI

Latent Replay Detection: Memory-Efficient Continual Object Detection on Microcontrollers via Task-Adaptive Compression

Die vorgestellte Arbeit stellt Latent Replay Detection (LRD) vor, ein bahnbrechendes Framework für das kontinuierliche Lernen von Objekterkennung auf Mikrocontrollern, das durch task-adaptive Kompression und räumlich diverse Exemplarauswahl die Speichereinschränkungen von nur 64 KB überwindet und so erstmals eine effiziente Nachtrainingsfähigkeit auf Edge-Geräten ermöglicht.

Bibin Wilson2026-03-03💻 cs

GrapHist: Graph Self-Supervised Learning for Histopathology

Das Paper stellt GrapHist vor, ein neuartiges selbstüberwachtes Graph-Lernframework für die Histopathologie, das Masked Autoencoder und heterophile Graph-Neuronale Netze nutzt, um biologisch fundierte Einbettungen zu erlernen, die bei gleichzeitiger Reduktion der Parameterzahl um das Vierfache eine überlegene Leistung in verschiedenen Aufgaben und eine hohe Übertragbarkeit auf neue Domänen bieten.

Sevda Öğüt, Cédric Vincent-Cuaz, Natalia Dubljevic + 4 more2026-03-03🤖 cs.LG

EfficientPosterGen: Semantic-aware Efficient Poster Generation via Token Compression and Accurate Violation Detection

Der Artikel stellt EfficientPosterGen vor, ein effizientes End-zu-End-Framework zur automatischen Erstellung wissenschaftlicher Poster, das durch semantische Informationsreduktion, visuelle Kontextkomprimierung und einen agentenfreien Layout-Verifikationsalgorithmus die Token-Nutzung minimiert und gleichzeitig die Layout-Zuverlässigkeit sowie die Informationsdichte verbessert.

Wenxin Tang, Jingyu Xiao, Yanpei Gong + 6 more2026-03-03🤖 cs.AI

BiCLIP: Bidirectional and Consistent Language-Image Processing for Robust Medical Image Segmentation

Das Paper stellt BiCLIP vor, ein bidirektionales und konsistentes Sprach-Bild-Verarbeitungsframework, das durch iterative Merkmalsverfeinerung und Augmentationskonsistenz die Robustheit der medizinischen Bildsegmentierung unter klinischen Bedingungen mit wenigen Annotationen und Bildartefakten signifikant verbessert.

Saivan Talaei, Fatemeh Daneshfar, Abdulhady Abas Abdullah + 1 more2026-03-03💻 cs

FlowPortrait: Reinforcement Learning for Audio-Driven Portrait Video Generation

Der Artikel stellt FlowPortrait vor, ein Reinforcement-Learning-Framework, das mittels eines auf Multimodalen Large Language Models basierenden Bewertungssystems und Group Relative Policy Optimization realistische, lippen-synchrone Porträtvideos aus Audio generiert und dabei bestehende Probleme wie unnatürliche Bewegungen und unzureichende Evaluierungsmetriken überwindet.

Weiting Tan, Andy T. Liu, Ming Tu + 3 more2026-03-03🤖 cs.AI