Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Die Arbeit stellt TFM vor, einen neuen Jailbreak-Angriff auf Text-zu-Video-Modelle, der unsichere Anfragen in eine zeitlich fragmentierte Zwei-Rahmen-Struktur umwandelt, um durch die Ausnutzung der autonomen Vorhersage von Zwischenbildern Sicherheitsfilter zu umgehen und die Angriffserfolgsrate signifikant zu steigern.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Die vorgestellte Arbeit entwickelt eine neuartige Methode zur feinkörnigen 3D-Gesichtswiederherstellung von Mikroexpressionen, die durch die Integration globaler dynamischer Merkmale und lokal angereicherter Hinweise aus 2D-Bewegungen, Gesichtspriors und 3D-Geometrie die bisherige Lücke bei der Rekonstruktion subtiler, flüchtiger Gesichtsausdrücke schließt und dabei den Mangel an Trainingsdaten durch die Nutzung von Makroexpressionen-Kenntnissen überwindet.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Die Arbeit stellt CAPL vor, ein Framework zur Reduzierung von Halluzinationen in Large Vision-Language Models bei Multi-Image-Aufgaben, das durch eine kalibrierte Cross-Image-Attention und eine präferenzbasierte Lernstrategie die modellübergreifende Interaktion verbessert und die Modellierung auf echte visuelle Evidenz statt auf textuelle Priors ausrichtet.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Das Paper stellt MedSteer vor, ein training-freies Framework zur Erzeugung kausaler, kontrastiver endoskopischer Bildpaare durch Aktivitätssteuerung in Diffusionsmodellen, das im Vergleich zu bestehenden Methoden eine überlegene strukturelle Konsistenz und Wirksamkeit für die Datenvermehrung in der medizinischen Bildanalyse demonstriert.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Die Autoren stellen eine Methode vor, die durch die Kombination von überwachtem Fine-Tuning eines Vision-Language-Action-Modells und einer menschlichen Feedback-Reinforcement-Learning-Strategie natürliche, kontextangepasste Gesichtsausdrücke für dyadische Interaktionen erzeugt, die menschlichen Präferenzen entsprechen.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Der Artikel stellt NuNext vor, eine neue Methode, die die Nukleusdetektion in der Histopathologie durch Umformulierung als Next-Point-Detektion mittels eines multimodalen Large Language Models mit zweistufigem Training (überwachtes Lernen mit räumlich bewusster weicher Supervision und Verstärkungslernen) löst und dabei bestehende Probleme wie komplexe Nachverarbeitung und Klassenungleichgewicht überwindet.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Die Arbeit stellt TIQA vor, ein neues Bewertungssystem für die Textqualität in generierten Bildern, das durch die Einführung von MOS-markierten Datensätzen und der leichten Methode ANTIQA eine deutlich bessere Übereinstimmung mit menschlichen Urteilen erreicht als bestehende OCR- oder VLM-basierte Ansätze und sich als wertvoll für das Filtern und Neu-Ranking von Bildgenerierungen erweist.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

PDD: Manifold-Prior Diverse Distillation for Medical Anomaly Detection

Die Arbeit stellt PDD (Manifold-Prior Diverse Distillation) vor, ein neuartiges Framework für die medizinische Anomalieerkennung, das durch die Vereinigung komplementärer Lehrer-Modelle in einem gemeinsamen Manifold und eine diverse Wissensdistillation in zwei Schüler-Netzwerke signifikant höhere Genauigkeiten als bestehende State-of-the-Art-Methoden auf verschiedenen medizinischen Datensätzen erzielt.

Xijun Lu, Hongying Liu, Fanhua Shang, Yanming Hui, Liang Wan2026-03-10💻 cs

CanoVerse: 3D Object Scalable Canonicalization and Dataset for Generation and Pose

Das Paper stellt CanoVerse vor, einen neuartigen, hochskalierbaren Datensatz mit 320.000 kanonisch ausgerichteten 3D-Objekten und einem effizienten Framework zur automatisierten Ausrichtung, der die Stabilität der 3D-Generierung verbessert und präzise, posekonsistente Semantik für verschiedene Anwendungen ermöglicht.

Li Jin, Yuchen Yang, Weikai Chen, Yujie Wang, Dehao Hao, Tanghui Jia, Yingda Yin, Zeyu Hu, Runze Zhang, Keyang Luo, Li Yuan, Long Quan, Xin Wang, Xueying Qin2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Die Arbeit stellt LiveWorld vor, ein neues Framework für generative Videoweltmodelle, das das Problem der „außerhalb des Sichtfelds liegenden Dynamik" löst, indem es einen persistenten globalen Zustand einführt, der es Objekten erlaubt, auch außerhalb des Kamerablickfelds weiterzuentwickeln und so eine konsistente 4D-Welt-Simulation zu ermöglichen.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs