cs.CV Arbeiten | Gist.Science

AdaGen: Learning Adaptive Policy for Image Synthesis

Das Paper stellt AdaGen vor, ein lernbares und prozessadapatives Framework, das die iterative Bildsynthese über verschiedene Generierungsparadigmen hinweg durch eine auf Verstärkungslernen und adversariellen Belohnungen basierende Policy-Steuerung optimiert, um manuelle Parameteranpassungen zu eliminieren und gleichzeitig die Bildqualität bei reduzierten Inferenzkosten zu steigern.

Zanlin Ni, Yulin Wang, Yeguo Hua, Renping Zhou, Jiayi Guo, Jun Song, Bo Zheng, Gao Huang2026-03-10💻 cs

TrajPred: Trajectory-Conditioned Joint Embedding Prediction for Surgical Instrument-Tissue Interaction Recognition in Vision-Language Models

Das Paper stellt TrajPred vor, ein Framework für Vision-Sprach-Modelle, das durch die Kodierung von Instrumentenbahnen und eine trajectorie-konditionierte Vorhersage semantischer visueller Embeddings die Erkennung von Instrument-Gewebe-Interaktionen in der robotischen Chirurgie verbessert.

Jiajun Cheng, Xiaofan Yu, Subarna, Sainan Liu, Shan Lin2026-03-10💻 cs

OV-DEIM: Real-time DETR-Style Open-Vocabulary Object Detection with GridSynthetic Augmentation

Der Artikel stellt OV-DEIM vor, ein Echtzeit-Open-Vocabulary-Objektdetektionsmodell auf Basis von DEIMv2, das durch eine effiziente Query-Supplement-Strategie und die neuartige GridSynthetic-Datenaugmentierung sowohl die Genauigkeit als auch die Leistung bei seltenen Kategorien verbessert.

Leilei Wang, Longfei Liu, Xi Shen, Xuanlong Yu, Ying Tiffany He, Fei Richard Yu, Yingyi Chen2026-03-10💻 cs

Two Frames Matter: A Temporal Attack for Text-to-Video Model Jailbreaking

Die Arbeit stellt TFM vor, einen neuen Jailbreak-Angriff auf Text-zu-Video-Modelle, der unsichere Anfragen in eine zeitlich fragmentierte Zwei-Rahmen-Struktur umwandelt, um durch die Ausnutzung der autonomen Vorhersage von Zwischenbildern Sicherheitsfilter zu umgehen und die Angriffserfolgsrate signifikant zu steigern.

Moyang Chen, Zonghao Ying, Wenzhuo Xu, Quancheng Zou, Deyue Zhang, Dongdong Yang, Xiangzheng Zhang2026-03-10💻 cs

Fine-Grained 3D Facial Reconstruction for Micro-Expressions

Die vorgestellte Arbeit entwickelt eine neuartige Methode zur feinkörnigen 3D-Gesichtswiederherstellung von Mikroexpressionen, die durch die Integration globaler dynamischer Merkmale und lokal angereicherter Hinweise aus 2D-Bewegungen, Gesichtspriors und 3D-Geometrie die bisherige Lücke bei der Rekonstruktion subtiler, flüchtiger Gesichtsausdrücke schließt und dabei den Mangel an Trainingsdaten durch die Nutzung von Makroexpressionen-Kenntnissen überwindet.

Che Sun, Xinjie Zhang, Rui Gao, Xu Chen, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Die Arbeit stellt CAPL vor, ein Framework zur Reduzierung von Halluzinationen in Large Vision-Language Models bei Multi-Image-Aufgaben, das durch eine kalibrierte Cross-Image-Attention und eine präferenzbasierte Lernstrategie die modellübergreifende Interaktion verbessert und die Modellierung auf echte visuelle Evidenz statt auf textuelle Priors ausrichtet.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

SODA: Sensitivity-Oriented Dynamic Acceleration for Diffusion Transformer

Die Arbeit stellt SODA vor, eine Sensitivitätsorientierte, dynamische Beschleunigungsmethode für Diffusion-Transformer, die durch adaptive Caching- und Pruning-Strategien auf Basis feinkörniger Sensitivitätsmodelle eine überlegene Generierungsqualität bei kontrollierten Beschleunigungsverhältnissen erreicht.

Tong Shao, Yusen Fu, Guoying Sun, Jingde Kong, Zhuotao Tian, Jingyong Su2026-03-10💻 cs

MedSteer: Counterfactual Endoscopic Synthesis via Training-Free Activation Steering

Das Paper stellt MedSteer vor, ein training-freies Framework zur Erzeugung kausaler, kontrastiver endoskopischer Bildpaare durch Aktivitätssteuerung in Diffusionsmodellen, das im Vergleich zu bestehenden Methoden eine überlegene strukturelle Konsistenz und Wirksamkeit für die Datenvermehrung in der medizinischen Bildanalyse demonstriert.

Trong-Thang Pham, Loc Nguyen, Anh Nguyen, Hien Nguyen, Ngan Le2026-03-10💻 cs

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Die Studie stellt VirtueBench vor, einen neuen Benchmark, der die Zuverlässigkeit von Vision-Language-Modellen bei der Analyse langer Videos bewertet, indem sie deren Fähigkeit misst, unter Unsicherheit ehrlich zu verweigern, anstatt raten, um so irreführende Evaluierungsergebnisse zu vermeiden.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

Die vorgestellte Methode PhyVLM-CR integriert semantisches Wissen aus Vision-Language-Modellen in physikalische Restaurierungsmodelle, um eine einheitliche und hochpräzise Entfernung sowohl dünner als auch dicker Wolken aus optischen Fernerkundungsdaten zu ermöglichen, ohne dass eine explizite Trennung der Wolkenarten erforderlich ist.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Die Studie stellt PSG-UIENet vor, ein neuartiges Unterwasser-Bildverbesserungsnetzwerk, das physikalische Retinex-Prinzipien mit semantischen Textführungen durch CLIP kombiniert und dabei einen neuen multimodalen Datensatz sowie eine spezielle Verlustfunktion einführt, um die Generalisierungsfähigkeit und semantische Konsistenz zu verbessern.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Die vorgestellte Arbeit verbessert die visuelle Dekodierung aus EEG-Signalen durch die Einführung des Konzepts der „Neural Visibility" und einer hierarchischen Fusionsstrategie, die eine bessere Abstimmung zwischen Gehirnaktivität und visuellen Merkmalen ermöglicht und damit neue State-of-the-Art-Ergebnisse auf dem THINGS-EEG-Datensatz erzielt.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

Die Arbeit stellt mAVE vor, ein neuartiges Wasserzeichen-Verfahren für gemeinsame Audio-Visual-Generierungsmodelle, das durch kryptografische Verschränkung der latenten Räume von Audio und Video eine robuste Abwehr gegen Swap-Angriffe gewährleistet und dabei die Modellleistung vollständig erhält.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Die Autoren stellen eine Methode vor, die durch die Kombination von überwachtem Fine-Tuning eines Vision-Language-Action-Modells und einer menschlichen Feedback-Reinforcement-Learning-Strategie natürliche, kontextangepasste Gesichtsausdrücke für dyadische Interaktionen erzeugt, die menschlichen Präferenzen entsprechen.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Der Artikel stellt NuNext vor, eine neue Methode, die die Nukleusdetektion in der Histopathologie durch Umformulierung als Next-Point-Detektion mittels eines multimodalen Large Language Models mit zweistufigem Training (überwachtes Lernen mit räumlich bewusster weicher Supervision und Verstärkungslernen) löst und dabei bestehende Probleme wie komplexe Nachverarbeitung und Klassenungleichgewicht überwindet.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Die Arbeit stellt S-PCL vor, ein effizientes selbstüberwachtes Lernframework für die Darstellung von Röntgenbildern der Brust, das durch semantisch partitionierte Kontrastive Lernverfahren ohne aufwendige Datenaugmentierung oder Decoder eine überlegene Genauigkeit bei geringerer Rechenkomplexität erreicht.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Die Arbeit stellt TIQA vor, ein neues Bewertungssystem für die Textqualität in generierten Bildern, das durch die Einführung von MOS-markierten Datensätzen und der leichten Methode ANTIQA eine deutlich bessere Übereinstimmung mit menschlichen Urteilen erreicht als bestehende OCR- oder VLM-basierte Ansätze und sich als wertvoll für das Filtern und Neu-Ranking von Bildgenerierungen erweist.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

Inter-Image Pixel Shuffling for Multi-focus Image Fusion

Dieses Paper stellt Inter-Image Pixel Shuffling (IPS) vor, eine neuartige Methode, die Multi-Fokus-Bildfusion ohne reale Trainingsdaten ermöglicht, indem sie das Problem als Pixelklassifikation umformuliert und ein hybrides Netzwerk aus CNNs und State-Space-Modellen nutzt, um qualitativ hochwertige, scharfe Bilder zu erzeugen.

Huangxing Lin, Rongrong Ma, Cheng Wang2026-03-10💻 cs

Deep Expert Injection for Anchoring Retinal VLMs with Domain-Specific Knowledge

Die Arbeit stellt EyExIn vor, ein dateneffizientes Framework, das durch eine Deep Expert Injection-Mechanik und eine Expert-Aware Dual-Stream-Architektur die Lücken in der visuellen Wahrnehmung und dem logischen Schlussfolgern von großen multimodalen Modellen schließt, um durch die Verankerung von spezialisiertem ophthalmologischem Expertenwissen eine präzise und vertrauenswürdige Diagnose von Netzhauterkrankungen zu ermöglichen.

Shuai Lu, Meng Wang, Jia Guo, Jiawei Du, Bo Liu, Shengzhu Yang, Weihang Zhang, Huazhu Fu, Huiqi Li2026-03-10💻 cs

The Model Knows Which Tokens Matter: Automatic Token Selection via Noise Gating

Das Paper stellt AutoSelect vor, eine Methode zur automatischen Auswahl visueller Tokens in Vision-Language-Modellen durch ein Rausch-Gating-Verfahren, die ohne zusätzliche Verlustfunktionen auskommt und bei minimaler Latenz die Inferenzgeschwindigkeit signifikant steigert, ohne die Genauigkeit zu beeinträchtigen.

Landi He, Xiaoyu Yang, Lijian Xu2026-03-10💻 cs

← Zurück Weiter →