cs.CV Arbeiten | Gist.Science

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Die Arbeit stellt ein robustes und nachweislich sicheres Bild-Steganographie-Framework vor, das auf latenter iterativer Optimierung basiert und durch die schrittweise Verfeinerung latenter Variablen die Extraktionsgenauigkeit unter verschiedenen Bildverarbeitungsbedingungen signifikant verbessert, ohne die Sicherheit zu beeinträchtigen.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen RenWed, 11 Ma💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Die Studie stellt EPPINN vor, einen evidenzbasierten physikinformierten neuronalen Netzwerk-Ansatz zur zuverlässigen und unsicherheitsbewussten Schätzung von Perfusionsparametern in der CT-Perfusionsbildgebung bei Schlaganfällen, der durch die Modellierung von physikalischen Restfehlern mittels Normal-Inverse-Gamma-Verteilungen sowohl die Genauigkeit als auch die Zuverlässigkeit der Diagnose verbessert.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung ChoiWed, 11 Ma💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Die Arbeit stellt M3GCLR vor, ein spieltheoretisches kontrastives Lernframework für die skelettbasierte Aktionserkennung, das durch die Modellierung einer unendlichen Skelettdaten-Spieltheorie, adversarische Multi-View-Augmentierung und einen dualen Verlust-Optimierer die Grenzen bestehender selbstüberwachter Methoden überwindet und state-of-the-art-Ergebnisse auf gängigen Datensätzen erzielt.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui DaiWed, 11 Ma🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Das Paper stellt MIL-PF vor, ein skalierbares Framework, das vortrainierte Basis-Modelle mit einem leichten Multiple-Instance-Learning-Kopf kombiniert, um die Klassifizierung von Mammographien bei geringem Rechenaufwand und nur schwacher Bildbeschriftung effizient und mit state-of-the-art Genauigkeit durchzuführen.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko CulibrkWed, 11 Ma🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

Die Arbeit stellt SinGeo vor, ein einfaches Framework, das durch ein duales diskriminatives Lernverfahren und eine Curriculum-Learning-Strategie ein einzelnes Modell für eine robuste, feld-of-view-unabhängige Geolokalisierung befähigt und dabei den aktuellen Stand der Technik auf mehreren Benchmarks übertrifft.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao WuWed, 11 Ma💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

Die Arbeit stellt EventVGGT vor, ein neuartiges Framework, das durch die erstmalige distillation von räumlich-zeitlichen und multi-view geometrischen Priors aus dem Visual Geometry Grounded Transformer (VGGT) in den Event-Bereich eine konsistente und präzise ereignisbasierte Tiefenschätzung ermöglicht, indem es die inhärente zeitliche Kontinuität von Event-Daten explizit modelliert.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui XiongWed, 11 Ma💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

Die Arbeit stellt MIDAS vor, ein trainingsfreies, diffusionsbasiertes Framework für coverless Steganographie, das durch latente Fusion und einen Random-Basis-Mechanismus eine robuste Zugriffskontrolle für mehrere Bilder ermöglicht und dabei hohe Bildqualität sowie Resistenz gegen Steganalyse gewährleistet.

Minyeol Bae, Si-Hyeon LeeWed, 11 Ma💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dieser Bericht stellt den ICDAR-2025-Wettbewerb zur End-to-End-Übersetzung von Dokumentenbildern mit komplexen Layouts vor, bei dem 69 Teams zwei Tracks (OCR-frei und OCR-basiert) für kleine und große Modelle bestritten haben, wobei die Ergebnisse zeigen, dass große Modelle einen vielversprechenden neuen Paradigmenwechsel für diese Aufgabe darstellen.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Die Arbeit stellt YOLO-NAS-Bench vor, das erste Surrogat-Benchmark für YOLO-Architektursuche, das durch einen selbstentwickelnden Mechanismus einen hochpräzisen Vorhersage-Modell schafft, um kostspielige Trainingsprozesse zu umgehen und überlegene Detektor-Architekturen zu entdecken.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao WangWed, 11 Ma💻 cs

Reviving ConvNeXt for Efficient Convolutional Diffusion Models

Die Arbeit stellt den vollständig konvolutionalen Diffusionsmodell (FCDM) vor, der auf ConvNeXt basiert und durch seine überlegene Recheneffizienz sowie trainierbarkeit auf begrenzter Hardware eine wettbewerbsfähige Alternative zu Transformer-basierten Diffusionsmodellen darstellt.

Taesung Kwon, Lorenzo Bianchi, Lennart Wittke, Felix Watine, Fabio Carrara, Jong Chul Ye, Romann Weber, Vinicius AzevedoWed, 11 Ma🤖 cs.AI

RiO-DETR: DETR for Real-time Oriented Object Detection

Die Arbeit stellt RiO-DETR vor, den ersten Echtzeit-Transformer für die Detektion orientierter Objekte, der durch innovative Ansätze wie content-gesteuerte Winkelabschätzung, entkoppelte periodische Verfeinerung und dichte O2O-Überwachung die Herausforderungen der Winkelperiodizität und des erweiterten Suchraums überwindet, um einen neuen Kompromiss zwischen Geschwindigkeit und Genauigkeit zu erreichen.

Zhangchi Hu, Yifan Zhao, Yansong Peng, Wenzhang Sun, Xiangchen Yin, Jie Chen, Peixi Wu, Hebei Li, Xinghao Wang, Dongsheng Jiang, Xiaoyan SunWed, 11 Ma💻 cs

PromptDLA: A Domain-aware Prompt Document Layout Analysis Framework with Descriptive Knowledge as a Cue

Die Arbeit stellt PromptDLA vor, ein domainspezifisches Prompting-Framework für die Dokumentenlayoutanalyse, das deskriptives Wissen nutzt, um Domänenwissen effektiv zu integrieren und so durch maßgeschneiderte Prompts die Generalisierungsfähigkeit über verschiedene Datensätze hinweg zu verbessern und state-of-the-art-Ergebnisse zu erzielen.

Zirui Zhang, Yaping Zhang, Lu Xiang, Yang Zhao, Feifei Zhai, Yu Zhou, Chengqing ZongWed, 11 Ma🤖 cs.AI

CIGPose: Causal Intervention Graph Neural Network for Whole-Body Pose Estimation

Die Arbeit stellt CIGPose vor, ein Framework, das mittels kausaler Intervention und Graph-Neural-Networks störende visuelle Kontexteinflüsse eliminiert, um robuste und anatomisch plausible Ganzkörper-Pose-Schätzungen zu erreichen und dabei neue State-of-the-Art-Ergebnisse auf dem COCO-WholeBody-Datensatz zu erzielen.

Bohao Li, Zhicheng Cao, Huixian Li, Yangming GuoWed, 11 Ma💻 cs

MetaDAT: Generalizable Trajectory Prediction via Meta Pre-training and Data-Adaptive Test-Time Updating

Die Arbeit stellt MetaDAT vor, ein Verfahren zur Vorhersage von Trajektorien, das durch Meta-Learning während des Trainings und einen datenadaptiven Mechanismus zur Anpassung von Lernraten und Aktualisierungsfrequenzen während des Testens eine robuste Generalisierung unter Verteilungsverschiebungen ermöglicht.

Yuning Wang, Pu Zhang, Yuan He, Ke Wang, Jianru XueWed, 11 Ma💻 cs

Open-World Motion Forecasting

Diese Arbeit stellt Open-World Motion Forecasting vor, ein neuartiges Szenario für autonomes Fahren, das durch ein end-to-end Framework mit Pseudo-Labeling und einem neuen Replay-Sampling-Verfahren die Herausforderung des katastrophalen Vergessens beim sequenziellen Erlernen neuer Objektklassen direkt aus Kamerabildern bewältigt.

Nicolas Schischka, Nikhil Gosala, B Ravi Kiran, Senthil Yogamani, Abhinav ValadaWed, 11 Ma🤖 cs.AI

GIIM: Graph-based Learning of Inter- and Intra-view Dependencies for Multi-view Medical Image Diagnosis

Das Paper stellt GIIM vor, einen neuartigen graphbasierten Ansatz für die computergestützte medizinische Diagnose, der durch die gleichzeitige Modellierung von Abhängigkeiten innerhalb und zwischen verschiedenen Bildansichten sowie durch die robuste Handhabung unvollständiger Daten die Diagnosegenauigkeit und -zuverlässigkeit im Vergleich zu bestehenden Methoden signifikant verbessert.

Tran Bao Sam, Hung Vu, Dao Trung Kien, Tran Dat Dang, Van Ha Tang, Steven TruongWed, 11 Ma💻 cs

A Guideline-Aware AI Agent for Zero-Shot Target Volume Auto-Delineation

Die Studie stellt OncoAgent vor, ein neuartiges, guideline-bewusstes KI-Framework, das klinische Leitlinien ohne Neutrainieren direkt in dreidimensionale Zielvolumen für die Strahlentherapie umwandelt und dabei in einer blinden klinischen Bewertung von Ärzten eine höhere Leitlinienkonformität sowie Akzeptanz als ein überwachtes nnU-Net-Modell erreicht.

Yoon Jo Kim, Wonyoung Cho, Jongmin Lee, Han Joo Chae, Hyunki Park, Sang Hoon Seo, Noh Jae Myung, Kyungmi Yang, Dongryul Oh, Jin Sung KimWed, 11 Ma🤖 cs.AI

EvoDriveVLA: Evolving Autonomous Driving Vision-Language-Action Model via Collaborative Perception-Planning Distillation

Das Paper stellt EvoDriveVLA vor, ein neuartiges Framework zur kollaborativen Destillation von Wahrnehmung und Planung, das durch selbstverankerte visuelle Einschränkungen und oracle-gesteuerte Trajektorienoptimierung die Stabilität und Leistung von autonomen Fahrzeugen in Vision-Language-Action-Modellen verbessert.

Jiajun Cao, Xiaoan Zhang, Xiaobao Wei, Liyuqiu Huang, Wang Zijian, Hanzhen Zhang, Zhengyu Jia, Wei Mao, Hao Wang, Xianming Liu, Shuchang Zhou Liu, Yang Wang, Shanghang ZhangWed, 11 Ma🤖 cs.AI

TopoOR: A Unified Topological Scene Representation for the Operating Room

Das Papier stellt TopoOR vor, ein neuartiges Paradigma, das chirurgische Umgebungen durch eine höherordentliche topologische Repräsentation modelliert, um komplexe multimodale Beziehungen und geometrische Strukturen besser zu erhalten als bestehende Szenengraphen und so die Genauigkeit bei sicherheitskritischen Aufgaben wie der Sterilitätsverletzungserkennung und der Robotikphasenvorhersage zu verbessern.

Tony Danjun Wang, Ka Young Kim, Tolga Birdal, Nassir Navab, Lennart BastianWed, 11 Ma💻 cs

The Patrologia Graeca Corpus: OCR, Annotation, and Open Release of Noisy Nineteenth-Century Polytonic Greek Editions

Die Studie stellt das Patrologia Graeca Corpus vor, eine groß angelegte, offene Ressource mit OCR- und linguistischen Annotationen für die verbleibenden und nicht digitalisierten Bände der Patrologia Graeca, die durch eine spezialisierte Pipeline mit einem außergewöhnlich niedrigen Fehlerwert von 1,05 % für polytonisches Griechisch erschlossen wurde.

Chahan Vidal-Gorène (CJM, LIPN), Bastien KindtWed, 11 Ma💻 cs

← Zurück Weiter →