cs.CV Arbeiten | Gist.Science

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender ist ein Framework, das durch die Interpolation von Geschwindigkeitsfeldern zwischen kognitiven Ankerpunkten eine kontinuierliche und multidimensionale Steuerung kognitiver Bildattribute wie Valenz, Erregung, Dominanz und Merkfähigkeit während der Text-zu-Bild-Generierung ermöglicht.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan Cao2026-03-11💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Die Arbeit stellt MDTrack vor, einen neuartigen Multimodal-Objektverfolger, der durch modalspezifische Expertenfusion und eine entkoppelte zeitliche Propagation mittels separater State-Space-Modelle sowie Cross-Attention-Mechanismen den aktuellen Stand der Technik auf fünf Benchmarks erreicht.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong Cheng2026-03-11💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

Das Paper stellt DenoiseSplat vor, eine feed-forward Methode zur 3D-Gaussian-Splatting-Rekonstruktion aus verrauschten Multi-View-Bildern, die auf einem neu erstellten Rausch-Datensatz trainiert wird und dabei ohne 3D-Grundwahrheit auskommt, um die Leistung bestehender Ansätze unter realistischen Störbedingungen zu übertreffen.

Fuzhen Jiang, Zhuoran Li, Yinlin Zhang2026-03-11🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Das Paper stellt SPR (See, Plan, Rewind) vor, einen fortschrittsbewussten Vision-Language-Action-Rahmen, der durch dynamische Unterteilung von Aufgaben in räumliche Teilziele und einen geschlossenen Regelkreis aus Beobachtung, Planung und Rücksetzfunktion bei Fehlern die Robustheit und Generalisierung robotischer Manipulation signifikant verbessert.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun Chang2026-03-11💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

Die Arbeit stellt IntroSVG vor, einen introspektiven Generator-Kritiker-Rahmen, der durch Supervised Fine-Tuning und Direct Preference Optimization visuelle Rückmeldungen in den Generierungsprozess integriert, um die Qualität von Text-zu-SVG-Generierung durch einen iterativen „Erstellen-Überprüfen-Verfeinern"-Zyklus signifikant zu verbessern.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu Gao2026-03-11💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Das Paper stellt CLoE vor, einen konsistenzbasierten Lernrahmen für die Segmentierung medizinischer Bilder mit fehlenden Modalitäten, der durch Expertenkonsistenz auf Entscheidungs- und Regionsebene sowie eine zuverlässigkeitsgesteuerte Merkmalsanpassung die Robustheit und Genauigkeit bei unvollständigen Eingabedaten signifikant verbessert.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao Li2026-03-11🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

Die Arbeit stellt NLiPsCalib vor, ein effizientes Kalibrierungsframework für gekrümmte visuotaktile Sensoren, das mithilfe von Near-Light Photometric Stereo und alltäglichen Objekten eine hochpräzise 3D-Rekonstruktion ohne aufwendige Spezialgeräte ermöglicht.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi Xiao2026-03-11💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Die Arbeit stellt SpaceSense-Bench vor, ein groß angelegtes, multimodales Benchmark-Dataset mit 136 Satellitenmodellen und präzisen Ground-Truth-Annotationen, das zur Überwindung von Datenmängeln in der Weltraumwahrnehmung dient und zeigt, dass eine Skalierung der Trainingsdaten entscheidend für die Generalisierung auf unbekannte Ziele ist.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue Wan2026-03-11🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Die Arbeit stellt OddGridBench vor, einen Benchmark zur Bewertung der Sensitivität multimodaler großer Sprachmodelle für feingranulare visuelle Diskrepanzen, und schlägt mit OddGrid-GRPO ein verstärkendes Lernframework vor, das durch Curriculum-Learning und abstandsabhängige Belohnungen die Wahrnehmungsfähigkeit dieser Modelle signifikant verbessert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong Ming2026-03-11💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Die Arbeit stellt den STAR-Benchmark vor, ein Multi-Agenten-Evaluierungsframework für Nullsummenspiele, das zeigt, dass strategische Intelligenz in dynamischen Umgebungen nicht nur von der Tiefe des logischen Denkens, sondern entscheidend von der Fähigkeit abhängt, Pläne auch unter Zeitdruck schnell umzusetzen, wobei schnellere Modelle in Echtzeitszenarien oft leistungsfähiger sind als rein reasoning-intensive Modelle.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao Zhu2026-03-11🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Die Arbeit stellt Predictive Spectral Calibration (PSC) vor, einen quellfreien Testzeit-Anpassungsrahmen für Bildregression, der durch Block-Spektralanpassung und die Kalibrierung verbleibender spektraler Abweichungen die Leistung unter starken Verteilungsverschiebungen verbessert.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy Hieu2026-03-11💻 cs

Robust Provably Secure Image Steganography via Latent Iterative Optimization

Die Arbeit stellt ein robustes und nachweislich sicheres Bild-Steganographie-Framework vor, das auf latenter iterativer Optimierung basiert und durch die schrittweise Verfeinerung latenter Variablen die Extraktionsgenauigkeit unter verschiedenen Bildverarbeitungsbedingungen signifikant verbessert, ohne die Sicherheit zu beeinträchtigen.

Yanan Li, Zixuan Wang, Qiyang Xiao, Yanzhen Ren2026-03-11💻 cs

Evidential Perfusion Physics-Informed Neural Networks with Residual Uncertainty Quantification

Die Studie stellt EPPINN vor, einen evidenzbasierten physikinformierten neuronalen Netzwerk-Ansatz zur zuverlässigen und unsicherheitsbewussten Schätzung von Perfusionsparametern in der CT-Perfusionsbildgebung bei Schlaganfällen, der durch die Modellierung von physikalischen Restfehlern mittels Normal-Inverse-Gamma-Verteilungen sowohl die Genauigkeit als auch die Zuverlässigkeit der Diagnose verbessert.

Junhyeok Lee, Minseo Choi, Han Jang, Young Hun Jeon, Heeseong Eum, Joon Jang, Chul-Ho Sohn, Kyu Sung Choi2026-03-11💻 cs

M3GCLR: Multi-View Mini-Max Infinite Skeleton-Data Game Contrastive Learning For Skeleton-Based Action Recognition

Die Arbeit stellt M3GCLR vor, ein spieltheoretisches kontrastives Lernframework für die skelettbasierte Aktionserkennung, das durch die Modellierung einer unendlichen Skelettdaten-Spieltheorie, adversarische Multi-View-Augmentierung und einen dualen Verlust-Optimierer die Grenzen bestehender selbstüberwachter Methoden überwindet und state-of-the-art-Ergebnisse auf gängigen Datensätzen erzielt.

Yanshan Li, Ke Ma, Miaomiao Wei, Linhui Dai2026-03-11🤖 cs.AI

MIL-PF: Multiple Instance Learning on Precomputed Features for Mammography Classification

Das Paper stellt MIL-PF vor, ein skalierbares Framework, das vortrainierte Basis-Modelle mit einem leichten Multiple-Instance-Learning-Kopf kombiniert, um die Klassifizierung von Mammographien bei geringem Rechenaufwand und nur schwacher Bildbeschriftung effizient und mit state-of-the-art Genauigkeit durchzuführen.

Nikola Jovišic, Milica Škipina, Nicola Dall'Asen, Dubravko Culibrk2026-03-11🤖 cs.AI

SinGeo: Unlock Single Model's Potential for Robust Cross-View Geo-Localization

Die Arbeit stellt SinGeo vor, ein einfaches Framework, das durch ein duales diskriminatives Lernverfahren und eine Curriculum-Learning-Strategie ein einzelnes Modell für eine robuste, feld-of-view-unabhängige Geolokalisierung befähigt und dabei den aktuellen Stand der Technik auf mehreren Benchmarks übertrifft.

Yang Chen, Xieyuanli Chen, Junxiang Li, Jie Tang, Tao Wu2026-03-11💻 cs

EventVGGT: Exploring Cross-Modal Distillation for Consistent Event-based Depth Estimation

Die Arbeit stellt EventVGGT vor, ein neuartiges Framework, das durch die erstmalige distillation von räumlich-zeitlichen und multi-view geometrischen Priors aus dem Visual Geometry Grounded Transformer (VGGT) in den Event-Bereich eine konsistente und präzise ereignisbasierte Tiefenschätzung ermöglicht, indem es die inhärente zeitliche Kontinuität von Event-Daten explizit modelliert.

Yinrui Ren, Jinjing Zhu, Kanghao Chen, Zhuoxiao Li, Jing Ou, Zidong Cao, Tongyan Hua, Peilun Shi, Yingchun Fu, Wufan Zhao, Hui Xiong2026-03-11💻 cs

Training-Free Coverless Multi-Image Steganography with Access Control

Die Arbeit stellt MIDAS vor, ein trainingsfreies, diffusionsbasiertes Framework für coverless Steganographie, das durch latente Fusion und einen Random-Basis-Mechanismus eine robuste Zugriffskontrolle für mehrere Bilder ermöglicht und dabei hohe Bildqualität sowie Resistenz gegen Steganalyse gewährleistet.

Minyeol Bae, Si-Hyeon Lee2026-03-11💻 cs

ICDAR 2025 Competition on End-to-End Document Image Machine Translation Towards Complex Layouts

Dieser Bericht stellt den ICDAR-2025-Wettbewerb zur End-to-End-Übersetzung von Dokumentenbildern mit komplexen Layouts vor, bei dem 69 Teams zwei Tracks (OCR-frei und OCR-basiert) für kleine und große Modelle bestritten haben, wobei die Ergebnisse zeigen, dass große Modelle einen vielversprechenden neuen Paradigmenwechsel für diese Aufgabe darstellen.

Yaping Zhang, Yupu Liang, Zhiyang Zhang, Zhiyuan Chen, Lu Xiang, Yang Zhao, Yu Zhou, Chengqing Zong2026-03-11🤖 cs.AI

YOLO-NAS-Bench: A Surrogate Benchmark with Self-Evolving Predictors for YOLO Architecture Search

Die Arbeit stellt YOLO-NAS-Bench vor, das erste Surrogat-Benchmark für YOLO-Architektursuche, das durch einen selbstentwickelnden Mechanismus einen hochpräzisen Vorhersage-Modell schafft, um kostspielige Trainingsprozesse zu umgehen und überlegene Detektor-Architekturen zu entdecken.

Zhe Li, Xiaoyu Ding, Jiaxin Zheng, Yongtao Wang2026-03-11💻 cs

← Zurück Weiter →