cs.CV Arbeiten | Gist.Science

CurveStream: Boosting Streaming Video Understanding in MLLMs via Curvature-Aware Hierarchical Visual Memory Management

Das Paper stellt CurveStream vor, ein training-freies Framework, das durch curvature-basierte, hierarchische Speicherverwaltung die Streaming-Video-Verständnisfähigkeiten von Multimodalen Large Language Models ohne Out-of-Memory-Probleme signifikant verbessert und neue State-of-the-Art-Ergebnisse erzielt.

Chao Wang, Xudong Tan, Jianjian Cao, Kangcong Li, Tao Chen2026-03-23💻 cs

HiFiGaze: Improving Eye Tracking Accuracy Using Screen Content Knowledge

Die Arbeit stellt HiFiGaze vor, eine Methode zur Verbesserung der Genauigkeit von Eye-Tracking auf Consumer-Geräten, indem sie das Wissen über den angezeigten Bildschirminhalt nutzt, um die Reflexion des Bildschirms in den Augen des Nutzers präzise zu segmentieren und so den Blickpunkt zu bestimmen.

Taejun Kim, Vimal Mollyn, Riku Arakawa, Chris Harrison2026-03-23💻 cs

FlowScene: Style-Consistent Indoor Scene Generation with Multimodal Graph Rectified Flow

FlowScene ist ein neuartiges, multimodal graphbasiertes Generativmodell, das mithilfe eines eng gekoppelten rectified flow-Ansatzes realistische, stil-konsistente Innenräume mit präziser Kontrolle über Layout, Form und Textur einzelner Objekte erzeugt.

Zhifei Yang, Guangyao Zhai, Keyang Lu, YuYang Yin, Chao Zhang, Zhen Xiao, Jieyi Long, Nassir Navab, Yikai Wang2026-03-23💻 cs

K-GMRF: Kinetic Gauss-Markov Random Field for First-Principles Covariance Tracking on Lie Groups

Die Arbeit stellt K-GMRF vor, ein trainierfreies, online-fähiges Framework zur Verfolgung nicht-stationärer Kovarianzmatrizen auf Lie-Gruppen, das durch die Formulierung als erzwungene Starrkörperbewegung und die Nutzung symplektischer Integratoren eine überlegene Phasenverzögerung und Stabilität gegenüber bestehenden Methoden erreicht.

ZhiMing Li2026-03-23🤖 cs.LG

Beyond Quadratic: Linear-Time Change Detection with RWKV

Die Arbeit stellt ChangeRWKV vor, eine neuartige Architektur, die durch die Kombination eines hierarchischen RWKV-Encoders und eines räumlich-zeitlichen Fusionsmoduls die Effizienz von CNNs mit dem globalen Kontext von Transformern vereint und dabei auf dem LEVIR-CD-Benchmark einen neuen State-of-the-Art bei gleichzeitiger drastischer Reduktion der Rechenkosten erreicht.

Zhenyu Yang, Gensheng Pei, Tao Chen, Xia Yuan, Haofeng Zhang, Xiangbo Shu, Yazhou Yao2026-03-23💻 cs

Physion-Eval: Evaluating Physical Realism in Generated Video via Human Reasoning

Die Arbeit stellt Physion-Eval vor, ein umfassendes Benchmark-System mit über 10.000 von Experten annotierten Reasoning-Traces, das die physikalische Realitätstreu von generierten Videos bewertet und zeigt, dass aktuelle Modelle in physik-kritischen Szenarien häufig menschlich erkennbare Fehler aufweisen.

Qin Zhang, Peiyu Jing, Hong-Xing Yu, Fangqiang Ding, Fan Nie, Weimin Wang, Yilun Du, James Zou, Jiajun Wu, Bing Shuai2026-03-23💻 cs

FB-CLIP: Fine-Grained Zero-Shot Anomaly Detection with Foreground-Background Disentanglement

Das Paper stellt FB-CLIP vor, ein Framework zur feinkörnigen Zero-Shot-Anomalieerkennung, das durch die Entkopplung von Vordergrund und Hintergrund sowie durch optimierte textuelle Repräsentationen und semantische Konsistenzregularisierung die Lokalisierung von Anomalien in komplexen Szenen verbessert.

Ming Hu, Yongsheng Huo, Mingyu Dou, Jianfu Yin, Peng Zhao, Yao Wang, Cong Hu, Bingliang Hu, Quan Wang2026-03-23🤖 cs.AI

LoD-Loc v3: Generalized Aerial Localization in Dense Cities using Instance Silhouette Alignment

Das Paper stellt LoD-Loc v3 vor, eine neue Methode zur generalisierten Luftbild-Lokalisierung in dichten Städten, die durch eine neuartige synthetische Datengenerierung für das bisher größte Instanz-Segmentierungs-Datenset und einen Wechsel von der semantischen zur instanzbasierten Silhouettenausrichtung die Generalisierungsfähigkeit und die Genauigkeit in komplexen Szenen erheblich verbessert.

Shuaibang Peng, Juelin Zhu, Xia Li, Kun Yang, Maojun Zhang, Yu Liu, Shen Yan2026-03-23🤖 cs.AI

OrbitNVS: Harnessing Video Diffusion Priors for Novel View Synthesis

OrbitNVS verbessert die Synthese neuer Ansichten, insbesondere bei nur einer Eingabeansicht, indem es ein vortrainiertes Videogenerierungsmodell mit angepassten Kamera-Adaptern, einem Normalenkarten-Branch für geometrische Konsistenz und einer pixelweisen Überwachung für schärfere Details nutzt, um auf Benchmarks wie GSO und OmniObject3D neuartige Zustände zu erzeugen.

Jinglin Liang, Zijian Zhou, Rui Huang, Shuangping Huang, Yichen Gong2026-03-23💻 cs

UniPR: Unified Object-level Real-to-Sim Perception and Reconstruction from a Single Stereo Pair

Das Paper stellt UniPR vor, ein einheitliches, end-to-end Framework, das aus einem einzigen Stereobildpaar Objekte parallel erkennt und rekonstruiert, um die Ineffizienz und kumulativen Fehler bestehender modularer Pipelines zu überwinden und gleichzeitig die Skalierung durch eine neue Pose-bewusste Formdarstellung sowie den großen LVS6D-Datensatz zu ermöglichen.

Chuanrui Zhang, Yingshuang Zou, ZhengXian Wu, Yonggen Ling, Yuxiao Yang, Ziwei Wang2026-03-23💻 cs

← Zurück Weiter →