cs.CV Arbeiten | Gist.Science

ScribeTokens: Fixed-Vocabulary Tokenization of Digital Ink

Die Arbeit stellt ScribeTokens vor, eine Tokenisierung digitaler Tinte mit einem festen 10-Token-Wortschatz, die durch aggressive BPE-Kompression und ein selbstüberwachtes Vortraining sowohl bei der Generierung als auch bei der Erkennung von Handschrift die Leistungsfähigkeit bestehender Vektor- und Token-basierter Ansätze übertrifft.

Douglass Wang2026-03-04💻 cs

Scale-invariant Gaussian derivative residual networks

Diese Arbeit stellt proviert skalierungsinvariante Gaußsche Ableitungs-Residualnetzwerke (GaussDerResNets) vor, die durch die Kombination von skalierungskovarianten Blöcken mit Residualverbindungen eine hohe Genauigkeit bei gleichzeitiger robuster Generalisierung auf unbekannte Bildskalen ermöglichen und deren Wirksamkeit sowie Effizienz durch ablation studies auf verschiedenen Datensätzen nachgewiesen wird.

Andrzej Perzanowski, Tony Lindeberg2026-03-04🤖 cs.LG

Nodes Are Early, Edges Are Late: Probing Diagram Representations in Large Vision-Language Models

Die Studie zeigt, dass große Vision-Language-Modelle Knoteninformationen bereits im visuellen Encoder linear kodieren, während die Darstellung von Kanten erst in den Text-Token des Sprachmodells entsteht, was die Schwierigkeiten dieser Modelle beim Verständnis von Beziehungen und Richtungen in Diagrammen erklärt.

Haruto Yoshida, Keito Kudo, Yoichi Aoki + 4 more2026-03-04💬 cs.CL

Multimodal-Prior-Guided Importance Sampling for Hierarchical Gaussian Splatting in Sparse-View Novel View Synthesis

Die vorgestellte Arbeit führt einen multimodal-prior-gesteuerten Importance-Sampling-Ansatz für hierarchisches 3D-Gaussian-Splatting ein, der photometrische, semantische und geometrische Hinweise kombiniert, um bei der Rekonstruktion aus wenigen Ansichten eine robuste Detailverfeinerung zu ermöglichen und Überanpassung zu verhindern.

Kaiqiang Xiong, Zhanke Wang, Ronggang Wang2026-03-04💻 cs

SIGMark: Scalable In-Generation Watermark with Blind Extraction for Video Diffusion

SIGMark ist ein skalierbares, verzerrungsfreies Wassermarkierungsframework für Video-Diffusionsmodelle, das durch die Generierung von Wasserzeichen-Rauschen mittels globaler pseudozufälliger Kodierungsschlüssel eine blinden Extraktion ermöglicht und durch ein Segment-Gruppenordnungs-Modul eine hohe Robustheit gegenüber zeitlichen Störungen gewährleistet.

Xinjie Zhu, Zijing Zhao, Hui Jin + 5 more2026-03-04💻 cs

SemanticDialect: Semantic-Aware Mixed-Format Quantization for Video Diffusion Transformers

Das Paper stellt SemanticDialect vor, eine semantikbewusste Quantisierungsmethode für Video-Diffusions-Transformer, die durch blockweise gemischte Formatwahl, Aktivitätszerlegung und semantische Zuweisung die Speicher- und Rechenkosten senkt, ohne dabei die Videoqualität im Vergleich zu FP16 zu beeinträchtigen.

Wonsuk Jang, Thierry Tambe2026-03-04💻 cs

StegaFFD: Privacy-Preserving Face Forgery Detection via Fine-Grained Steganographic Domain Lifting

Der Artikel stellt StegaFFD vor, ein privatsphäreschonendes Framework zur Gesichtsfälschungserkennung, das sensible Gesichter mittels Steganographie in natürlichen Bildern versteckt und durch spezielle Aufmerksamkeitsmechanismen die Erkennungsgenauigkeit im steganographischen Bereich ohne Verdachtserregung aufrechterhält.

Guoqing Ma, Xun Lin, Hui Ma + 6 more2026-03-04🤖 cs.AI

LLandMark: A Multi-Agent Framework for Landmark-Aware Multimodal Interactive Video Retrieval

Die Arbeit stellt LLandMark vor, ein modulares Multi-Agenten-Framework, das durch spezialisierte Agenten, die Erkennung kultureller Wahrzeichen und die Nutzung von LLMs sowie OCR-Verbesserungen eine adaptive, erklärbar und kulturell fundierte multimodale Video-Retrieval für komplexe reale Anfragen, insbesondere im vietnamesischen Kontext, ermöglicht.

Minh-Chi Phung, Thien-Bao Le, Cam-Tu Tran-Thi + 2 more2026-03-04💻 cs

Intrinsic Geometry-Appearance Consistency Optimization for Sparse-View Gaussian Splatting

Das Paper stellt MVD-HuGaS vor, eine Methode zur hochfidelien 3D-Mensch-Rekonstruktion aus einem einzigen Bild, die durch einen feinabgestimmten Multi-View-Diffusionsmodell, ein Kamerapositions-Alignement-Modul und eine depth-basierte Gesichtsverzerrungsreduktion state-of-the-art Ergebnisse erzielt.

Kaiqiang Xiong, Rui Peng, Jiahao Wu + 5 more2026-03-04💻 cs

3D-DRES: Detailed 3D Referring Expression Segmentation

Die Arbeit stellt 3D-DRES, eine neue Aufgabe zur feinkörnigen 3D-Referenzsegmentierung, sowie das dazugehörige Datenset DetailRefer und das Basismodell DetailBase vor, die durch eine phrasenbasierte Annotation die präzise Zuordnung von Sprachausdrücken zu 3D-Objekten ermöglichen und gleichzeitig die Leistung bei herkömmlichen 3D-RES-Aufgaben verbessern.

Qi Chen, Changli Wu, Jiayi Ji + 2 more2026-03-04💻 cs

ProGIC: Progressive and Lightweight Generative Image Compression with Residual Vector Quantization

Der Artikel stellt ProGIC vor, einen leichten und fortschrittlichen generativen Bildkompressions-Codec auf Basis von residualer Vektorquantisierung, der durch eine kompakte Architektur und einen stufenweisen Bitstream sowohl eine hohe Kompressionseffizienz als auch eine schnelle Verarbeitung und flexible Übertragung ermöglicht.

Hao Cao, Chengbin Liang, Wenqi Guo + 2 more2026-03-04💻 cs

Harmonic Beltrami Signature Network: a Shape Prior Module in Deep Learning Framework

Diese Arbeit stellt das Harmonic Beltrami Signature Network (HBSN) vor, ein neuartiges Deep-Learning-Framework, das durch die effiziente Berechnung von harmonischen Beltrami-Signaturen als rotations-, skalierungs- und translationsinvariante Formpriors die Leistung bestehender Bildsegmentierungsmodelle verbessert.

Chenran Lin, Lok Ming Lui2026-03-04💻 cs

Articulation in Motion: Prior-free Part Mobility Analysis for Articulated Objects By Dynamic-Static Disentanglement

Die Arbeit stellt „Articulation in Motion" (AiM) vor, ein prior-freies Framework, das mittels einer dualen Gaußschen Szenendarstellung und sequentieller RANSAC-Clustering aus einem Interaktionsvideo und einem 3D-Scan automatisch bewegliche Teile, Gelenke und Kinematik von artikulierten Objekten segmentiert und rekonstruiert.

Hao Ai, Wenjie Chang, Jianbo Jiao + 2 more2026-03-04💻 cs

HDINO: A Concise and Efficient Open-Vocabulary Detector

HDINO ist ein effizienter Open-Vocabulary-Detektor, der durch eine zweistufige Trainingsstrategie mit einem One-to-Many-Semantik-Ausrichtungsmechanismus und einem gewichteten Klassifikationsverlust auf manuell kuratierte Datensätze verzichtet und gleichzeitig die Leistung bestehender Methoden wie Grounding DINO und T-Rex2 übertrifft.

Hao Zhang, Yiqun Wang, Qinran Lin + 2 more2026-03-04💻 cs

GloPath: An Entity-Centric Foundation Model for Glomerular Lesion Assessment and Clinicopathological Insights

GloPath ist ein entitätszentriertes Grundmodell, das auf über einer Million Glomeruli trainiert wurde und durch überlegene Leistung bei der Bewertung von glomerulären Läsionen sowie durch die Entdeckung neuer klinikopathologischer Zusammenhänge einen bedeutenden Fortschritt für die klinisch anwendbare KI in der Nierenpathologie darstellt.

Qiming He, Jing Li, Tian Guan + 26 more2026-03-04💻 cs

TC-Padé: Trajectory-Consistent Padé Approximation for Diffusion Acceleration

Die Arbeit stellt TC-Padé vor, ein neues Feature-Caching-Framework, das auf Padé-Approximationen basiert, um die Inferenzgeschwindigkeit von Diffusionsmodellen im praktischen Low-Step-Bereich signifikant zu steigern, ohne dabei die Generierungsqualität zu beeinträchtigen.

Benlei Cui, Shaoxuan He, Bukun Huang + 8 more2026-03-04💻 cs

Leveraging Label Proportion Prior for Class-Imbalanced Semi-Supervised Learning

Die Arbeit stellt einen leichten Rahmen für das semi-überwachte Lernen bei Klassenungleichgewicht vor, der erstmals den Proportion Loss aus dem Lernen aus Label-Anteilen als Regularisierungsterm einführt, um durch die Ausrichtung der Modellvorhersagen an der globalen Klassenverteilung die Verzerrung zugunsten von Mehrheitsklassen zu mindern und die Leistung unter knappen Label-Bedingungen zu verbessern.

Kohki Akiba, Shinnosuke Matsuo, Shota Harada + 1 more2026-03-04🤖 cs.LG

Semi-Supervised Few-Shot Adaptation of Vision-Language Models

Die vorgestellte Arbeit adressiert das Problem der Klassenungleichgewichte bei der Few-Shot-Anpassung von Vision-Language-Modellen in der medizinischen Bildgebung, indem sie einen effizienten semi-supervisierten Ansatz einführt, der ungelabelte Daten nutzt, um den Annotationaufwand in extrem wenigen Beispielen um mehr als 50 % zu reduzieren.

Julio Silva-Rodríguez, Ender Konukoglu2026-03-04💻 cs

Improving Anomaly Detection with Foundation-Model Synthesis and Wavelet-Domain Attention

Diese Arbeit stellt einen Ansatz zur Verbesserung der industriellen Anomalieerkennung vor, der eine foundation-model-basierte Synthese realistischer Anomalien (FMAS) mit einem Wavelet-Domain-Attention-Modul (WDAM) kombiniert, um die Detektionsempfindlichkeit ohne Feinabstimmung zu steigern.

Wensheng Wu, Zheming Lu, Ziqian Lu + 5 more2026-03-04💻 cs

TagaVLM: Topology-Aware Global Action Reasoning for Vision-Language Navigation

Die Arbeit stellt TagaVLM vor, ein End-to-End-Framework, das durch die explizite Integration topologischer Strukturen in die Architektur von Vision-Language-Modellen die räumliche Reasoning-Fähigkeit für die Vision-Language-Navigation verbessert und auf dem R2R-Benchmark neue Bestleistungen erzielt.

Jiaxing Liu, Zexi Zhang, Xiaoyan Li + 3 more2026-03-04💻 cs

← Zurück Weiter →