cs.CV Arbeiten | Gist.Science

All in One: Unifying Deepfake Detection, Tampering Localization, and Source Tracing with a Robust Landmark-Identity Watermark

Die vorgestellte Arbeit schlägt ein einheitliches proaktives Forensik-Framework namens LIDMark vor, das mithilfe eines neuartigen 152-dimensionalen Wasserzeichens und eines faktorisierten Kopf-Decoders Deepfake-Erkennung, Manipulationslokalisierung und Quellenspurverfolgung in einer einzigen robusten Lösung vereint.

Junjiang Wu, Liejun Wang, Zhiqing Guo2026-03-02💻 cs

Few-Shot Continual Learning for 3D Brain MRI with Frozen Foundation Models

Die Studie zeigt, dass die Kombination aus einem eingefrorenen 3D-MRI-Grundmodell und aufgaben spezifischen LoRA-Adaptern eine effektive Lösung für das Few-Shot-Continual-Learning darstellt, die durch das Vermeiden von Katastrophischem Vergessen und einen minimalen Trainierparameteranteil eine ausgewogene Leistung bei Tumorsegmentierung und Gehirnalter-Schätzung ermöglicht.

Chi-Sheng Chen, Xinyu Zhang, Guan-Ying Chen + 3 more2026-03-02⚡ eess

Automated Dose-Based Anatomic Region Classification of Radiotherapy Treatment for Big Data Applications

Die Studie stellt einen automatisierten, auf Deep Learning basierenden Algorithmus vor, der durch die Analyse von Dosis-Volumen-Überlappungen an 118 anatomischen Strukturen radiotherapeutische Behandlungspläne zuverlässig in sechs anatomische Regionen klassifiziert und so eine skalierbare Lösung für die Curierung großer, multi-institutioneller Big-Data-Datensätze ohne Abhängigkeit von inkonsistenten Metadaten bietet.

Justin Hink, Yasin Abdulkadir, Jack Neylon + 1 more2026-03-02🔬 physics

LE-NeuS: Latency-Efficient Neuro-Symbolic Video Understanding via Adaptive Temporal Verification

Das Paper stellt LE-NeuS vor, ein latenzoptimiertes neuro-symbolisches Framework für die Videoanalyse, das durch adaptive Abtastung und gebündelte Propositionserkennung die Inferenzzeit im Vergleich zu bestehenden Methoden drastisch reduziert, ohne dabei die Genauigkeit bei komplexen zeitlichen Abfragen zu beeinträchtigen.

Shawn Liang, Sahil Shah, Chengwei Zhou + 5 more2026-03-02💻 cs

No Calibration, No Depth, No Problem: Cross-Sensor View Synthesis with 3D Consistency

Die Autoren stellen eine bahnbrechende Methode zur kalibrierungsfreien Synthese von Ansichten über verschiedene Sensormodalitäten hinweg vor, die durch eine Kombination aus Bildzuordnung, geführter Punktdichtevergrößerung und 3D-Gaussian-Splatting die aufwendige Datenerfassung für RGB-X-Anwendungen revolutioniert.

Cho-Ying Wu, Zixun Huang, Xinyu Huang + 1 more2026-03-02💻 cs

Evidential Neural Radiance Fields

Die Arbeit stellt „Evidential Neural Radiance Fields" vor, einen probabilistischen Ansatz, der erstmals die gleichzeitige Quantifizierung von aleatorischer und epistemischer Unsicherheit in einem einzigen Vorwärtsdurchlauf ermöglicht, ohne dabei die Renderqualität zu beeinträchtigen oder einen erheblichen Rechenaufwand zu verursachen.

Ruxiao Duan, Alex Wong2026-03-02🤖 cs.AI

CycleBEV: Regularizing View Transformation Networks via View Cycle Consistency for Bird's-Eye-View Semantic Segmentation

Die Arbeit stellt CycleBEV vor, einen Regularisierungsrahmen, der durch eine inverse View-Transformation und zyklische Konsistenzverluste während des Trainings die Genauigkeit von Bird's-Eye-View-Semantiksegmentierungsmodellen für autonomes Fahren verbessert, ohne die Inferenzkomplexität zu erhöhen.

Jeongbin Hong, Dooseop Choi, Taeg-Hyun An + 2 more2026-03-02🤖 cs.AI

Hyperdimensional Cross-Modal Alignment of Frozen Language and Image Models for Efficient Image Captioning

Die Arbeit stellt HDFLIM vor, ein Framework, das vortrainierte, eingefrorene Sprach- und Bildmodelle durch Projektion in einen hyperdimensionalen Raum und den Einsatz leichter symbolischer Operationen effizient für die Bildbeschriftung ausrichtet, ohne dass eine aufwändige Feinabstimmung der Modellparameter erforderlich ist.

Abhishek Dalvi, Vasant Honavar2026-03-02🤖 cs.AI

Incremental dimension reduction for efficient and accurate visual anomaly detection

Die vorgestellte Arbeit führt einen inkrementellen Dimensionsreduktionsalgorithmus ein, der durch die schrittweise Verarbeitung von Merkmalsbatches und eine effiziente Aktualisierung der singulären Zerlegung die Trainingsgeschwindigkeit von visuellen Anomalieerkennungssystemen für große Datensätze erheblich steigert, ohne dabei die Genauigkeit signifikant zu beeinträchtigen.

Teng-Yok Lee2026-03-02💻 cs

Extended Reality (XR): The Next Frontier in Education

Der Artikel untersucht, wie Extended Reality (XR) das Lernen durch immersive Umgebungen revolutioniert, betont jedoch die Notwendigkeit, bei der Integration hohe Kosten, technische Hürden und ethische Bedenken hinsichtlich Datenschutz und Cybersicherheit zu überwinden, um Innovation mit Zugänglichkeit in Einklang zu bringen.

Shadeeb Hossain2026-03-02💻 cs

Egocentric Visibility-Aware Human Pose Estimation

Dieses Paper stellt den großen Egocentric-Visibility-Aware-Datensatz Eva-3M und die Methode EvaPose vor, die durch die explizite Einbeziehung von Sichtbarkeitsinformationen die Genauigkeit der menschlichen Pose-Schätzung aus Egocentric-Perspektive signifikant verbessert.

Peng Dai, Yu Zhang, Yiqiang Feng + 2 more2026-03-02💻 cs

DLEBench: Evaluating Small-scale Object Editing Ability for Instruction-based Image Editing Model

Die Arbeit stellt DLEBench vor, den ersten Benchmark zur systematischen Evaluierung der Fähigkeit von instruktionsbasierten Bildbearbeitungsmodellen, kleine Objekte präzise zu bearbeiten, und führt ein neues Bewertungsprotokoll ein, um die Lücke zwischen maschinellen und menschlichen Urteilen zu schließen.

Shibo Hong, Boxian Ai, Jun Kuang + 5 more2026-03-02🤖 cs.AI

BuildAnyPoint: 3D Building Structured Abstraction from Diverse Point Clouds

Die Arbeit stellt BuildAnyPoint vor, ein neuartiges generatives Framework, das mithilfe eines Lose-kaskadierten Diffusions-Transformers (Loca-DiT) und autoregressiver Mesh-Generierung aus unterschiedlichen Punktwolken strukturierte 3D-Gebäudeabstraktionen rekonstruiert und dabei signifikante qualitative sowie quantitative Verbesserungen gegenüber bestehenden Methoden erzielt.

Tongyan Hua, Haoran Gong, Yuan Liu + 3 more2026-03-02💻 cs

Suppressing Prior-Comparison Hallucinations in Radiology Report Generation via Semantically Decoupled Latent Steering

Die vorgestellte Arbeit stellt einen trainingsfreien, Inferenzzeit-Steuerungsansatz namens Semantically Decoupled Latent Steering (SDLS) vor, der durch semantisch entkoppelte, orthogonale Vektoren Halluzinationen bei der automatisierten Generierung von Röntgenbefunden effektiv unterdrückt, ohne dabei die klinische Genauigkeit zu beeinträchtigen.

Ao Li, Rui Liu, Mingjie Li + 6 more2026-03-02💻 cs

Vision-Language Semantic Grounding for Multi-Domain Crop-Weed Segmentation

Das Paper stellt VL-WS vor, ein neuartiges Vision-Language-Framework, das durch die semantische Verankerung von CLIP-Embeddings und sprachgesteuerten Modulationsschichten eine robuste und generalisierbare Segmentierung von Kulturpflanzen und Unkräutern über verschiedene landwirtschaftliche Domänen hinweg ermöglicht.

Nazia Hossain, Xintong Jiang, Yu Tian + 3 more2026-03-02💻 cs

Any Model, Any Place, Any Time: Get Remote Sensing Foundation Model Embeddings On Demand

Das Paper stellt rs-embed vor, eine Python-Bibliothek, die durch eine einheitliche, ROI-zentrierte Schnittstelle die einfache und effiziente Abrufung von Embeddings beliebiger Fernerkundungs-Grundmodelle für beliebige geografische Standorte und Zeiträume ermöglicht.

Dingqi Ye, Daniel Kiv, Wei Hu + 2 more2026-03-02🤖 cs.LG

HiDrop: Hierarchical Vision Token Reduction in MLLMs via Late Injection, Concave Pyramid Pruning, and Early Exit

Das Paper stellt HiDrop vor, ein Framework für Multimodale Large Language Models, das durch späte Injektion visueller Tokens, konvexe Pyramiden-Pruning mit Early-Exit-Mechanismus und weitere Optimierungen etwa 90 % der visuellen Tokens reduziert und dabei die Leistung beibehält sowie das Training um das 1,72-fache beschleunigt.

Hao Wu, Yingqi Fan, Jinyang Dai + 3 more2026-03-02💬 cs.CL

A Reliable Indoor Navigation System for Humans Using AR-based Technique

Diese Arbeit stellt ein zuverlässiges Indoor-Navigationssystem für Menschen vor, das Augmented Reality mit Vuforia Area Target, NavMesh und dem A*-Algorithmus kombiniert, um eine präzisere, effizientere und benutzerfreundlichere Wegführung in Innenräumen im Vergleich zu herkömmlichen Methoden zu ermöglichen.

Vijay U. Rathod, Manav S. Sharma, Shambhavi Verma + 3 more2026-03-02💻 cs

EgoGraph: Temporal Knowledge Graph for Egocentric Video Understanding

Das Paper stellt EgoGraph vor, ein training-freies Framework zur Konstruktion dynamischer Wissensgraphen, das durch die explizite Kodierung langfristiger, entitätsübergreifender Abhängigkeiten in ultra-langen Egocentric-Videos einen neuen State-of-the-Art für das Verständnis und die Beantwortung von Fragen über solche Sequenzen erreicht.

Shitong Sun, Ke Han, Yukai Huang + 2 more2026-03-02💻 cs

Can Unified Generation and Understanding Models Maintain Semantic Equivalence Across Different Output Modalities?

Die Studie stellt fest, dass einheitliche multimodale Sprachmodelle zwar über starke textbasierte Schlussfolgerungs- und Bildgenerierungsfähigkeiten verfügen, jedoch an einer signifikanten semantischen Inkonsistenz leiden, wenn sie komplexe Fragen direkt in visuelle Antworten umsetzen müssen, was auf eine mangelnde semantische Ausrichtung zwischen den Modalitäten und nicht auf eine generative Unzulänglichkeit hinweist.

Hongbo Jiang, Jie Li, Yunhang Shen + 4 more2026-03-02💻 cs

← Zurück Weiter →