cs.CV Arbeiten | Gist.Science

Seek-CAD: A Self-refined Generative Modeling for 3D Parametric CAD Using Local Inference via DeepSeek

Die Studie stellt Seek-CAD vor, ein training-freies Verfahren, das das lokal ausgeführte Open-Source-LLM DeepSeek-R1 in Kombination mit visuellem Feedback und Chain-of-Thought-Reflexion nutzt, um parametrische 3D-CAD-Modelle selbstverfeinernd zu generieren.

Xueyang Li, Jiahao Li, Yu Song + 2 more2026-03-03🤖 cs.AI

Rate-Distortion Signatures of Generalization and Information Trade-offs

Die Studie führt einen raten-verzerrungstheoretischen Rahmen ein, der durch zwei geometrische Signaturen (Steigung und Krümmung) die Kompromisse zwischen Genauigkeit und Robustheit quantifiziert und zeigt, dass sich menschliche und künstliche Sehsysteme trotz eines gemeinsamen Verlustkompressionsprinzips in ihrer Generalisierungsgeometrie systematisch unterscheiden.

Leyla Roksan Caglar, Pedro A. M. Mediano, Baihan Lin2026-03-03🧬 q-bio

Adversarially Pretrained Transformers May Be Universally Robust In-Context Learners

Diese Studie liefert den ersten theoretischen Nachweis, dass durch adversariales Pretraining vortrainierte Transformer-Modelle als universell robuste Basis-Modelle fungieren können, die sich durch In-Context-Learning mit sauberen Beispielen ohne weitere adversariale Anpassung robust auf neue Aufgaben übertragen lassen.

Soichiro Kumano, Hiroshi Kera, Toshihiko Yamasaki2026-03-03📊 stat

COMPASS: Robust Feature Conformal Prediction for Medical Segmentation Metrics

Die Arbeit stellt COMPASS vor, ein Framework zur effizienten und robusten konformen Vorhersage von medizinischen Segmentierungsmetriken, das durch Kalibrierung im Merkmalsraum der neuronalen Netze präzisere Unsicherheitsintervalle liefert als herkömmliche Methoden.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03⚡ eess

Efficient Conformal Volumetry for Template-Based Segmentation

Die Arbeit stellt ConVOLT vor, ein effizientes Framework zur konformen Unsicherheitsquantifizierung, das durch die Nutzung von Deformationsfeld-Eigenschaften bei der template-basierten Segmentierung in der medizinischen Bildverarbeitung deutlich schärfere Volumenintervalle bei garantierter Abdeckung erzeugt als herkömmliche Methoden im Ausgaberaum.

Matt Y. Cheung, Ashok Veeraraghavan, Guha Balakrishnan2026-03-03🧬 q-bio

Wasserstein Distances Made Explainable: Insights Into Dataset Shifts and Transport Phenomena

Diese Arbeit stellt eine neue Methode vor, die mithilfe von Explainable AI die Beiträge verschiedener Datenkomponenten zu Wasserstein-Abständen erklärt, um so Ursachen für Verteilungsverschiebungen und Transportphänomene präzise zu identifizieren.

Philip Naumann, Jacob Kauffmann, Grégoire Montavon2026-03-03🤖 cs.AI

A Dataset for Crucial Object Recognition in Blind and Low-Vision Individuals' Navigation

Diese Arbeit stellt einen öffentlich verfügbaren Datensatz mit 21 Videos und einer Taxonomie von 90 für blinde und sehbehinderte Personen entscheidenden Objekten vor, der aufzeigt, dass aktuelle Computer-Vision-Modelle für die Navigation dieser Zielgruppe unzureichend sind und die Notwendigkeit spezialisierter Trainingsdaten unterstreicht.

Md Touhidul Islam, Imran Kabir, Elena Ariel Pearce + 2 more2026-03-03💻 cs

A Multi-Objective Evaluation Framework for Analyzing Utility-Fairness Trade-Offs in Machine Learning Systems

Diese Arbeit stellt ein modellagnostisches, mehrkriterielles Evaluierungsframework vor, das den Trade-off zwischen Nutzen und Fairness in Machine-Learning-Systemen, insbesondere im medizinischen Bildbereich, durch eine kompakte Visualisierung und quantitative Analyse systematisch bewertet und dabei die Open-Source-Verfügbarkeit unterstreicht.

Gökhan Özbulak, Oscar Jimenez-del-Toro, Maíra Fatoretto + 2 more2026-03-03🤖 cs.LG

Time-Aware One Step Diffusion Network for Real-World Image Super-Resolution

Die Arbeit stellt TADSR vor, ein zeitaufmerksames Ein-Schritt-Diffusionsnetzwerk, das durch einen zeitaufmerksamen VAE-Encoder und einen entsprechenden VSD-Verlust die generativen Priors eines vortrainierten Stable-Diffusion-Modells bei variierenden Zeitschritten effektiv nutzt, um für die reale Bild-Super-Resolution sowohl einen State-of-the-Art-Ergebnis als auch eine kontrollierbare Balance zwischen Fidelity und Realismus zu erreichen.

Tianyi Zhang, Zheng-Peng Duan, Peng-Tao Jiang + 4 more2026-03-03⚡ eess

MSSPlace: Multi-Sensor Place Recognition with Visual and Text Semantics

Das Paper stellt MSSPlace vor, eine Methode zur multimodalen Ortserkennung, die durch die späte Fusion von Daten mehrerer Kameras, LiDAR-Punktwolken, semantischen Segmentierungsmasken und Textbeschreibungen den Zustand der Technik auf den Datensätzen Oxford RobotCar und NCLT erreicht.

Alexander Melekhin, Dmitry Yudin, Ilia Petryashin + 1 more2026-03-03💻 cs

Disentangled Multi-modal Learning of Histology and Transcriptomics for Cancer Characterization

Die Autoren stellen einen neuartigen, entkoppelten Multi-Modal-Lernrahmen vor, der durch die Zerlegung von Histologie- und Transkriptomdaten in Tumor- und Mikroumgebungs-Subräume, eine konsistente Mehrskalen-Integration und eine wissensbasierte Destillation ohne strikte Datenpaarung die Herausforderungen der Heterogenität und Abhängigkeit von gepaarten Daten in der Krebscharakterisierung überwindet.

Yupei Zhang, Xiaofei Wang, Anran Liu + 2 more2026-03-03⚡ eess

PO-GUISE+: Pose and object guided transformer token selection for efficient driver action recognition

Die Arbeit stellt PO-GUISE+ vor, einen effizienten Multi-Task-Transformer, der durch pose- und objektkontextualisierte Token-Auswahl die Rechenkosten für die Erkennung abgelenkten Fahrens auf Embedded-Plattformen erheblich senkt, während er gleichzeitig die Genauigkeit auf mehreren Datensätzen verbessert.

Ricardo Pizarro, Roberto Valle, Rafael Barea + 3 more2026-03-03💻 cs

Effective and Efficient Masked Image Generation Models

Die Arbeit stellt eMIGM vor, ein einheitliches Framework für Masked Image Generation, das durch optimiertes Training und Sampling eine überlegene Effizienz und Leistung bei der Bildgenerierung auf ImageNet im Vergleich zu bestehenden diskreten und kontinuierlichen Diffusionsmodellen erreicht.

Zebin You, Jingyang Ou, Xiaolu Zhang + 3 more2026-03-03🤖 cs.LG

Changing the Training Data Distribution to Reduce Simplicity Bias Improves In-distribution Generalization

Diese Arbeit stellt die Methode USEFUL vor, die durch gezieltes Upsampling von Beispielen, die auf Basis der frühen Netzwerkausgaben identifiziert werden, die Simplicity-Bias von Optimierungsalgorithmen wie GD und SAM reduziert und dadurch die Generalisierungsfähigkeit auf In-Distribution-Daten signifikant verbessert.

Dang Nguyen, Paymon Haddad, Eric Gan + 1 more2026-03-03🤖 cs.AI

AdaRank: Adaptive Rank Pruning for Enhanced Model Merging

Das Paper stellt AdaRank vor, einen neuartigen Rahmen für das Zusammenführen von Modellen, der durch adaptive, entropie-minimierende Pruning von Singularwerten während des Testens störende Überlappungen zwischen Aufgaben reduziert und damit einen nahezu optimalen Leistungsstand erreicht.

Chanhyuk Lee, Jiho Choi, Chanryeol Lee + 2 more2026-03-03🤖 cs.AI

Fast Magnetic Resonance Simulation Using Combined Update with Grouped Isochromats

Diese Arbeit stellt eine neue MR-Simulationsmethode vor, die durch die Gruppierung von Isochromaten mit identischen Parametern die Rechenzeit im Vergleich zu herkömmlichen Verfahren um den Faktor 3 bis 72 reduziert.

Hidenori Takeshima2026-03-03⚡ eess

VINCIE: Unlocking In-context Image Editing from Video

Die Arbeit stellt VINCIE vor, ein skalierbares Modell, das durch das direkte Lernen aus annotierten Videos und die Nutzung von Block-kausalen Diffusions-Transformern für mehrere Proxy-Aufgaben state-of-the-art Ergebnisse beim in-Kontext-Bildbearbeiten erzielt, ohne auf spezialisierte Expertensysteme angewiesen zu sein.

Leigang Qu, Feng Cheng, Ziyan Yang + 7 more2026-03-03💬 cs.CL

Meta-Adaptive Prompt Distillation for Few-Shot Visual Question Answering

Die Arbeit stellt eine Meta-Lern-Methode namens Meta-Adaptive Prompt Distillation vor, die durch die Anpassung von aus aufgabenrelevanten visuellen Merkmalen destillierten Soft-Prompts die Few-Shot-Fähigkeiten von Large Multimodal Models für das Visual Question Answering verbessert und dabei die Leistung herkömmlicher In-Context-Learning-Ansätze signifikant übertrifft.

Akash Gupta, Amos Storkey, Mirella Lapata2026-03-03💬 cs.CL

SemHiTok: A Unified Image Tokenizer via Semantic-Guided Hierarchical Codebook for Multimodal Understanding and Generation

Die Arbeit stellt SemHiTok vor, einen einheitlichen Bild-Tokenisierer, der durch einen semantisch geführten hierarchischen Codebook-Ansatz die Herausforderung eines optimalen Kompromisses zwischen multimodalem Verständnis und Bildgenerierung löst, indem er semantische und pixelbasierte Merkmale strukturell entkoppelt.

Zisheng Chen, Chunwei Wang, Runhui Huang + 6 more2026-03-03🤖 cs.AI

OmniSpatial: Towards Comprehensive Spatial Reasoning Benchmark for Vision Language Models

Die Arbeit stellt OmniSpatial vor, ein umfassendes Benchmark auf psychologischer Grundlage mit über 8.400 annotierten Beispielen, das die signifikanten Defizite aktueller Vision-Language-Modelle in der komplexen räumlichen Reasoning aufzeigt und zwei Strategien zur Verbesserung dieser Fähigkeiten evaluiert.

Mengdi Jia, Zekun Qi, Shaochen Zhang + 5 more2026-03-03💬 cs.CL

← Zurück Weiter →