cs.CV Arbeiten | Gist.Science

Concerto: Joint 2D-3D Self-Supervised Learning Emerges Spatial Representations

Das Paper stellt Concerto vor, ein minimalistisches, durch 2D-3D-Selbstüberwachtes Lernen inspiriertes Modell, das überlegene räumliche Repräsentationen lernt und damit neue State-of-the-Ergebnisse in der 3D-Szenenverständnis erreicht.

Yujia Zhang, Xiaoyang Wu, Yixing Lao + 4 more2026-03-03💻 cs

Routing Matters in MoE: Scaling Diffusion Transformers with Explicit Routing Guidance

Die Arbeit stellt ProMoE vor, ein Mixture-of-Experts-Framework für Diffusion-Transformer, das durch einen zweistufigen Router mit expliziter Leitlinie und einem kontrastiven Verlust die spezialisierte Zuweisung von Bild-Token-Experten verbessert und so den aktuellen Stand der Technik auf ImageNet übertrifft.

Yujie Wei, Shiwei Zhang, Hangjie Yuan + 8 more2026-03-03💻 cs

Brain-IT: Image Reconstruction from fMRI via Brain-Interaction Transformer

Das Paper stellt "Brain-IT" vor, eine auf einem Brain-Interaction Transformer basierende Methode, die durch die Interaktion funktioneller Hirnvoxel-Cluster und die Vorhersage komplementärer semantischer sowie struktureller Bildmerkmale fMRI-Daten in treue Bildrekonstruktionen übersetzt und dabei sowohl die Bildqualität als auch die Dateneffizienz im Vergleich zu aktuellen State-of-the-Art-Verfahren signifikant verbessert.

Roman Beliy, Amit Zalcher, Jonathan Kogman + 2 more2026-03-03🧬 q-bio

See the Speaker: Crafting High-Resolution Talking Faces from Speech with Prior Guidance and Region Refinement

Diese Arbeit stellt eine neuartige Methode vor, die ausschließlich aus einer einzigen Sprachaufnahme hochauflösende, qualitativ hochwertige sprechende Gesichter erzeugt, indem sie einen sprachgesteuerten Diffusionsprozess mit statistischen Gesichtspriors und einem regionsbasierten Verfeinerungsmodul kombiniert, um Lippenbewegungen, Mimik und Augenbewegungen präzise zu synchronisieren.

Jinting Wang, Jun Wang, Hei Victor Cheng + 1 more2026-03-03⚡ eess

ThinkMorph: Emergent Properties in Multimodal Interleaved Chain-of-Thought Reasoning

Das Paper stellt ThinkMorph vor, ein einheitliches Modell, das durch feinabgestimmtes Training auf 24.000 hochqualitativen, multimodal verflochtenen Denkpfaden emergente Fähigkeiten zur adaptiven Verknüpfung von Text- und Bildschritten entwickelt und dabei sowohl visionäre Benchmarks als auch proprietäre Modelle übertrifft.

Jiawei Gu, Yunzhuo Hao, Huichen Will Wang + 5 more2026-03-03💻 cs

Revisiting Data Scaling in Medical Image Segmentation via Topology-Aware Augmentation

Diese Studie zeigt, dass die Leistung von medizinischen Bildsegmentierungsmodellen einem geometriebegrenzten Skalierungsgesetz folgt, das durch topologiebewusste Augmentierung zwar effizienter gestaltet, aber nicht in seiner grundlegenden Struktur verändert werden kann.

Yuetan Chu, Zhongyi Han, Gongning Luo + 1 more2026-03-03💻 cs

VeCoR -- Velocity Contrastive Regularization for Flow Matching

Die Arbeit stellt VeCoR vor, eine kontrastive Regularisierungsmethode für Flow Matching, die durch die Einführung einer zweiseitigen Anziehungs- und Abstoßungs-Supervision die Stabilität und Bildqualität verbessert, indem sie den gelernten Geschwindigkeitsfeldern hilft, auf dem Datenmanifold zu bleiben und Fehler in leichten oder wenigstufigen Konfigurationen zu reduzieren.

Zong-Wei Hong, Jing-lun Li, Lin-Ze Li + 2 more2026-03-03💻 cs

UltraViCo: Breaking Extrapolation Limits in Video Diffusion Transformers

Das Paper stellt UltraViCo vor, eine trainingsfreie Methode, die durch die Unterdrückung der Aufmerksamkeit für Tokens außerhalb des Trainingsfensters die Extrapolationsgrenze von Video-Diffusions-Transformern von 2x auf 4x erweitert und dabei sowohl periodische Wiederholungen als auch Qualitätsverluste effektiv behebt.

Min Zhao, Hongzhou Zhu, Yingze Wang + 6 more2026-03-03💻 cs

ReSAM: Refine, Requery, and Reinforce: Self-Prompting Point-Supervised Segmentation for Remote Sensing Images

Die Arbeit stellt ReSAM vor, einen selbst-promptenden Rahmen, der das Segment Anything Model (SAM) durch einen „Verfeinern-Nachfragen-Stärken"-Prozess und schwache Punkt-Annotationen an Fernerkundungsbilder anpasst, um die Segmentierungsqualität und Domänenrobustheit ohne vollständige Masken-Supervision zu verbessern.

M. Naseer Subhani2026-03-03💻 cs

InnoGym: Benchmarking the Innovation Potential of AI Agents

Das Paper stellt InnoGym vor, den ersten Benchmark und ein Framework zur systematischen Bewertung des Innovationspotenzials von KI-Agenten durch die Messung von Leistungssteigerung und methodischer Neuheit in 18 realen Aufgaben, wobei Experimente eine Lücke zwischen Kreativität und Robustheit aufzeigen.

Jintian Zhang, Kewei Xu, Jingsheng Zheng + 10 more2026-03-03💬 cs.CL

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition

Die Arbeit stellt AdaptVision vor, ein effizientes Vision-Language-Modell, das durch einen vom Menschen inspirierten, adaptiven Mechanismus zur schrittweisen visuellen Informationsgewinnung und eine neuartige, entkoppelte Reinforcement-Learning-Optimierung (DTPO) die Anzahl der benötigten visuellen Tokens minimiert und dabei die Genauigkeit bei visuellen Frage-Antwort-Aufgaben verbessert.

Zichuan Lin, Yicheng Liu, Yang Yang + 2 more2026-03-03💬 cs.CL

Fourier-Attentive Representation Learning: A Fourier-Guided Framework for Few-Shot Generalization in Vision-Language Models

Die Arbeit stellt FARL vor, ein neuartiges Framework, das durch Fourier-Analyse und einen dualen Cross-Attention-Mechanismus strukturelle und stilistische Bildmerkmale entwirrt, um die Few-Shot-Generalisierung von Vision-Language-Modellen zu verbessern.

Hieu Dinh Trung Pham, Huy Minh Nhat Nguyen, Cuong Tuan Nguyen2026-03-03💻 cs

Near--Real-Time Conflict-Related Fire Detection in Sudan Using Unsupervised Deep Learning

Diese Studie stellt einen leichten, unüberwachten Deep-Learning-Ansatz auf Basis eines Variational Auto-Encoders vor, der hochauflösende Planet-Labs-Satellitendaten nutzt, um brandbetroffene Gebiete im Sudan innerhalb von 24 bis 30 Stunden mit überlegener Genauigkeit zu erkennen und somit eine skalierbare, nahezu Echtzeit-Überwachung von Konfliktfolgen ermöglicht.

Kuldip Singh Atwal, Dieter Pfoser, Daniel Rothbart2026-03-03🤖 cs.AI

Family Matters: A Systematic Study of Spatial vs. Frequency Masking for Continual Test-Time Adaptation

Diese Studie isoliert systematisch den Einfluss der Maskierungsfamilie auf die kontinuierliche Testzeit-Anpassung und zeigt, dass räumliche Maskierung auf patch-basierten Architekturen stabilisierend wirkt, während Frequenzmaskierung nur bei CNNs oder feinabgestimmten Aufgaben mit globalen Hinweisen konkurrenzfähig ist.

Chandler Timm C. Doloriel, Yunbei Zhang, Yeonguk Yu + 6 more2026-03-03💻 cs

Brain-Semantoks: Learning Semantic Tokens of Brain Dynamics with a Self-Distilled Foundation Model

Die Arbeit stellt Brain-Semantoks vor, ein selbstüberwachtes Framework mit einem semantischen Tokenizer und einem Selbst-Distillation-Ziel, das robuste, abstrakte Repräsentationen von fMRI-Zeitreihen lernt und damit auch mit wenigen gelabelten Daten starke Leistungen bei verschiedenen Downstream-Aufgaben sowie verbesserte Out-of-Distribution-Performance ermöglicht.

Sam Gijsen, Marc-Andre Schulz, Kerstin Ritter2026-03-03🧬 q-bio

$β$ -CLIP: Text-Conditioned Contrastive Learning for Multi-Granular Vision-Language Alignment

Die Arbeit stellt $\beta$ -CLIP vor, ein Framework für mehrstufiges kontrastives Lernen, das durch dynamisches Pooling und einen neuartigen $\beta$ -CAL-Verlust eine präzise, hierarchische Ausrichtung zwischen Textgranularitäten und Bildregionen erreicht und damit den State-of-the-Art bei dichten Vision-Language-Aufgaben ohne harte Negativbeispiele setzt.

Fatimah Zohra, Chen Zhao, Hani Itani + 1 more2026-03-03💻 cs

CRISP: Contact-Guided Real2Sim from Monocular Video with Planar Scene Primitives

CRISP ist eine Methode, die aus monokularen Videos simulierbare menschliche Bewegungen und saubere, physikalisch plausible Szenengeometrien rekonstruiert, indem sie planare Primitiven nutzt und menschlich-szenische Kontakte modelliert, um die Erfolgsrate beim Bewegungs-Tracking erheblich zu steigern und die Real-zu-Simulation-Anwendung für Robotik und AR/VR zu verbessern.

Zihan Wang, Jiashun Wang, Jeff Tan + 4 more2026-03-03💻 cs

SoFlow: Solution Flow Models for One-Step Generative Modeling

Die Arbeit stellt SoFlow vor, ein Framework für die effiziente einstufige Generierung, das durch eine neuartige Kombination aus Flow-Matching- und Konsistenzverlusten (ohne aufwendige Jacobian-Produktberechnung) bessere FID-Ergebnisse als MeanFlow-Modelle auf ImageNet erzielt.

Tianze Luo, Haotian Yuan, Zhuang Liu2026-03-03🤖 cs.LG

AI-Powered Dermatological Diagnosis: From Interpretable Models to Clinical Implementation A Comprehensive Framework for Accessible and Trustworthy Skin Disease Detection

Diese Arbeit stellt ein interpretierbares, multimodales KI-Framework vor, das klinische Bilddaten mit Familienanamnese kombiniert, um die Diagnose von Hauterkrankungen zu verbessern, wobei die Validierung durch prospektive klinische Studien als zukünftige Arbeit geplant ist.

Satya Narayana Panda, Vaishnavi Kukkala, Spandana Iyer2026-03-03🤖 cs.AI

GeoTeacher: Geometry-Guided Semi-Supervised 3D Object Detection

Die Arbeit stellt GeoTeacher vor, einen geometriegeführten semi-supervisierten Ansatz für die 3D-Objekterkennung, der durch eine keypoints-basierte geometrische Überwachungskomponente und eine vokalbasierte Daten-Augmentierungsstrategie mit Distanz-Decay-Mechanismus die Lernfähigkeit von Modellen bei begrenzten gelabelten Daten verbessert und neue State-of-the-Art-Ergebnisse auf den Datensätzen ONCE und Waymo erzielt.

Jingyu Li, Xiaolong Zhao, Zhe Liu + 2 more2026-03-03💻 cs

← Zurück Weiter →

cs.CV