cs.CV Arbeiten | Gist.Science

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin Kim2026-03-11⚡ eess

ADHint: Adaptive Hints with Difficulty Priors for Reinforcement Learning

Die Arbeit stellt ADHint vor, eine adaptive Methode für das Reinforcement Learning, die Schwierigkeitspriors nutzt, um Hint-Raten dynamisch anzupassen und Gradienten zu modulieren, wodurch die Stabilität des Lernens verbessert und eine bessere Balance zwischen Exploration und Imitation erreicht wird.

Feng Zhang, Zezhong Tan, Xinhong Ma, Ziqiang Dong, Xi Leng, Jianfei Zhao, Xin Sun, Yang Yang2026-03-11🤖 cs.LG

Directional Textual Inversion for Personalized Text-to-Image Generation

Die Arbeit stellt Directional Textual Inversion (DTI) vor, eine Methode zur Personalisierung von Text-zu-Bild-Generierung, die durch die Optimierung ausschließlich der Richtungsvektoren von Embeddings auf einer hypersphärischen Mannigfaltigkeit statt ihrer Norm die Texttreue verbessert und eine kohärente Interpolation zwischen gelernten Konzepten ermöglicht.

Kunhee Kim, NaHyeon Park, Kibeom Hong, Hyunjung Shim2026-03-11🤖 cs.LG

Taming Preference Mode Collapse via Directional Decoupling Alignment in Diffusion Reinforcement Learning

Diese Arbeit stellt mit D²-Align ein neues Framework vor, das durch eine gerichtete Entkopplung der Belohnungssignale das Phänomen des Zusammenbruchs von Präferenzmodi (Preference Mode Collapse) in Diffusionsmodellen bekämpft und so die generative Vielfalt bei gleichzeitiger Verbesserung der menschlichen Präferenzabstimmung sicherstellt.

Chubin Chen, Sujie Hu, Jiashu Zhu, Meiqi Wu, Jintao Chen, Yanxun Li, Nisha Huang, Chengyu Fang, Jiahong Wu, Xiangxiang Chu, Xiu Li2026-03-11💻 cs

Low-rank Orthogonal Subspace Intervention for Generalizable Face Forgery Detection

Die vorgestellte Arbeit stellt SeLop vor, eine Methode zur Generalisierung von Gesichtsfälschungserkennung, die durch orthogonale Unterraum-Interventionen in einem niedrigrangigen Repräsentationsraum spurious Korrelationen eliminiert und so robuste, fälschungsspezifische Merkmale isoliert.

Chi Wang, Xinjue Hu, Boyu Wang, Ziwen He, Zhangjie Fu2026-03-11💻 cs

Exploiting the Final Component of Generator Architectures for AI-Generated Image Detection

Die Arbeit schlägt eine generalisierbare Methode zur Erkennung von KI-generierten Bildern vor, die darauf basiert, reale Bilder mit den finalen Komponenten verschiedener Generatoren zu „kontaminieren" und einen Detektor zu trainieren, der diese Manipulationen selbst bei bisher unbekannten Modellen mit einer durchschnittlichen Genauigkeit von 98,83 % zuverlässig identifiziert.

Yanzhu Liu, Xiao Liu, Yuexuan Wang, Mondal Soumik2026-03-11💻 cs

CLEAR-Mamba:Towards Accurate, Adaptive and Trustworthy Multi-Sequence Ophthalmic Angiography Classification

Die Arbeit stellt CLEAR-Mamba vor, ein verbessertes Framework für die Klassifizierung ophthalmischer Angiographie-Bilder, das durch eine hypernetzwerkbasierte adaptive Schicht und ein verlässlichkeitsbewusstes Vorhersageschema auf Evidenzunsicherheit die Generalisierbarkeit und Zuverlässigkeit bei der Diagnose von Netzhauterkrankungen über verschiedene Modalitäten hinweg signifikant steigert.

Zhuonan Wang, Wenjie Yan, Wenqiao Zhang, Xiaohui Song, Jian Ma, Ke Yao, Yibo Yu, Beng Chin Ooi2026-03-11🤖 cs.AI

RegionReasoner: Region-Grounded Multi-Round Visual Reasoning

Die Arbeit stellt mit RegionReasoner ein Reinforcement-Learning-Framework und den zugehörigen Benchmark RegionDial-Bench vor, die durch erzwungene Verankerung von Schlussfolgerungen in Bounding-Boxen sowie einen global-lokalen Konsistenz-Preis die mehrstufige visuelle Schlussfolgerung, die räumliche Verankerung und die semantische Kohärenz in großen Vision-Sprach-Modellen signifikant verbessern.

Wenfang Sun, Hao Chen, Yingjun Du, Yefeng Zheng, Cees G. M. Snoek2026-03-11💻 cs

WebAccessVL: Violation-Aware VLM for Web Accessibility

Die Arbeit stellt WebAccessVL vor, ein visuell-linguistisches Modell, das durch eine überwachte Bild-zu-Programm-Synthese und eine verletzungsbasierte Verfeinerung automatisch HTML-Codes so anpasst, dass WCAG2-Verstöße behoben werden, während das ursprüngliche Design erhalten bleibt.

Amber Yijia Zheng, Jae Joong Lee, Bedrich Benes, Raymond A. Yeh2026-03-11🤖 cs.AI

Pathwise Test-Time Correction for Autoregressive Long Video Generation

Die Arbeit stellt eine trainingsfreie Methode namens Test-Time Correction (TTC) vor, die durch die Kalibrierung stochastischer Zustände anhand des ersten Frames die Fehlerakkumulation bei der autoregressiven Generierung langer Videos in Echtzeit effektiv reduziert und dabei die Qualität trainingsbasierter Ansätze erreicht.

Xunzhi Xiang, Zixuan Duan, Guiyu Zhang, Haiyu Zhang, Zhe Gao, Junta Wu, Shaofeng Zhang, Tengfei Wang, Qi Fan, Chunchao Guo2026-03-11💻 cs

Monocular Normal Estimation via Shading Sequence Estimation

Die Arbeit stellt RoSE vor, eine neue Methode, die monokulare Normalenschätzung durch die Umformulierung als Schattierungssequenz-Schätzung mittels generativer Bild-zu-Video-Modelle verbessert und so die häufige geometrische Fehlausrichtung bestehender Ansätze überwindet.

Zongrui Li, Xinhua Ma, Minghui Hu, Yunqing Zhao, Yingchen Yu, Qian Zheng, Chang Liu, Xudong Jiang, Song Bai2026-03-11🤖 cs.AI

Energy-Aware Spike Budgeting for Continual Learning in Spiking Neural Networks for Neuromorphic Vision

Die vorgestellte Arbeit entwickelt einen energiebewussten Rahmen für das kontinuierliche Lernen in spikenden neuronalen Netzen, der durch adaptive Spike-Budgets und replay-basierte Mechanismen sowohl die Genauigkeit als auch die Energieeffizienz bei der Verarbeitung von bildbasierten und ereignisbasierten Daten verbessert und so die praktische Einsetzbarkeit neuromorpher Visionssysteme vorantreibt.

Anika Tabassum Meem, Muntasir Hossain Nadid, Md Zesun Ahmed Mia2026-03-11🤖 cs.AI

Multimodal Classification via Total Correlation Maximization

Die Arbeit stellt TCMax vor, eine hyperparameterfreie Methode zur multimodalen Klassifizierung, die durch die Maximierung der totalen Korrelation zwischen Merkmalen und Labels mittels TCNE Modality-Konkurrenz überwindet und damit den Stand der Technik in Bezug auf Genauigkeit übertrifft.

Feng Yu, Xiangyu Wu, Yang Yang, Jianfeng Lu2026-03-11💻 cs

B-DENSE: Branching For Dense Ensemble Network Supervision Efficiency

Das Paper stellt B-DENSE vor, ein neuartiges Framework, das durch die Nutzung multi-brancher Trajektorienausrichtung und dichten Zwischen-supervision die Diskretisierungsfehler bei der Destillation von Diffusionsmodellen reduziert und so die Bildqualität im Vergleich zu bestehenden Methoden verbessert.

Cherish Puniani, Tushar Kumar, Arnav Bendre, Gaurav Kumar, Shree Singhi2026-03-11🤖 cs.AI

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Die Arbeit stellt CoPeDiT vor, ein einheitliches latentes Diffusionsmodell mit einem selbstperzeptiven Komplettheitsbewusstsein, das fehlende 3D-MRT-Daten in verschiedenen Szenarien robust und semantisch konsistent synthetisiert, ohne auf externe manuelle Masken angewiesen zu sein.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le Zhang2026-03-11⚡ eess

ChimeraLoRA: Multi-Head LoRA-Guided Synthetic Datasets

Die Arbeit stellt ChimeraLoRA vor, eine Methode, die durch die Kombination eines klassengeteilten LoRA-Adapters mit per-Bild-LoRAs und einer semantischen Verstärkung mittels Bounding-Box-Erhaltung synthetische Datensätze erzeugt, die sowohl vielfältig als auch detailreich sind und so die Genauigkeit von Few-Shot-Klassifikationsmodellen verbessern.

Hoyoung Kim, Minwoo Jang, Jabin Koo, Sangdoo Yun, Jungseul Ok2026-03-11💻 cs

OrthoAI: A Neurosymbolic Framework for Evidence-Grounded Biomechanical Reasoning in Clear Aligner Orthodontics

Der Artikel stellt OrthoAI vor, ein neurosymbolisches Framework, das durch sparse-supervision Segmentierung, wissensbasierte biomechanische Constraints und eine Multi-Kriterien-Bewertung die Lücke zwischen geometrischer Wahrnehmung und klinischer Entscheidungsfindung in der Klarschienen-Orthodontie schließt.

Edouard Lansiaux, Margaux Leman, Mehdi Ammi2026-03-11🤖 cs.AI

Zero-Shot and Supervised Bird Image Segmentation Using Foundation Models: A Dual-Pipeline Approach with Grounding DINO~1.5, YOLOv11, and SAM~2.1

Diese Arbeit stellt einen dualen Pipeline-Ansatz mit den Foundation-Modellen Grounding DINO 1.5, YOLOv11 und SAM 2.1 vor, der sowohl im Zero-Shot- als auch im überwachten Modus eine neue Bestleistung bei der Segmentierung von Vogelbildern auf dem CUB-200-2011-Datensatz erzielt und dabei bestehende, spezialisierte Segmentierungsnetzwerke übertrifft.

Abhinav Munagala2026-03-11🤖 cs.AI

DOCFORGE-BENCH: A Comprehensive 0-shot Benchmark for Document Forgery Detection and Analysis

Die Arbeit stellt DOCFORGE-BENCH vor, das erste Zero-Shot-Benchmark für die Erkennung von Dokumentenfälschungen, das zeigt, dass bestehende Methoden aufgrund einer massiven Kalibrierungsproblematik bei der Schwellenwertwahl und nicht aufgrund mangelnder Diskriminierungsfähigkeit in realen Szenarien versagen.

Zengqi Zhao, Weidi Xia, En Wei, Yan Zhang, Jane Mo, Tiannan Zhang, Yuanqin Dai, Zexi Chen, Yiran Tao, Simiao Ren2026-03-11💻 cs

Pri4R: Learning World Dynamics for Vision-Language-Action Models with Privileged 4D Representation

Die Arbeit stellt Pri4R vor, eine einfache Methode, die Vision-Language-Action-Modelle durch das Training mit privilegierten 4D-Punktverläufen in die Lage versetzt, physikalische Welt-Dynamiken implizit zu erlernen und so die Leistung bei Manipulationsaufgaben ohne zusätzliche Inferenzkosten erheblich zu steigern.

Jisoo Kim, Jungbin Cho, Sanghyeok Chu, Ananya Bal, Jinhyung Kim, Gunhee Lee, Sihaeng Lee, Seung Hwan Kim, Bohyung Han, Hyunmin Lee, Laszlo A. Jeni, Seungryong Kim2026-03-11🤖 cs.AI

← Zurück Weiter →