cs.CV Arbeiten | Gist.Science

OmniEarth: A Benchmark for Evaluating Vision-Language Models in Geospatial Tasks

Die Arbeit stellt OmniEarth vor, ein umfassendes Benchmark mit 9.275 Bildern und 44.210 Anweisungen, das zur systematischen Evaluierung von Vision-Language-Modellen in geospatialen Aufgaben unter realistischen Erdbeobachtungsszenarien dient und dabei deutliche Leistungslücken bestehender Modelle aufzeigt.

Ronghao Fu, Haoran Liu, Weijie Zhang, Zhiwen Lin, Xiao Yang, Peng Zhang, Bo YangWed, 11 Ma💻 cs

Prune Redundancy, Preserve Essence: Vision Token Compression in VLMs via Synergistic Importance-Diversity

Das Paper stellt PruneSID vor, einen trainingsfreien Ansatz zur effizienten Kompression von Vision-Token in Vision-Language-Modellen, der durch eine synergistische Kombination aus semantischer Clustering und intra-gruppalem Non-Maximum-Suppression sowie einer dynamischen Kompressionsrate einen neuen State-of-the-Art bei gleichzeitiger drastischer Beschleunigung und minimalem Genauigkeitsverlust erreicht.

Zhengyao Fang, Pengyuan Lyu, Chengquan Zhang, Guangming Lu, Jun Yu, Wenjie PeiWed, 11 Ma💻 cs

Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Die vorgestellte Arbeit stellt einen neuartigen, komponentenbewussten Zwei-Stufen-Rahmen zur Umwandlung von Skizzen in fotorealistische Bilder vor, der durch die Kombination eines selbstaufmerksamkeitsbasierten Autoencoders, einer koordinatenbewahrenden Gated-Fusion und einer räumlich adaptiven Verfeinerung die Bildqualität und semantische Genauigkeit gegenüber bestehenden GAN- und Diffusionsmodellen signifikant verbessert.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

Streaming Autoregressive Video Generation via Diagonal Distillation

Die vorgestellte Arbeit stellt „Diagonal Distillation" vor, eine effiziente Methode zur Echtzeit-Streaming-Videogenerierung, die durch eine asymmetrische Schrittstrategie und die explizite Berücksichtigung temporaler Abhängigkeiten die Latenz drastisch reduziert und gleichzeitig die Bewegungskohärenz sowie die Fehlerakkumulation in langen Sequenzen verbessert.

Jinxiu Liu, Xuanming Liu, Kangfu Mei, Yandong Wen, Ming-HsuanYang, Weiyang LiuWed, 11 Ma💻 cs

Evolving Prompt Adaptation for Vision-Language Models

Das Paper stellt EvoPrompt vor, ein neuartiges Framework für Vision-Language-Modelle, das durch einen modality-geteilten Prompt-Projektor, eine evolutionäre Trainingsstrategie zur Entkopplung von Richtungs- und Magnituden-Updates sowie eine geometrische Feature-Regularisierung eine stabile Anpassung an Downstream-Aufgaben mit wenigen gelabelten Daten ermöglicht, ohne dabei das vorgelernte Wissen zu vergessen.

Enming Zhang, Jiayang Li, Yanru Wu, Zhenyu Liu, Yang LiWed, 11 Ma🤖 cs.AI

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Die Arbeit stellt SurgFed vor, ein sprachgesteuertes Multi-Task-Federated-Learning-Framework, das durch sprachgesteuerte Kanal-Auswahl und Hyper-Aggregation die Herausforderungen der Gewebe- und Aufgabenvielfalt bei der chirurgischen Videoanalyse über verschiedene Standorte hinweg löst und damit die Segmentierung und Tiefenschätzung in roboterassistierten minimal-invasiven Eingriffen verbessert.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Context-Nav: Context-Driven Exploration and Viewpoint-Aware 3D Spatial Reasoning for Instance Navigation

Die Arbeit stellt Context-Nav vor, ein trainingsfreies System für die textbasierte Instanznavigation, das durch die Nutzung kontextueller Beschreibungen als globaler Erkundungsprior und eine viewpoint-bewusste 3D-Raumverifikation den State-of-the-Art auf Benchmarks wie InstanceNav und CoIN-Bench erreicht.

Won Shik Jang, Ue-Hwan KimWed, 11 Ma💻 cs

Probing the Reliability of Driving VLMs: From Inconsistent Responses to Grounded Temporal Reasoning

Diese Arbeit untersucht die Zuverlässigkeit von Vision-Language-Modellen im autonomen Fahren, identifiziert deren Mängel in Konsistenz und temporaler Begründung, stellt einen neuen Benchmark namens FutureVQA vor und schlägt eine selbstüberwachte Feinabstimmung mit Chain-of-Thought-Reasoning vor, um diese Defizite ohne temporale Labels zu beheben.

Chun-Peng Chang, Chen-Yu Wang, Holger Caesar, Alain PaganiWed, 11 Ma💻 cs

RESBev: Making BEV Perception More Robust

Die Arbeit stellt RESBev vor, eine robuste und plug-and-play-fähige Methode für die Vogelperspektive (BEV) in autonomen Fahrzeugen, die durch ein latentes Weltmodell korrupte Beobachtungen rekonstruiert und so die Widerstandsfähigkeit bestehender Systeme gegen sensorische Störungen und adversariale Angriffe signifikant verbessert.

Lifeng Zhuo, Kefan Jin, Zhe Liu, Hesheng WangWed, 11 Ma💻 cs

DCAU-Net: Differential Cross Attention and Channel-Spatial Feature Fusion for Medical Image Segmentation

Die Arbeit stellt DCAU-Net vor, ein effizientes Framework für die medizinische Bildsegmentierung, das durch eine neue Differential Cross Attention (DCA) zur Reduktion der Rechenkomplexität bei gleichzeitiger Hervorhebung diskriminierender Strukturen sowie eine Channel-Spatial Feature Fusion (CSFF) für die adaptive Integration semantischer und räumlicher Merkmale die Segmentierungsgenauigkeit und Robustheit verbessert.

Yanxin Li, Hui Wan, Libin LanWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Die Studie zeigt, dass das Fortschreiten der radiologisch nachgewiesenen Pleuroparenchymalen Fibroelastose (PPFE) in zwei großen Lungenkrebs-Screening-Kohorten unabhängig mit einer erhöhten Sterblichkeit und negativen klinischen Ergebnissen assoziiert ist.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Diese Arbeit stellt eine Reinforcement-Learning-Strategie vor, die Unified Vision-Language-Modelle durch eine hybride Warm-up-Phase und eine erweiterte Group Relative Policy Optimization (GRPO) mit hybriden sowie prozessbasierten Belohnungen befähigt, hochwertige multimodale interleaved Ausgaben ohne große spezialisierte Datensätze zu generieren.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

Memory-Guided View Refinement for Dynamic Human-in-the-loop EQA

Die Autoren stellen den DynHiL-EQA-Datensatz und das trainingfreie Framework DIVRR vor, um die Herausforderungen dynamischer, von Menschen bevölkerter Umgebungen beim Embodied Question Answering durch eine relevante Sichtverfeinerung und selektive Speicherauswahl zu bewältigen und dabei sowohl die Robustheit als auch die Inferenzeffizienz zu steigern.

Xin Lu, Rui Li, Xun Huang, Weixin Li, Chuanqing Zhuang, Jiayuan Li, Zhengda Lu, Jun Xiao, Yunhong WangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Diese Studie bietet eine umfassende Analyse verschiedener Zeit-of-Flight-Nicht-Sichtlinien-Imaging-Methoden, indem sie diese unter einem gemeinsamen mathematischen und hardwaretechnischen Rahmen vergleicht, um ihre Ähnlichkeiten, Unterschiede sowie gemeinsame Leistungsgrenzen bezüglich räumlicher Auflösung und Rauschempfindlichkeit objektiv zu bewerten.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoSolver: Scaling Test-Time Reasoning in Remote Sensing with Fine-Grained Process Supervision

Das Paper stellt GeoSolver vor, ein Framework, das durch den Einsatz eines token-level Prozess-Reward-Modells (GeoPRM) und des Algorithmus Process-Aware Tree-GRRO die testzeitliche Skalierbarkeit und visuelle Zuverlässigkeit von Vision-Language-Modellen in der Fernerkundung durch feingranulare Prozessüberwachung signifikant verbessert.

Lang Sun, Ronghao Fu, Zhuoran Duan, Haoran Liu, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

Das Paper stellt GeoAlignCLIP vor, ein Framework, das durch Multi-Granularitäts-Konsistenzlernen und den neu erstellten RSFG-100k-Datensatz die feinkörnige Bild-Sprach-Ausrichtung in der Fernerkundung verbessert und damit bestehende Methoden in verschiedenen Aufgaben übertrifft.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Diese Arbeit stellt das Panorama-Sprachmodell (PLM) und den zugehörigen Datensatz PanoVQA vor, die durch eine integrierte 360°-Verarbeitung und einen neuen Sparse-Attention-Mechanismus ein ganzheitliches Verständnis von Adversen Omni-Szenen ermöglichen, das über die bloße Kombination einzelner Nahaufnahmen hinausgeht.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs

BinaryAttention: One-Bit QK-Attention for Vision and Diffusion Transformers

Die Arbeit stellt BinaryAttention vor, eine Methode zur 1-Bit-Quantisierung von QK-Attention in Vision- und Diffusion-Transformern, die durch binäre Operationen und einen lernbaren Bias eine über 2-fache Beschleunigung gegenüber FlashAttention2 bei gleichzeitiger Beibehaltung oder sogar Steigerung der Genauigkeit ermöglicht.

Chaodong Xiao, Zhengqiang Zhang, Lei ZhangWed, 11 Ma💻 cs

ParTY: Part-Guidance for Expressive Text-to-Motion Synthesis

Das Paper stellt ParTY vor, ein neuartiges Framework, das durch eine part-geführte Netzarchitektur, eine part-bewusste Textverankerung und eine adaptive Fusion von Ganzkörper- und Teilbewegungen kohärente und ausdrucksstarke Text-zu-Bewegungs-Synthesen ermöglicht, die spezifische Körperteile präzise abbilden.

KunHo Heo, SuYeon Kim, Yonghyun Gwon, Youngbin Kim, MyeongAh ChoWed, 11 Ma💻 cs

A saccade-inspired approach to image classification using visiontransformer attention maps

Die Studie zeigt, dass eine durch DINO-Aufmerksamkeitskarten inspirierte, sakkadenbasierte Bildklassifizierung, die sich auf relevante Bildregionen konzentriert, die Leistung herkömmlicher Modelle erhält oder sogar übertreffen und so einen vielversprechenden Ansatz für effiziente, biologisch inspirierte visuelle Verarbeitung bietet.

Matthis Dallain, Laurent Rodriguez, Laurent Udo Perrinet, Benoît MiramondWed, 11 Ma💻 cs

← Zurück Weiter →