Component-Aware Sketch-to-Image Generation Using Self-Attention Encoding and Coordinate-Preserving Fusion

Deze paper introduceert een componentbewust, zelfrefinerend raamwerk voor het genereren van fotorealistische afbeeldingen uit schetsen, dat via een tweestapsarchitectuur met zelfaandacht-codering en coördinatiebehoudende fusie aanzienlijk betere resultaten boekt dan bestaande GAN- en diffusiemodellen op diverse datasets.

Ali Zia, Muhammad Umer Ramzan, Usman Ali, Muhammad Faheem, Abdelwahed Khamis, Shahnawaz QureshiWed, 11 Ma💻 cs

SurgFed: Language-guided Multi-Task Federated Learning for Surgical Video Understanding

Dit paper introduceert SurgFed, een taalgeleid multi-task federated learning-framework dat de uitdagingen van weefsel- en taakdiversiteit in chirurgische video's aanpakt via taalgestuurde kanaalselectie en hyperaggregatie, wat resulteert in superieure prestaties voor segmentatie en diepteschatten op meerdere datasets.

Zheng Fang, Ziwei Niu, Ziyue Wang, Zhu Zhuo, Haofeng Liu, Shuyang Qian, Jun Xia, Yueming JinWed, 11 Ma💻 cs

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

De studie toont aan dat een progressieve toename van radiologisch vastgestelde pleuroparenchymale fibroelastose (PPFE) in twee grote longkankerscreeningscohorten onafhankelijk geassocieerd is met een verhoogde sterfte en nadelige klinische uitkomsten.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

Towards Unified Multimodal Interleaved Generation via Group Relative Policy Optimization

Deze paper introduceert een op versterkingslering gebaseerde post-trainingstrategie, die Group Relative Policy Optimization (GRPO) uitbreidt naar multimodale contexten, om bestaande vision-language modellen te verbeteren in het genereren van samenhangende, verweven tekst-en-beeldoutput zonder afhankelijkheid van grote gespecialiseerde datasets.

Ming Nie, Chunwei Wang, Jianhua Han, Hang Xu, Li ZhangWed, 11 Ma💻 cs

A comprehensive study of time-of-flight non-line-of-sight imaging

Dit paper biedt een uitgebreide studie van tijd-van-vlucht niet-zichtlijn (ToF NLOS) beeldvorming door een gemeenschappelijk wiskundig kader en hardware-opstelling te hanteren om diverse methoden te vergelijken, hun relatie met Radon-transformaties te analyseren en hun beperkingen in resolutie en ruisgevoeligheid onder gelijke omstandigheden te evalueren.

Julio Marco, Adrian Jarabo, Ji Hyun Nam, Alberto Tosi, Diego Gutierrez, Andreas VeltenWed, 11 Ma💻 cs

GeoAlignCLIP: Enhancing Fine-Grained Vision-Language Alignment in Remote Sensing via Multi-Granular Consistency Learning

GeoAlignCLIP is een nieuw raamwerk dat de fijne-granulaire visueel-taaluitlijning in remote sensing verbetert door multi-granulaire semantische uitlijning en intra-modale consistentie te leren, ondersteund door het nieuwe RSFG-100k-dataset, wat leidt tot superieure prestaties op diverse benchmarks.

Xiao Yang, Ronghao Fu, Zhuoran Duan, Zhiwen Lin, Xueyan Liu, Bo YangWed, 11 Ma💻 cs

More than the Sum: Panorama-Language Models for Adverse Omni-Scenes

Deze paper introduceert het Panorama-Language Modeling (PLM)-paradigma, een eenheidsmodel voor 360°-redenering dat gebruikmaakt van een plug-and-play module en het PanoVQA-dataset om holistische ruimtelijke relaties in ongunstige panoramische scènes beter te begrijpen dan traditionele vision-language modellen die zijn beperkt tot smalle beeldhoeken.

Weijia Fan, Ruiping Liu, Jiale Wei, Yufan Chen, Junwei Zheng, Zichao Zeng, Jiaming Zhang, Qiufu Li, Linlin Shen, Rainer StiefelhagenWed, 11 Ma💻 cs