eess.IV Arbeiten | Gist.Science

Image Compression Using Novel View Synthesis Priors

Die Autoren stellen eine modellbasierte Bildkomprimierungsmethode vor, die auf trainierten Modellen zur Synthese neuer Ansichten und Gradientenabstiegs-Optimierung basiert, um die Echtzeit-Übertragung von Bildern für ferngesteuerte Unterwasserfahrzeuge über akustische Kanäle mit begrenzter Bandbreite zu ermöglichen.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Entropy-and-Channel-Aware Adaptive-Rate Semantic Communication with MLLM-Aided Feature Compensation

Die vorgestellte Arbeit entwickelt ein semantisches Kommunikationssystem für MIMO-Rayleigh-Fading-Kanäle, das durch eine entropie- und kanaladaptive Übertragungsrate sowie den Einsatz eines mit LoRA feinabgestimmten multimodalen großen Sprachmodells (MLLM) zur Kompensation verlorener Merkmale sowohl die Ressourceneffizienz als auch die Aufgabenleistung optimiert.

Weixuan Chen, Qianqian Yang, Yuhao Chen, Chongwen Huang, Qian Wang, Zehui Xiong, Zhaoyang ZhangWed, 11 Ma⚡ eess

LiM-YOLO: Less is More with Pyramid Level Shift and Normalized Auxiliary Branch for Ship Detection in Optical Remote Sensing Imagery

Die Arbeit stellt LiM-YOLO vor, einen optimierten Schiffserkennungs-Algorithmus für optische Fernerkundungsbilder, der durch eine Verschiebung der Pyramiden-Ebenen von P3-P5 auf P2-P4 sowie den Einsatz von GN-CBLinear die Detektionsgenauigkeit bei deutlich reduzierter Parameteranzahl und verbesserter Stabilität bei kleinen Schiffen erreicht.

Seon-Hoon Kim, Hyeji Sim, Youeyun Jung, Ok-Chul Jung, Yerin KimWed, 11 Ma⚡ eess

Rydberg Vision via frugal Quantum Image Fingerprinting

Diese Arbeit stellt einen neuartigen, quanten-nativen Ansatz für den Bildabgleich auf neutralen Atom-Quantencomputern vor, der durch klassische Vorverarbeitung in eine spärliche Punktwolke umgewandelte Bilder physikalisch in Rydberg-Systemen kodiert und mittels quantenmechanischer Observablen wie der statischen Strukturfaktor als effizienten Fingerabdruck für skalierbare Bilderkennung und maschinelles Lernen nutzt.

Vikrant Sharma, Neel Kanth KunduWed, 11 Ma⚛️ quant-ph

Exploiting Completeness Perception with Diffusion Transformer for Unified 3D MRI Synthesis

Die Arbeit stellt CoPeDiT vor, ein einheitliches latentes Diffusionsmodell mit einem selbstperzeptiven Komplettheitsbewusstsein, das fehlende 3D-MRT-Daten in verschiedenen Szenarien robust und semantisch konsistent synthetisiert, ohne auf externe manuelle Masken angewiesen zu sein.

Junkai Liu, Nay Aung, Theodoros N. Arvanitis, Joao A. C. Lima, Steffen E. Petersen, Le ZhangWed, 11 Ma⚡ eess

Robust Wildfire Forecasting under Partial Observability: From Reconstruction to Prediction

Diese Arbeit stellt einen zweistufigen probabilistischen Rahmen vor, der durch den Einsatz von Rekonstruktionsmodellen wie MaskCVAE und MaskUNet die durch Wolken und Rauch verursachte partielle Beobachtbarkeit bei satellitengestützten Waldbrandvorhersagen überwindet und so die Prognosegenauigkeit trotz schwerer Datenkorruption wiederherstellt.

Chen Yang, Mehdi Zafari, Ziheng Duan, A. Lee SwindlehurstWed, 11 Ma⚡ eess

M2Diff: Multi-Modality Multi-Task Enhanced Diffusion Model for MRI-Guided Low-Dose PET Enhancement

Die Studie stellt M2Diff vor, ein multi-modales und multi-task Diffusionsmodell, das MRI- und Low-Dose-PET-Daten separat verarbeitet und hierarchisch fusioniert, um die Bildqualität von Low-Dose-PET-Scans zu verbessern und dabei sowohl bei gesunden Probanden als auch bei Alzheimer-Patienten überlegene Rekonstruktionsleistungen zu erzielen.

Ghulam Nabi Ahmad Hassan Yar, Himashi Peiris, Victoria Mar, Cameron Dennis Pain, Zhaolin ChenWed, 11 Ma⚡ eess

DFPF-Net: Dynamically Focused Progressive Fusion Network for Remote Sensing Change Detection

Das Paper stellt DFPF-Net vor, ein dynamisch fokussiertes progressives Fusionsnetzwerk, das auf einem gewichtsgeteilten Siamesen-Netzwerk mit Pyramid Vision Transformer und einem dynamischen Änderungs-Fokus-Modul basiert, um durch die Kombination von globalen und lokalen Merkmalsfusionen sowie Rauschunterdrückung die Genauigkeit der Veränderungserkennung in Fernerkundungsbildern zu verbessern.

Chengming Wang, Peng Duan, Jinjiang LiWed, 11 Ma⚡ eess

MetaSpectra+: A Compact Broadband Metasurface Camera for Snapshot Hyperspectral+ Imaging

Die Arbeit stellt MetaSpectra+ vor, eine kompakte, multifunktionale Kamera mit Metasurface-Optik, die in einem einzigen Snapshot entweder HDR- oder Polarisationsbilder zusammen mit hochauflösenden hyperspektralen Daten über das gesamte sichtbare Spektrum erfasst und dabei sowohl die kürzeste Baulänge als auch die höchste Rekonstruktionsgenauigkeit bisheriger Systeme erreicht.

Yuxuan Liu, Wei Xu, Qi GuoWed, 11 Ma⚡ eess

POLISH'ing the Sky: Wide-Field and High-Dynamic Range Interferometric Image Reconstruction with Application to Strong Lens Discovery

Diese Arbeit erweitert das Deep-Learning-Framework POLISH durch patch-basiertes Training und eine nichtlineare Intensitätstransformation, um robuste, hochauflösende Bilder aus Radio-Interferometrie-Daten zu erzeugen und damit die Entdeckung von Gravitationslinsen im Vergleich zu herkömmlichen Methoden wie CLEAN signifikant zu steigern.

Zihui Wu, Liam Connor, Samuel McCarty, Katherine L. BoumanWed, 11 Ma🔭 astro-ph

Association of Radiologic PPFE Change with Mortality in Lung Cancer Screening Cohorts

Die Studie zeigt, dass das Fortschreiten der radiologisch nachgewiesenen Pleuroparenchymalen Fibroelastose (PPFE) in zwei großen Lungenkrebs-Screening-Kohorten unabhängig mit einer erhöhten Sterblichkeit und negativen klinischen Ergebnissen assoziiert ist.

Shahab Aslani, Mehran Azimbagirad, Daryl Cheng, Daisuke Yamada, Ryoko Egashira, Adam Szmul, Justine Chan-Fook, Robert Chapman, Alfred Chung Pui So, Shanshan Wang, John McCabe, Tianqi Yang, Jose M Brenes, Eyjolfur Gudmundsson, The SUMMIT Consortium, Susan M. Astley, Daniel C. Alexander, Sam M. Janes, Joseph JacobWed, 11 Ma🧬 q-bio

When to Lock Attention: Training-Free KV Control in Video Diffusion

Das Paper stellt KV-Lock vor, ein trainingsfreies Framework für DiT-basierte Videodiffusionsmodelle, das durch die dynamische Anpassung der KV-Caching-Rate und der CFG-Stärke auf Basis einer Halluzinationsmetrik gleichzeitig die Hintergrundkonsistenz erhält und die Vordergrundqualität bei Video-Editing-Aufgaben verbessert.

Tianyi Zeng, Jincheng Gao, Tianyi Wang, Zijie Meng, Miao Zhang, Jun Yin, Haoyuan Sun, Junfeng Jiao, Christian Claudel, Junbo Tan, Xueqian WangWed, 11 Ma🤖 cs.AI

$M^2$ -Occ: Resilient 3D Semantic Occupancy Prediction for Autonomous Driving with Incomplete Camera Inputs

Die Arbeit stellt $M^2$ -Occ vor, ein Framework für die semantische 3D-Occupancy-Vorhersage beim autonomen Fahren, das durch einen Multi-View-Masked-Reconstruction-Modul und ein Feature-Memory-Modul auch bei unvollständigen Kameraeingängen robuste geometrische und semantische Ergebnisse liefert.

Kaixin Lin, Kunyu Peng, Di Wen, Yufan Chen, Ruiping Liu, Kailun YangWed, 11 Ma⚡ eess

PanoAffordanceNet: Towards Holistic Affordance Grounding in 360{\deg} Indoor Environments

Die Arbeit stellt PanoAffordanceNet vor, ein neuartiges Framework mit einem verzerrungsbewussten spektralen Modulator und einem omni-sphärischen Verdichtungskopf, das zusammen mit dem ersten hochqualitativen Datensatz 360-AGD die holistische Affordanz-Verankerung in 360°-Indoor-Umgebungen für embodied Intelligence ermöglicht.

Guoliang Zhu, Wanjun Jia, Caoyang Shao, Yuheng Zhang, Zhiyong Li, Kailun YangWed, 11 Ma⚡ eess

CycleULM: A unified label-free deep learning framework for ultrasound localisation microscopy

Die Studie stellt CycleULM vor, ein einheitliches, label-freies Deep-Learning-Framework, das durch einen physikbasierten Domänentransfer die Leistung und Geschwindigkeit der Ultraschall-Lokalisationsmikroskopie (ULM) erheblich verbessert und so den Weg für eine robuste Echtzeit-Anwendung in der klinischen Praxis ebnet.

Su Yan, Clara Rodrigo Gonzalez, Vincent C. H. Leung, Herman Verinaz-Jadan, Jiakang Chen, Matthieu Toulemonde, Kai Riemer, Jipeng Yan, Clotilde Vié, Qingyuan Tan, Peter D. Weinberg, Pier Luigi Dragotti, Kevin G. Murphy, Meng-Xing TangWed, 11 Ma⚡ eess

Improving Visual Object Tracking through Visual Prompting

Die Arbeit stellt PiVOT vor, einen neuen Visual-Prompting-Mechanismus für das generische Objekttracking, der einen vortrainierten Fundamentmodell (CLIP) nutzt, um Online-Visual-Prompts automatisch zu generieren und zu verfeinern, wodurch der Tracker durch kontrastive Führung Störobjekte effektiv unterdrücken und die Verfolgungsleistung verbessern kann.

Shih-Fang Chen, Jun-Cheng Chen, I-Hong Jhuo, Yen-Yu LinTue, 10 Ma💻 cs

MAP-based Problem-Agnostic diffusion model for Inverse Problems

Die Autoren stellen ein problemagnostisches, auf dem Maximum-a-Posteriori-Prinzip basiertes Diffusionsmodell vor, das durch die Schätzung eines geführten Terms unbedingte vortrainierte Modelle für inverse Bildprobleme wie Super-Resolution und Inpainting verbessert und dabei die strukturelle Kohärenz der Ergebnisse signifikant erhöht.

Pingping Tao, Haixia Liu, Jing SuTue, 10 Ma💻 cs

Subclass Classification of Gliomas Using MRI Fusion Technique

Diese Studie stellt einen Algorithmus vor, der durch die Fusion von segmentierten T1-, T2-, T1ce- und FLAIR-MRT-Bildern mittels UNET und gewichteter Durchschnittsbildung sowie deren Klassifizierung mit einem ResNet50-Modell eine Genauigkeit von 99,25 % bei der Untergruppenklassifizierung von Gliomen erreicht.

Kiranmayee Janardhan, Christy Bobby ThomasTue, 10 Ma💻 cs

Deep Learning-Based Approach for Automatic 2D and 3D MRI Segmentation of Gliomas

Diese Studie stellt einen tiefenlernbasierten Ansatz vor, der auf UNET-, Inception- und ResNet-Architekturen aufbaut, um durch eine ausgewogene Kombination von 2D- und 3D-Faltungsschichten eine automatisierte und präzise Gliom-Segmentierung in MRT-Bildern zu ermöglichen, wobei das ResNet-Modell auf den BraTS-Datensätzen mit einer 3D-Dice-Bewertung von 0,9888 die besten Ergebnisse erzielte.

Kiranmayee Janardhan, Christy Bobby TTue, 10 Ma💻 cs

Enhancing Alzheimer's Diagnosis: Leveraging Anatomical Landmarks in Graph Convolutional Neural Networks on Tetrahedral Meshes

Die vorgestellte Arbeit verbessert die Alzheimer-Diagnose und die Vorhersage von Amyloid-Positivität bei Mittelrisiko-Patienten durch ein skalierbares, auf Transformer-Architekturen basierendes geometrisches Deep-Learning-Modell, das Tetraedermeshes mit anatomischen Landmarken verarbeitet und damit teure PET-Scans teilweise ersetzt.

Yanxi Chen, Mohammad Farazi, Zhangsihao Yang, Yonghui Fan, Nicholas Ashton, Eric M Reiman, Yi Su, Yalin WangTue, 10 Ma💻 cs

Weiter →

eess.IV