Image Captioning via Compact Bidirectional Architecture

Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

Der Artikel stellt PnLCalib vor, eine optimierungsbasierte Methode zur Kalibrierung von Sportkameras in Übertragungsvideos, die durch die Kombination eines 3D-Fußballfeldmodils mit einer nichtlinearen Verfeinerung mittels erkannten Feldlinien eine robustere und präzisere Registrierung unter schwierigen Bedingungen wie variierenden Kamerawinkeln und Verdeckungen ermöglicht.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Die Arbeit stellt TIMotion vor, ein effizientes Framework für die Generierung von menschlich-menschlichen Bewegungen, das durch kausale interaktive Injektion, rollenbasierte Scanning-Verfahren und lokale Musterverstärkung die zeitliche Modellierung und Interaktionsmischung verbessert, um suboptimale Ergebnisse und redundante Parameter bestehender Methoden zu überwinden.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Diese Arbeit stellt ein unüberwachtes Lernverfahren vor, das Sequenzdaten durch die Faktorisierung latenter Transformationen in spärlich aktive rotations- und potentialbasierte Vektorfelder analysiert, um damit neuartige entkoppelte Repräsentationen zu erzeugen, die sowohl unabhängige Faktoren als auch Transformationprimitive erfassen und gleichzeitig state-of-the-art-Ergebnisse in Bezug auf Datenwahrscheinlichkeit und äquivariante Fehler erzielen.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Die Studie stellt ARSGaussian vor, eine Methode zur Synthese neuer Ansichten in der Luftbild-Fernerkundung, die LiDAR-Punktwolken und eine verzerrungskompensierende Koordinatentransformation nutzt, um geometrische Fehler wie schwebende Objekte zu reduzieren und eine präzise 3D-Rekonstruktion zu ermöglichen, wobei zudem der neue AIR-LONGYAN-Datensatz veröffentlicht wird.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Die Arbeit stellt iMarkers vor, eine innovative Klasse unsichtbarer fiduzieller Marker, die speziell für Roboter und AR-Geräte entwickelt wurden, um die visuelle Ästhetik von Umgebungen zu bewahren, während sie gleichzeitig eine flexible, robuste und für Menschen nicht wahrnehmbare Orientierung und Objekterkennung ermöglichen.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Diese umfassende Umfrage analysiert über 200 Forschungsarbeiten zur Verbesserung der Generalisierbarkeit von Wi-Fi-Sensing-Systemen, indem sie Techniken, Datensätze und zukünftige Forschungsrichtungen strukturiert zusammenfasst und eine neue Plattform für den Datenaustausch einführt.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

Die Arbeit stellt RS-STE vor, einen neuartigen Ansatz für die Bearbeitung von Szenentext, der Texterkennung und -manipulation in einem einheitlichen Framework vereint, um durch eine parallele Transformer-Decodierung und eine zyklische selbstüberwachte Feinabstimmung komplexe Pipelines zu überwinden und gleichzeitig State-of-the-Art-Ergebnisse auf synthetischen und realen Datensätzen zu erzielen.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Diese Arbeit stellt ein neuartiges halbüberwachtes Lehrer-Schüler-Framework für die biomedizinische Bildsegmentation vor, das Diffusionsmodelle nutzt, um durch iterative Pseudo-Label-Generierung und Co-Training auch bei begrenzten annotierten Daten eine überlegene Leistung im Vergleich zu bestehenden Methoden zu erzielen.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Die Arbeit stellt SpikeSMOKE vor, einen energieeffizienten Ansatz für die monokulare 3D-Objektdetektion mittels Spiking Neural Networks, der durch einen neuartigen Cross-Scale Gating Coding-Mechanismus und leichte Restblöcke die Informationsverluste überwindet und gleichzeitig die Rechenkosten im Vergleich zu herkömmlichen Methoden drastisch senkt.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Die Arbeit stellt FieldLVLM vor, ein neuartiges Framework, das durch eine feldbewusste Sprachgenerierungsstrategie und eine datenkomprimierte Multimodal-Modellanpassung die Fähigkeit von Large Vision-Language Models verbessert, komplexe Strömungsfelddaten zu verstehen und wissenschaftliche Entdeckungen zu unterstützen.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs