cs.CV Arbeiten | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Die vorgestellte Arbeit stellt ein kompaktes bidirektionales Transformer-Modell für die Bildbeschriftung vor, das durch die parallele Kopplung von links-rechts- und rechts-links-Flüssen sowohl implizit als auch explizit bidirektionale Kontexte nutzt und durch Satz- und Wortebene-Ensemble-Methoden neue State-of-the-Art-Ergebnisse auf dem MSCOCO-Datensatz erzielt.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

Der Artikel stellt PnLCalib vor, eine optimierungsbasierte Methode zur Kalibrierung von Sportkameras in Übertragungsvideos, die durch die Kombination eines 3D-Fußballfeldmodils mit einer nichtlinearen Verfeinerung mittels erkannten Feldlinien eine robustere und präzisere Registrierung unter schwierigen Bedingungen wie variierenden Kamerawinkeln und Verdeckungen ermöglicht.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

Die Arbeit stellt TIMotion vor, ein effizientes Framework für die Generierung von menschlich-menschlichen Bewegungen, das durch kausale interaktive Injektion, rollenbasierte Scanning-Verfahren und lokale Musterverstärkung die zeitliche Modellierung und Interaktionsmischung verbessert, um suboptimale Ergebnisse und redundante Parameter bestehender Methoden zu überwinden.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Die Arbeit stellt ein einheitliches Framework vor, das Quantisierung und Sparsifizierung als additives Rauschen modelliert und durch eine prinzipiengeleitete Denoisings-Transformation eine stabile Gradientenbahn schafft, wodurch das Training von neuronalen Netzen mit beliebiger Präzision und Sparsity, einschließlich sub-1-Bit-Architekturen, ermöglicht wird.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Die Arbeit stellt DRUPI vor, eine Methode zur Datensatzkondensation, die durch die Synthese privilegierter Informationen wie Feature- oder Attention-Labels die Leistung von reduzierten Datensätzen erheblich verbessert.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Diese Arbeit stellt ein unüberwachtes Lernverfahren vor, das Sequenzdaten durch die Faktorisierung latenter Transformationen in spärlich aktive rotations- und potentialbasierte Vektorfelder analysiert, um damit neuartige entkoppelte Repräsentationen zu erzeugen, die sowohl unabhängige Faktoren als auch Transformationprimitive erfassen und gleichzeitig state-of-the-art-Ergebnisse in Bezug auf Datenwahrscheinlichkeit und äquivariante Fehler erzielen.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Die Autoren stellen eine modellbasierte Bildkomprimierungsmethode vor, die auf trainierten Modellen zur Synthese neuer Ansichten und Gradientenabstiegs-Optimierung basiert, um die Echtzeit-Übertragung von Bildern für ferngesteuerte Unterwasserfahrzeuge über akustische Kanäle mit begrenzter Bandbreite zu ermöglichen.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Die vorgestellte Arbeit führt einen budget-effizienten Rahmen für das aktive Prompt-Learning ein, der durch klassenbasiertes Clustering und adaptive schwellenwertgesteuerte Abfragen die Anpassung von Vision-Language-Modellen an neue Aufgaben mit weniger gelabelten Daten ermöglicht und dabei bestehende Baselines übertrifft.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Die Studie stellt ARSGaussian vor, eine Methode zur Synthese neuer Ansichten in der Luftbild-Fernerkundung, die LiDAR-Punktwolken und eine verzerrungskompensierende Koordinatentransformation nutzt, um geometrische Fehler wie schwebende Objekte zu reduzieren und eine präzise 3D-Rekonstruktion zu ermöglichen, wobei zudem der neue AIR-LONGYAN-Datensatz veröffentlicht wird.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Die Arbeit stellt CuriousBot vor, ein mobiles Explorationsystem, das durch einen 3D-relationalen Objektgraphen interaktives Erkunden komplexer Umgebungen ermöglicht und dabei VLM-basierte Ansätze in Bezug auf Generalisierung und Effektivität übertrifft.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Die Arbeit stellt iMarkers vor, eine innovative Klasse unsichtbarer fiduzieller Marker, die speziell für Roboter und AR-Geräte entwickelt wurden, um die visuelle Ästhetik von Umgebungen zu bewahren, während sie gleichzeitig eine flexible, robuste und für Menschen nicht wahrnehmbare Orientierung und Objekterkennung ermöglichen.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Diese umfassende Umfrage analysiert über 200 Forschungsarbeiten zur Verbesserung der Generalisierbarkeit von Wi-Fi-Sensing-Systemen, indem sie Techniken, Datensätze und zukünftige Forschungsrichtungen strukturiert zusammenfasst und eine neue Plattform für den Datenaustausch einführt.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

Die Arbeit stellt RS-STE vor, einen neuartigen Ansatz für die Bearbeitung von Szenentext, der Texterkennung und -manipulation in einem einheitlichen Framework vereint, um durch eine parallele Transformer-Decodierung und eine zyklische selbstüberwachte Feinabstimmung komplexe Pipelines zu überwinden und gleichzeitig State-of-the-Art-Ergebnisse auf synthetischen und realen Datensätzen zu erzielen.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Diese Arbeit stellt ein neuartiges halbüberwachtes Lehrer-Schüler-Framework für die biomedizinische Bildsegmentation vor, das Diffusionsmodelle nutzt, um durch iterative Pseudo-Label-Generierung und Co-Training auch bei begrenzten annotierten Daten eine überlegene Leistung im Vergleich zu bestehenden Methoden zu erzielen.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Die Arbeit stellt den groß angelegten Datensatz BR-Gen für lokalisierte KI-generierte Bildfälschungen vor und schlägt das Modell NFA-ViT vor, das durch eine rauschgesteuerte Verstärkung von Fälschungsspuren die Erkennungsgenauigkeit und Generalisierungsfähigkeit verbessert.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Das Paper stellt den M4-SAR-Datensatz und ein Benchmark-Toolkit vor, die durch die Fusion von optischen und SAR-Bildern die Objekterkennung in komplexen Umgebungen signifikant verbessern und dabei einen neuen End-to-End-Detektionsrahmen sowie umfangreiche annotierte Daten bereitstellen.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Das Paper stellt MARRS vor, ein neuartiges Framework, das auf einem unit-differenzierten VAE, Action-Conditioned Fusion und Adaptive Unit Modulation basiert, um koordinierte und feinabgestimmte menschliche Reaktionsbewegungen durch kontinuierliche Repräsentationen zu synthetisieren und dabei die Nachteile diskreter Vektorquantisierung zu umgehen.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong LiuWed, 11 Ma💻 cs

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Das Paper stellt EasyText vor, einen auf Diffusion Transformern basierenden Rahmen für die präzise und kontrollierbare multilinguale Textgenerierung, der durch neuartige Positionierungscodierungen und ein umfangreiches synthetisches Datenset übertrifft.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren SongWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Die Arbeit stellt SpikeSMOKE vor, einen energieeffizienten Ansatz für die monokulare 3D-Objektdetektion mittels Spiking Neural Networks, der durch einen neuartigen Cross-Scale Gating Coding-Mechanismus und leichte Restblöcke die Informationsverluste überwindet und gleichzeitig die Rechenkosten im Vergleich zu herkömmlichen Methoden drastisch senkt.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Die Arbeit stellt FieldLVLM vor, ein neuartiges Framework, das durch eine feldbewusste Sprachgenerierungsstrategie und eine datenkomprimierte Multimodal-Modellanpassung die Fähigkeit von Large Vision-Language Models verbessert, komplexe Strömungsfelddaten zu verstehen und wissenschaftliche Entdeckungen zu unterstützen.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs

Weiter →