cs.CV papers | Gist.Science

Image Captioning via Compact Bidirectional Architecture

Dit artikel introduceert een compact bidirectioneel Transformer-model voor beeldbeschrijving dat door het koppelen van links-naar-rechts en rechts-naar-links stromen in één parallelle architectuur, context uit beide richtingen benut en nieuwe state-of-the-art resultaten bereikt op het MSCOCO-benchmark.

Zijie Song, Yuanen Zhou, Zhenzhen Hu, Daqing Liu, Huixia Ben, Richang Hong, Meng WangWed, 11 Ma💬 cs.CL

PnLCalib: Sports Field Registration via Points and Lines Optimization

Dit artikel introduceert PnLCalib, een op optimalisatie gebaseerde kalibratiemethode voor sportvelden die gebruikmaakt van een 3D-soccerfield-model en lijndetectie om nauwkeurigere camera-calibratie te bereiken in broadcast-sportvideo's dan bestaande zoekmethoden.

Marc Gutiérrez-Pérez, Antonio AgudoWed, 11 Ma🤖 cs.AI

TIMotion: Temporal and Interactive Framework for Efficient Human-Human Motion Generation

TIMotion is een efficiënt en effectief framework voor het genereren van mens-mens bewegingen dat via causale interactie-injectie, rollen-evoluerende scanning en lokaal patroonversterking de beperkingen van bestaande methoden overwint om superieure resultaten te behalen.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Ke Fan, Jiafu Wu, Zhucun Xue, Yong LiuWed, 11 Ma💻 cs

Robust Training of Neural Networks at Arbitrary Precision and Sparsity

Deze paper introduceert een unificerend raamwerk dat kwantisatie en verduidelijking als additief ruis modelleert en een afgeleid denoising-dekwantisatietransform toepast om stabiele training van neurale netwerken op willekeurige precisie- en sparsiteitsniveaus mogelijk te maken, waardoor state-of-the-art resultaten worden behaald in ultra-lage precisie-regimes zoals A1W1.

Chengxi Ye, Grace Chu, Yanfeng Liu, Yichi Zhang, Lukasz Lew, Li Zhang, Mark Sandler, Andrew HowardWed, 11 Ma🤖 cs.AI

DRUPI: Dataset Reduction Using Privileged Information

Dit paper introduceert DCPI, een methode voor datasetcondensatie die de prestaties verbetert door naast de gereduceerde dataset ook 'geprivilegieerde informatie' te synthetiseren die als aanvullende supervisie dient tijdens het trainen van modellen.

Shaobo Wang, Youxin Jiang, Tianle Niu, Yantai Yang, Ruiji Zhang, Shuhao Hu, Shuaiyu Zhang, Chenghao Sun, Weiya Li, Conghui He, Xuming Hu, Linfeng ZhangWed, 11 Ma🤖 cs.AI

Unsupervised Representation Learning from Sparse Transformation Analysis

Deze paper introduceert een onbeheerde methode voor representatieleren die sequentiegegevens analyseert door latente transformaties te ontleden in een combinatie van actieve, sparsere rotatie- en potentiaalvelden, wat leidt tot nieuwe ontkoppelde representaties met state-of-the-art prestaties in waarschijnlijkheid en equivariantie.

Yue Song, Thomas Anderson Keller, Yisong Yue, Pietro Perona, Max WellingWed, 11 Ma🤖 cs.LG

Image Compression Using Novel View Synthesis Priors

Deze paper presenteert een nieuwe beeldcompressietechniek voor onderwaterrobots die gebruikmaakt van gesynthetiseerde nieuwe weergaven en gradiëntafstijging om de beperkte bandbreedte van akoestische communicatie te overwinnen, wat resulteert in superieure compressie en beeldkwaliteit.

Luyuan Peng, Mandar Chitre, Hari Vishnu, Yuen Min Too, Bharath Kalyan, Rajat Mishra, Soo Pieng TanWed, 11 Ma⚡ eess

Active Prompt Learning with Vision-Language Model Priors

Dit artikel introduceert een budget-efficiënt actief prompt-learningkader dat gebruikmaakt van class-geleide clustering en adaptieve drempels op basis van Vision-Language Model-priors om met minder gelabelde data een hogere nauwkeurigheid te bereiken dan bestaande methoden.

Hoyoung Kim, Seokhee Jin, Changhwan Sung, Jaechang Kim, Jungseul OkWed, 11 Ma💻 cs

ARSGaussian: 3D Gaussian Splatting with LiDAR for Aerial Remote Sensing Novel View Synthesis

Dit paper introduceert ARSGaussian, een innovatieve methode voor het synthetiseren van nieuwe beelden uit luchtfoto's die LiDAR-puntenwolken en aangepaste geometrische beperkingen combineert met 3D Gaussian Splatting om problemen zoals zwevende objecten en geometrische onnauwkeurigheden op te lossen, terwijl tegelijkertijd het nieuwe AIR-LONGYAN-dataset wordt vrijgegeven.

Yiling Yao, Bing Zhang, Wenjuan Zhang, Lianru Gao, Dailiang Peng, Bocheng Li, Yaning Wang, Bowen WangWed, 11 Ma💻 cs

CuriousBot: Interactive Mobile Exploration via Actionable 3D Relational Object Graph

Dit paper introduceert CuriousBot, een systeem dat gebruikmaakt van een 3D-relatieobjectgrafiek om mobiele robots in staat te stellen hun omgeving actief te verkennen door interactie, waarmee het de beperkingen van bestaande methoden die zich voornamelijk op waarneming richten, overtreft.

Yixuan Wang, Leonor Fermoselle, Tarik Kelestemur, Jiuguang Wang, Yunzhu LiWed, 11 Ma🤖 cs.LG

Unveiling the Potential of iMarkers: Invisible Fiducial Markers for Advanced Robotics

Dit paper introduceert iMarkers, onzichtbare fiduciële markers die uitsluitend door robots en AR-apparaten kunnen worden gedetecteerd, waardoor ze een esthetisch onopvallende oplossing bieden voor navigatie en objectherkenning in diverse robotica-scenario's.

Ali Tourani, Deniz Isinsu Avsar, Hriday Bavle, Jose Luis Sanchez-Lopez, Jan Lagerwall, Holger VoosWed, 11 Ma💻 cs

A Survey on Wi-Fi Sensing Generalizability: Taxonomy, Techniques, Datasets, and Future Research Prospects

Dit survey biedt een uitgebreide overzicht van meer dan 200 publicaties over de generaliseerbaarheid van Wi-Fi-sensoren, waarbij het een gestructureerde taxonomie presenteert van technieken, datasets en toekomstige onderzoeksrichtingen om de robuustheid van deze systemen in verschillende omgevingen te verbeteren.

Fei Wang, Tingting Zhang, Wei Xi, Han Ding, Ge Wang, Di Zhang, Yuanhao Cui, Fan Liu, Jinsong Han, Jie Xu, Tony Xiao HanWed, 11 Ma💻 cs

Recognition-Synergistic Scene Text Editing

Dit paper introduceert RS-STE, een nieuw model dat tekstherkenning en tekstbewerking naadloos integreert in een enkel kader om complexe scenario's te verbeteren en state-of-the-art resultaten te behalen op synthetische en real-world benchmarks.

Zhengyao Fang, Pengyuan Lyu, Jingjing Wu, Chengquan Zhang, Jun Yu, Guangming Lu, Wenjie PeiWed, 11 Ma💻 cs

Semi-Supervised Biomedical Image Segmentation via Diffusion Models and Teacher-Student Co-Training

Deze paper introduceert een nieuw semi-supervised teacher-student framework voor biomedische beeldsegmentatie dat gebruikmaakt van diffusion modellen om hoogwaardige pseudo-labels te genereren en zo de prestaties aanzienlijk verbetert in scenario's met beperkt gelabelde data.

Luca Ciampi, Gabriele Lagani, Giuseppe Amato, Fabrizio FalchiWed, 11 Ma💻 cs

Zooming In on Fakes: A Novel Dataset for Localized AI-Generated Image Detection with Forgery Amplification Approach

Deze paper introduceert BR-Gen, een groot dataset van lokaal vervalste afbeeldingen met diverse scene-annotaties, en NFA-ViT, een nieuw model dat gebruikmaakt van ruisgeleide vervalsingsversterking om subtiele AI-gemaakte manipulaties in beelden effectiever te detecteren.

Lvpan Cai, Haowei Wang, Jiayi Ji, Yanshu Zhoumen, Shen Chen, Taiping Yao, Xiaoshuai SunWed, 11 Ma💻 cs

M4-SAR: A Multi-Resolution, Multi-Polarization, Multi-Scene, Multi-Source Dataset and Benchmark for optical-SAR Object Detection

Dit paper introduceert M4-SAR, een uitgebreide dataset en benchmark voor objectdetectie door middel van fusie van optische en SAR-beelden, die de prestaties aanzienlijk verbetert in complexe omgevingen vergeleken met single-source detectie.

Chao Wang, Wei Lu, Xiang Li, Jian Yang, Lei LuoWed, 11 Ma💻 cs

MARRS: Masked Autoregressive Unit-based Reaction Synthesis

Dit paper introduceert MARRS, een nieuw framework dat gebruikmaakt van continue representaties en een Unit-distinguished Motion VAE met Action-Conditioned Fusion en Adaptive Unit Modulation om gecoördineerde en fijnmazige menselijke reactiebewegingen te synthetiseren, waarmee de beperkingen van vector-quantisatie en de complexiteit van bestaande autoregressieve modellen worden overwonnen.

Yabiao Wang, Shuo Wang, Jiangning Zhang, Jiafu Wu, Qingdong He, Yong LiuWed, 11 Ma💻 cs

EasyText: Controllable Diffusion Transformer for Multilingual Text Rendering

Dit paper introduceert EasyText, een bestuurbare Diffusion Transformer-architectuur die nauwkeurige multilinguale tekstweergave mogelijk maakt door middel van nieuwe positie-encoding-technieken en een groot synthetisch dataset.

Runnan Lu, Yuxuan Zhang, Jiaming Liu, Haofan Wang, Yiren SongWed, 11 Ma💻 cs

SpikeSMOKE: Spiking Neural Networks for Monocular 3D Object Detection with Cross-Scale Gated Coding

Dit paper introduceert SpikeSMOKE, een energiezuinige architectuur voor monokulaire 3D-objectdetectie die gebruikmaakt van spiking neurale netwerken en een nieuw Cross-Scale Gated Coding-mechanisme om de prestaties te verbeteren en het energieverbruik aanzienlijk te verlagen ten opzichte van bestaande methoden.

Xuemei Chen, Huamin Wang, Jing Peng, Hangchi Shen, Shukai Duan, Shiping Wen, Tingwen HuangWed, 11 Ma💻 cs

Improving Large Vision-Language Models' Understanding for Flow Field Data

Dit paper introduceert FieldLVLM, een nieuw raamwerk dat Large Vision-Language Models verbetert in het interpreteren van complexe stromingsvelddata door fysische kenmerken om te zetten in gestructureerde tekst en een data-compressiestrategie toe te passen, waardoor deze modellen aanzienlijk beter presteren in wetenschappelijke toepassingen.

Xiaomei Zhang, Hanyu Zheng, Xiangyu Zhu, Jinghuan Wei, Junhong Zou, Zhen Lei, Zhaoxiang ZhangWed, 11 Ma💻 cs