cs.CV papers | Gist.Science

When Detectors Forget Forensics: Blocking Semantic Shortcuts for Generalizable AI-Generated Image Detection

Dit paper introduceert Geometric Semantic Decoupling (GSD), een parameterloze module die semantische shortcuts in VFM-gebaseerde detectoren elimineert om zo de generalisatievermogen voor het detecteren van AI-genereerde afbeeldingen en video's aanzienlijk te verbeteren.

Chao Shuai, Zhenguang Liu, Shaojing Fan, Bin Gong, Weichen Lian, Xiuli Bi, Zhongjie Ba, Kui RenWed, 11 Ma💻 cs

Towards Instance Segmentation with Polygon Detection Transformers

Deze paper introduceert Poly-DETR, een lichtgewicht transformer-model dat instantiesegmentatie omvormt tot regressie van polygonen via polaire representatie, waardoor het de afhankelijkheid van dichte pixelmaskers elimineert en aanzienlijk betere prestaties en lagere geheugenvraag bereikt dan bestaande methoden, vooral bij hoge resoluties en regelmatige objecten.

Jiacheng Sun, Jiaqi Lin, Wenlong Hu, Haoyang Li, Xinghong Zhou, Chenghai Mao, Yan Peng, Xiaomao LiWed, 11 Ma💻 cs

Multi-model approach for autonomous driving: A comprehensive study on traffic sign-, vehicle- and lane detection and behavioral cloning

Dit onderzoek presenteert een veelzijdige aanpak voor autonoom rijden die gebruikmaakt van diep learning en computer vision voor taken zoals verkeersbord- en voertuigdetectie, rijstrookherkenning en gedragskloon, met als doel de robuustheid en betrouwbaarheid van zelfrijdende systemen te verbeteren.

Kanishkha Jaisankar, Pranav M. Pawar, Diana Susane Joseph, Raja Muthalagu, Mithun MukherjeeWed, 11 Ma🤖 cs.AI

Multimodal Graph Representation Learning with Dynamic Information Pathways

Dit paper introduceert DiP, een nieuw raamwerk voor multimodaal graafrepresentationeel leren dat dynamische informatiepaden en modality-specifieke pseudo-nodes gebruikt om adaptieve, expressieve en efficiënte berichtoverdracht te realiseren, wat leidt tot superieure prestaties op diverse benchmarks.

Xiaobin Hong, Mingkai Lin, Xiaoli Wang, Chaoqun Wang, Wenzhong LiWed, 11 Ma💻 cs

Implicit Geometry Representations for Vision-and-Language Navigation from Web Videos

Deze paper introduceert een nieuw raamwerk voor visueel-taalnavigatie dat gebruikmaakt van webvideo's en impliciete geometrische representaties om agents te trainen in realistische omgevingen, wat leidt tot state-of-the-art prestaties en robuuste zero-shot navigatie.

Mingfei Han, Haihong Hao, Liang Ma, Kamila Zhumakhanova, Ekaterina Radionova, Jingyi Zhang, Xiaojun Chang, Xiaodan Liang, Ivan LaptevWed, 11 Ma💻 cs

ForgeDreamer: Industrial Text-to-3D Generation with Multi-Expert LoRA and Cross-View Hypergraph

ForgeDreamer is een nieuw raamwerk voor industriële tekst-naar-3D-generatie dat kennisinterferentie en geometrische onnauwkeurigheid oplost door een ensemble van multi-expert LoRA-modellen en een cross-view hypergraaf aan te bieden voor verbeterde semantische generalisatie en fabricage-precisie.

Junhao Cai, Deyu Zeng, Junhao Pang, Lini Li, Zongze Wu, Xiaopin ZhongWed, 11 Ma💻 cs

Speeding Up the Learning of 3D Gaussians with Much Shorter Gaussian Lists

Deze paper introduceert nieuwe trainingsstrategieën en verliesfuncties die de leer-efficiëntie van 3D Gaussian Splatting aanzienlijk verbeteren door de lijsten van Gaussians per pixel te verkorten, zonder in te leveren op de weergavekwaliteit.

Jiaqi Liu, Zhizhong HanWed, 11 Ma💻 cs

From Ideal to Real: Stable Video Object Removal under Imperfect Conditions

Het paper introduceert SVOR, een robuust framework dat door middel van drie kerninnovaties – MUSE, DA-Seg en een curriculum-tweestaps training – videoobjecten effectief verwijdert onder realistische, imperfecte omstandigheden zoals schaduwen en maskers met defecten, waardoor het de state-of-the-art prestaties verbetert.

Jiagao Hu, Yuxuan Chen, Fuhao Li, Zepeng Wang, Fei Wang, Daiguo Zhou, Jian LuanWed, 11 Ma💻 cs

Learning Convex Decomposition via Feature Fields

Dit artikel introduceert een nieuwe, feed-forward methode voor open-wereld convexe decompositie van 3D-vormen door het leren van continue feature-velden die via een zelftoezichtende, puur geometrische doelstelling worden geclusterd tot hoogwaardige convexe lichamen.

Yuezhi Yang, Qixing Huang, Mikaela Angelina Uy, Nicholas SharpWed, 11 Ma💻 cs

CogBlender: Towards Continuous Cognitive Intervention in Text-to-Image Generation

CogBlender is een nieuw raamwerk dat de cognitieve eigenschappen van gegenereerde afbeeldingen, zoals emotionele reactie en onthoudbaarheid, continu en multidimensionaal beïnvloedt door de verbinding tussen cognitieve ruimte en semantische manifold te benutten tijdens het text-naar-image generatieproces.

Shengqi Dang, Jiaying Lei, Yi He, Ziqing Qian, Nan CaoWed, 11 Ma💻 cs

Exploring Modality-Aware Fusion and Decoupled Temporal Propagation for Multi-Modal Object Tracking

Het paper introduceert MDTrack, een nieuw multimodaal objectvolgsysteem dat modale verschillen adresseert door modale fusion via een Mixture of Experts en ontkoppelde temporele propagatie met State Space Models, wat leidt tot state-of-the-art prestaties op vijf benchmarks.

Shilei Wang, Pujian Lai, Dong Gao, Jifeng Ning, Gong ChengWed, 11 Ma💻 cs

DenoiseSplat: Feed-Forward Gaussian Splatting for Noisy 3D Scene Reconstruction

DenoiseSplat is een feed-forward methode voor 3D Gaussian Splatting die robuuste 3D-scèneherconstructie mogelijk maakt uit ruisige multi-view beelden door te trainen op een groot schaalbaar benchmark met synthetische ruis, zonder gebruik te maken van 3D-ground truth.

Fuzhen Jiang, Zhuoran Li, Yinlin ZhangWed, 11 Ma🤖 cs.AI

See, Plan, Rewind: Progress-Aware Vision-Language-Action Models for Robust Robotic Manipulation

Dit paper introduceert See, Plan, Rewind (SPR), een vooruitgangsgevoelig vision-language-action-framework dat robuuste robotmanipulatie bereikt door taken te onderbreken in verifieerbare mijlpalen en automatisch terug te keren naar een herstelpunt bij fouten, wat resulteert in state-of-the-art prestaties en generalisatie op uitdagende benchmarks.

Tingjun Dai, Mingfei Han, Tingwen Du, Zhiheng Liu, Zhihui Li, Salman Khan, Jun Yu, Xiaojun ChangWed, 11 Ma💻 cs

IntroSVG: Learning from Rendering Feedback for Text-to-SVG Generation via an Introspective Generator-Critic Framework

IntroSVG is een nieuw kader dat de kwaliteit van tekst-naar-SVG-generatie verbetert door een introspectieve generator-critic-structuur te gebruiken die visuele feedback van het gerenderde resultaat integreert via een iteratief 'genereren-beoordelen-verfijnen'-proces.

Feiyu Wang, Jiayuan Yang, Zhiyuan Zhao, Da Zhang, Bingyu Li, Peng Liu, Junyu GaoWed, 11 Ma💻 cs

CLoE: Expert Consistency Learning for Missing Modality Segmentation

Het artikel introduceert CLoE, een consistentiegedreven raamwerk dat de segmentatieprestaties bij ontbrekende medische beeldmodaliteiten verbetert door experts op besluit- en regienniveau tot overeenstemming te brengen en modale betrouwbaarheid dynamisch te wegen.

Xinyu Tong, Meihua Zhou, Bowu Fan, Haitao LiWed, 11 Ma🤖 cs.AI

NLiPsCalib: An Efficient Calibration Framework for High-Fidelity 3D Reconstruction of Curved Visuotactile Sensors

NLiPsCalib is een efficiënt kalibratiekader dat gebruikmaakt van Near-Light Photometric Stereo en controllable lichtbronnen om de 3D-reconstructie van gebogen visuo-tactiele sensoren te verbeteren zonder dure of arbeidsintensieve procedures.

Xuhao Qin, Feiyu Zhao, Yatao Leng, Runze Hu, Chenxi XiaoWed, 11 Ma💻 cs

SpaceSense-Bench: A Large-Scale Multi-Modal Benchmark for Spacecraft Perception and Pose Estimation

Deze paper introduceert SpaceSense-Bench, een groot-schalig meer-modale benchmark met 136 satellietmodellen en nauwkeurige ground-truth annotaties gegenereerd in Unreal Engine 5, die dient om spacecraft-perceptie en pose-schatting te evalueren en aantoont dat het vergroten van de trainingsdiversiteit cruciaal is voor het verbeteren van prestaties op nieuwe doelen.

Aodi Wu, Jianhong Zuo, Zeyuan Zhao, Xubo Luo, Ruisuo Wang, Xue WanWed, 11 Ma🤖 cs.AI

OddGridBench: Exposing the Lack of Fine-Grained Visual Discrepancy Sensitivity in Multimodal Large Language Models

Dit paper introduceert OddGridBench, een nieuwe benchmark die aantoont dat multimodale grote taalmodellen tekortschieten in het detecteren van fijne visuele verschillen, en stelt OddGrid-GRPO voor, een versterkingsleerframework dat deze vaardigheid aanzienlijk verbetert.

Tengjin Weng, Wenhao Jiang, Jingyi Wang, Ming Li, Lin Ma, Zhong MingWed, 11 Ma💻 cs

Beyond Scaling: Assessing Strategic Reasoning and Rapid Decision-Making Capability of LLMs in Zero-sum Environments

Dit paper introduceert de STAR-benchmark, een multi-agent evaluatiekader dat het strategische redeneren en snelle besluitvorming van grote taalmodellen in nul-som omgevingen test, waarbij een significante kloof wordt blootgelegd tussen diep redeneren en effectieve uitvoering onder tijdsdruk.

Yang Li, Xing Chen, Yutao Liu, Gege Qi, Yanxian BI, Zizhe Wang, Yunjian Zhang, Yao ZhuWed, 11 Ma🤖 cs.AI

Predictive Spectral Calibration for Source-Free Test-Time Regression

Dit paper introduceert Predictive Spectral Calibration (PSC), een bronvrij framework dat bestaande subspace-alignment-methoden voor testtijd-adaptatie in beeldregressie uitbreidt door blokspectrale matching toe te passen, wat leidt tot consistente prestatieverbeteringen onder zware distributieveranderingen.

Nguyen Viet Tuan Kiet, Huynh Thanh Trung, Pham Huy HieuWed, 11 Ma💻 cs

← Vorige Volgende →