cs.MM papers | Gist.Science

On the Possible Detectability of Image-in-Image Steganography

Dit artikel toont aan dat beeld-in-beeld-steganografie, waarbij een afbeelding in een andere van dezelfde grootte wordt verborgen, kwetsbaar is voor detectie door middel van onafhankelijke componentenanalyse en een eenvoudige steganalysemethode gebaseerd op de eerste vier momenten van golfkleedcomponenten, wat leidt tot zeer hoge detectiepercentages.

Antoine Mallet (CRIStAL), Patrick Bas (CRIStAL)Fri, 13 Ma⚡ eess

Resurfacing Paralinguistic Awareness in Large Audio Language Models

Dit paper introduceert een paralinguïstisch-verbeterde fijne-tuningprotocol (PE-FT) voor grote audio-taalmodellen dat, door middel van gelaagde analyses en selectieve aanpassingen, de vaak verwaarloosde bewustwording van paralinguïstische aanwijzingen effectief herwint en zelfs presteert boven traditionele aanpakken.

Hao Yang, Minghan Wang, Tongtong Wu, Lizhen Qu, Ehsan Shareghi, Gholamreza HaffariFri, 13 Ma⚡ eess

Controllable Dance Generation with Style-Guided Motion Diffusion

Deze paper introduceert Style-Guided Motion Diffusion (SGMD), een Transformer-gebaseerd model dat muziekkenmerken combineert met stijlprompts en een ruimtetijdmaskeringmechanisme om realistische, stijlvol consistente en volledig controleerbare danssequenties te genereren.

Hongsong Wang, Ying Zhu, Xin Geng + 1 more2026-03-11⚡ eess

altiro3D: Scene representation from single image and novel view synthesis

Dit paper introduceert altiro3D, een gratis bibliotheek die vanuit één afbeelding of video realistische 3D-ervaringen en lichtveld-inhoud genereert door diepteanalyse, inpainting en een 'Fast'-projectie-algoritme te combineren voor het creëren van meervoudige gezichtspunten.

E. Canessa, L. Tenze2026-03-10💻 cs

InstructHumans: Editing Animated 3D Human Textures with Instructions

In dit artikel wordt InstructHumans gepresenteerd, een innovatief kader voor instructiegedreven tekstuurbewerking van 3D-animaties die gebruikmaakt van een aangepaste SDS-methode (SDS-E) om hoge kwaliteit en consistentie met het origineel te garanderen.

Jiayin Zhu, Linlin Yang, Angela Yao2026-03-06💻 cs

EasyAnimate: High-Performance Video Generation Framework with Hybrid Windows Attention and Reward Backpropagation

Dit artikel introduceert EasyAnimate, een hoogpresterend videogeneratiekader dat gebruikmaakt van Diffusion Transformers, hybride venster-attention en beloningsbackpropagatie om zowel de snelheid als de kwaliteit van videoproductie te verbeteren.

Jiaqi Xu, Kunzhe Huang, Xinyi Zou + 5 more2026-03-06💻 cs

ExposureEngine: Oriented Logo Detection and Sponsor Visibility Analytics in Sports Broadcasts

Dit paper introduceert ExposureEngine, een geautomatiseerd systeem dat gebruikmaakt van geroteerde binnenvlakken en een taalgestuurde agent voor nauwkeurige, schaalbare analyse van sponsorzichtbaarheid in sportuitzendingen, zoals geïllustreerd aan de hand van een dataset van Zweedse topvoetbalwedstrijden.

Mehdi Houshmand Sarkhoosh, Frøy Øye, Henrik Nestor Sørlie + 5 more2026-03-06💻 cs

When Denoising Becomes Unsigning: Theoretical and Empirical Analysis of Watermark Fragility Under Diffusion-Based Image Editing

Deze paper analyseert hoe diffusion-based beeldbewerking onbedoeld robuuste onzichtbare watermerken kan vernietigen door de payload te behandelen als ruis, en biedt hierbij een theoretisch bewijs, empirische validatie en richtlijnen voor toekomstige ontwerpen.

Fai Gu, Qiyu Tang, Te Wen, Emily Davis, Finn Carter2026-03-06🔒 cs.CR

DeformTrace: A Deformable State Space Model with Relay Tokens for Temporal Forgery Localization

Dit paper introduceert DeformTrace, een hybride model dat State Space Models verbetert met vervormbare dynamica en relay-tokens om de precisie, efficiëntie en robuustheid van tijdelijke vervalsingsdetectie in video en audio aanzienlijk te verhogen.

Xiaodong Zhu, Suting Wang, Yuanming Zheng + 5 more2026-03-06🤖 cs.AI

SarcasmMiner: A Dual-Track Post-Training Framework for Robust Audio-Visual Sarcasm Reasoning

SarcasmMiner is een versterkingsleringsframework voor post-training dat door middel van een dubbel-track distillatiestrategie en een generatieve beloningsmodel de robuustheid van audio-visuele sarcasme-herkenning verbetert door pragmatische incongruïteit op te lossen en hallucinaties te voorkomen.

Zhu Li, Yongjian Chen, Huiyuan Lai + 3 more2026-03-06💬 cs.CL

Learning to Generate Conditional Tri-plane for 3D-aware Expression Controllable Portrait Animation

In dit paper wordt Export3D voorgesteld, een methode voor één-op-een 3D-bewuste portretanimatie die gezichtsuitdrukkingen en cameraview controleert door een contrastief voortrainingsframework te gebruiken om een uitdrukkingsspecifieke tri-plane te genereren zonder ongewenste uitwisseling van uiterlijke kenmerken bij het overbrengen van uitdrukkingen tussen verschillende gezichten.

Taekyung Ki, Dongchan Min, Gyeongsu Chae2026-03-05🤖 cs.AI

CMI-RewardBench: Evaluating Music Reward Models with Compositional Multimodal Instruction

Dit artikel introduceert CMI-RewardBench, een uitgebreid ecosysteem met datasets en benchmarks voor het evalueren van beloningsmodellen voor muziekgeneratie onder compositional multimodal instruction, wat leidt tot nauwkeurige modellen die sterk correleren met menselijke beoordelingen en effectieve inferentie-schaling mogelijk maken.

Yinghao Ma, Haiwen Xia, Hewei Gao + 9 more2026-03-05🤖 cs.AI

Order Is Not Layout: Order-to-Space Bias in Image Generation

Dit onderzoek identificeert en kwantificeert de Order-to-Space Bias, een veelvoorkomende vertekening in moderne beeldgeneratiemodellen waarbij de volgorde van entiteiten in de tekst de ruimtelijke indeling onterecht bepaalt, en presenteert effectieve strategieën om dit probleem te verminderen zonder in te leveren op de generatiekwaliteit.

Yongkang Zhang, Zonglin Zhao, Yuechen Zhang + 3 more2026-03-05🤖 cs.AI

Crab $^{+}$ : A Scalable and Unified Audio-Visual Scene Understanding Model with Explicit Cooperation

Crab⁺ is een schaalbaar en verenigd audio-visueel taalkundig model dat negatieve overdracht bij multi-task leren effectief aanpakt door middel van het uitgebreide AV-UIE v2-dataset met expliciete redenering en Interaction-aware LoRA (I-LoRA) voor dynamische taakcoördinatie, waardoor het in bijna 88% van de taken superieure prestaties levert vergeleken met single-task baselines.

Dongnuan Cai, Henghui Du, Chang Zhou + 5 more2026-03-05🤖 cs.AI

← Vorige

cs.MM