cs.CV papers | Gist.Science

TIDE: Text-Informed Dynamic Extrapolation with Step-Aware Temperature Control for Diffusion Transformers

TIDE is een trainingsvrije methode die Diffusion Transformers in staat stelt om afbeeldingen van willekeurige resoluties en aspectverhoudingen te genereren zonder extra samplekosten, door een tekstankeringsmechanisme en een dynamische temperatuurregeling te gebruiken om structurele degradatie en artefacten te voorkomen.

Yihua Liu, Fanjiang Ye, Bowen Lin, Rongyu Fang, Chengming ZhangWed, 11 Ma💻 cs

Using Vision Language Foundation Models to Generate Plant Simulation Configurations via In-Context Learning

Dit paper introduceert een synthetische benchmark die aantoont dat Vision Language Foundation-modellen, zoals Gemma 3 en Qwen3-VL, via in-context learning dronebeelden kunnen vertalen naar JSON-configuraties voor plantensimulaties, waarmee een schaalbaar raamwerk wordt geboden voor digitale tweelingen in de landbouw, hoewel de modellen nog steeds vatbaar zijn voor contextuele bias en afhankelijkheid van datasetgemiddelden.

Heesup Yun, Isaac Kazuo Uyehara, Earl Ranario, Lars Lundqvist, Christine H. Diepenbrock, Brian N. Bailey, J. Mason EarlesWed, 11 Ma🤖 cs.AI

PathoScribe: Transforming Pathology Data into a Living Library with a Unified LLM-Driven Framework for Semantic Retrieval and Clinical Integration

Het artikel presenteert PathoScribe, een geïntegreerd framework dat op grote schaal digitale pathologierapporten omzet in een interactieve, redenerende kennisbron die artsen in staat stelt om via natuurlijke taal gevallen te doorzoeken, onderzoeksgroepen te bouwen en klinische vragen te beantwoorden, wat leidt tot een aanzienlijke tijdsbesparing en verbeterde patiëntenzorg.

Abdul Rehman Akbar, Samuel Wales-McGrath, Alejadro Levya, Lina Gokhale, Rajendra Singh, Wei Chen, Anil Parwani, Muhammad Khalid Khan NiaziWed, 11 Ma🤖 cs.AI

BiCLIP: Domain Canonicalization via Structured Geometric Transformation

Dit paper introduceert BiCLIP, een eenvoudig framework dat door het toepassen van een gestructureerde geometrische transformatie op multimodale kenmerken, gebruikmakend van een klein aantal ankers, state-of-the-art prestaties bereikt bij few-shot classificatie in gespecialiseerde domeinen.

Pranav Mantini, Shishir K. ShahWed, 11 Ma🤖 cs.AI

Can You Hear, Localize, and Segment Continually? An Exemplar-Free Continual Learning Benchmark for Audio-Visual Segmentation

Deze paper introduceert het eerste exemplaarvrije benchmark voor voortdurend leren in audio-visuele segmentatie en stelt ATLAS voor, een nieuwe methode die gebruikmaakt van audio-gestuurde pre-fusie en Low-Rank Anchoring om catastrofisch vergeten te voorkomen in dynamische omgevingen.

Siddeshwar Raghavan, Gautham Vinod, Bruce Coburn, Fengqing ZhuWed, 11 Ma⚡ eess

SVG-EAR: Parameter-Free Linear Compensation for Sparse Video Generation via Error-aware Routing

Het artikel introduceert SVG-EAR, een parameterloze methode die de rekenefficiëntie van videogeneratie met Diffusion Transformers verbetert door een foutbewuste routering te gebruiken om verwaarloosde attention-blokken nauwkeurig te compenseren zonder extra training.

Xuanyi Zhou, Qiuyang Mang, Shuo Yang, Haocheng Xi, Jintao Zhang, Huanzhi Mao, Joseph E. Gonzalez, Kurt Keutzer, Ion Stoica, Alvin CheungWed, 11 Ma💻 cs

SurgCalib: Gaussian Splatting-Based Hand-Eye Calibration for Robot-Assisted Minimally Invasive Surgery

Dit paper introduceert SurgCalib, een markerloos hand-oog kalibratiesysteem voor de da Vinci-robot dat gebruikmaakt van Gaussische splatting en een differentieerbare renderingpiplijn om nauwkeurige kalibratie te bereiken zonder sterielheidsprotocollen te schenden.

Zijian Wu, Shuojue Yang, Yu Chung Lee, Eitan Prisman, Yueming Jin, Septimiu E. SalcudeanWed, 11 Ma💻 cs

SkipGS: Post-Densification Backward Skipping for Efficient 3DGS Training

SkipGS is een plug-and-play methode die de trainingstijd van 3D Gaussian Splatting met 23,1% verkort door tijdens de post-densificatiefase adaptief backpropagation over te slaan wanneer de verlieswaarde van een weergave stabiel is, zonder de reconstructiekwaliteit te beïnvloeden.

Jingxing Li, Yongjae Leeand, Deliang FanWed, 11 Ma💻 cs

Diffusion-Based Authentication of Copy Detection Patterns: A Multimodal Framework with Printer Signature Conditioning

Dit paper introduceert een diffusion-based authenticatieramenwerk dat gebruikmaakt van printerhandtekeningen en ControlNet om vervalsingen van Copy Detection Patterns (CDP's) effectief te onderscheiden, zelfs bij gebruik van hoogwaardige print- en scantechnologie.

Bolutife Atoki, Iuliia Tkachenko, Bertrand Kerautret, Carlos Crispim-JuniorWed, 11 Ma💻 cs

The Coupling Within: Flow Matching via Distilled Normalizing Flows

Dit paper introduceert Normalized Flow Matching (NFM), een methode die de quasi-bepaalde koppelingsstrategie van een voorgeïntegreerd autoregressief normaliserend stroommodel distilleert om een student-model te trainen dat zowel de prestaties van onafhankelijke en optimale transport-koppelingen overtreft als die van de leraar zelf verbetert.

David Berthelot, Tianrong Chen, Jiatao Gu, Marco Cuturi, Laurent Dinh, Bhavik Chandna, Michal Klein, Josh Susskind, Shuangfei ZhaiWed, 11 Ma🤖 cs.LG

An accurate flatness measure to estimate the generalization performance of CNN models

Deze paper introduceert een exacte en architectuurgetrouwe maatstaf voor de vlakheid van CNN-modellen, gebaseerd op een gesloten vorm voor de Hessiaanse trace, die een robuuste voorspelling biedt voor het generalisatievermogen en de ontwerpkeuzes van deze netwerken.

Rahman Taleghani, Maryam Mohammadi, Francesco MarchettiWed, 11 Ma🤖 cs.LG

WS-Net: Weak-Signal Representation Learning and Gated Abundance Reconstruction for Hyperspectral Unmixing via State-Space and Weak Signal Attention Fusion

Dit paper introduceert WS-Net, een diep leerframework dat state-space-modelling en een zwak-signaal-attentie-mechanisme combineert om de nauwkeurigheid van hyperspectrale ontbinding te verbeteren door zwakke signaalresponsen effectief te isoleren van dominante eindleden en ruis.

Zekun Long, Ali Zia, Guanyiman Fu, Vivien Rolland, Jun ZhouWed, 11 Ma🤖 cs.AI

Spectral-Structured Diffusion for Single-Image Rain Removal

Deze paper introduceert SpectralDiff, een spectrale gestructureerde diffusiemodel dat gericht is op het effectief verwijderen van regenstrepen uit afbeeldingen door gebruik te maken van spectrale verstoringen en een efficiënte full-product U-Net-architectuur.

Yucheng Xing, Xin WangWed, 11 Ma💻 cs

Intelligent Spatial Estimation for Fire Hazards in Engineering Sites: An Enhanced YOLOv8-Powered Proximity Analysis Framework

Deze studie presenteert een verbeterd YOLOv8-gebaseerd raamwerk dat brand- en rookdetectie combineert met afstandsberekening tot nabijgelegen objecten om een kwantitatieve risicoscore te genereren voor proactief brandveiligheidsbeheer op ingenieurslocaties.

Ammar K. AlMhdawi, Nonso Nnamoko, Alaa Mashan UbaidWed, 11 Ma💻 cs

GST-VLA: Structured Gaussian Spatial Tokens for 3D Depth-Aware Vision-Language-Action Models

Het paper introduceert GST-VLA, een 3D diepte-bewust Vision-Language-Action-model dat anisotrope 3D-Gaussische ruimtelijke tokens en gestructureerde redeneerprocessen gebruikt om de precisie en prestaties van robotacties aanzienlijk te verbeteren.

Md Selim Sarowar, Omer Tariq, Sungho KimWed, 11 Ma🤖 cs.AI

OmniEdit: A Training-free framework for Lip Synchronization and Audio-Visual Editing

Dit paper introduceert OmniEdit, een trainingsvrij framework dat lip-sync en audio-visuele bewerking mogelijk maakt door het FlowEdit-paradigma te hervormen, waardoor rekenkundige kosten en data-eisen worden vermeden.

Lixiang Lin, Siyuan Jin, Jinshan ZhangWed, 11 Ma💻 cs

Chain of Event-Centric Causal Thought for Physically Plausible Video Generation

Dit paper introduceert een nieuw raamwerk voor het genereren van fysiek plausibele video's door het gebruik van een keten van gebeurtenisgerichte causale redenering en transitiebewuste cross-modale prompting om fysieke fenomenen te modelleren als een opeenvolging van causaal verbonden en dynamisch evoluerende gebeurtenissen.

Zixuan Wang, Yixin Hu, Haolan Wang, Feng Chen, Yan Liu, Wen Li, Yinjie LeiWed, 11 Ma💻 cs

Reading, Not Thinking: Understanding and Bridging the Modality Gap When Text Becomes Pixels in Multimodal LLMs

Dit onderzoek analyseert de prestatieverschillen tussen tekst en afbeeldingen in multimodale taalmodellen, identificeert de oorzaken van deze 'modale kloof' en stelt een zelfdistillatiemethode voor die de nauwkeurigheid bij het lezen van tekst in afbeeldingen aanzienlijk verbetert zonder kennisverlies.

Kaiser Sun, Xiaochuang Yuan, Hongjun Liu, Chen Zhao, Cheng Zhang, Mark Dredze, Fan BaiWed, 11 Ma💬 cs.CL

MedKCO: Medical Vision-Language Pretraining via Knowledge-Driven Cognitive Orchestration

Het paper introduceert MedKCO, een methode voor medisch visueel-taalvoortraining die de representatiekwaliteit verbetert door een cognitief georkestreerde curriculumlearning aanpak te gebruiken die de volgorde van de trainingsdata en het contrastieve leerdoel dynamisch aanpast.

Chenran Zhang, Ruiqi Wu, Tao Zhou, Yi ZhouWed, 11 Ma💻 cs

Training-free Motion Factorization for Compositional Video Generation

Deze paper introduceert een trainingsvrij raamwerk voor compositievideo-generatie dat complexe beweging ontbindt in statische, rigide en niet-rigide categorieën via een 'planning-voor-generatie'-paradigma, waardoor diverse objecten met gecontroleerde bewegingen en uiterlijk kunnen worden gegenereerd zonder bestaande diffusion-modellen te hoeven hertrainen.

Zixuan Wang, Ziqin Zhou, Feng Chen, Duo Peng, Yixin Hu, Changsheng Li, Yinjie LeiWed, 11 Ma💻 cs

← Vorige Volgende →