cs papers | Gist.Science

EmbedTalk: Triplane-Free Talking Head Synthesis using Embedding-Driven Gaussian Deformation

EmbedTalk introduceert een nieuwe methode voor realistische spraakgestuurde hoofdsynthese die tri-planes vervangt door leerbare embedding-driven Gaussische vervorming, wat resulteert in superieure kwaliteit en lip-sync bij een compactere modelgrootte en snelheden van meer dan 60 FPS op mobiele GPU's.

Arpita Saggar, Jonathan C. Darling, Duygu Sarikaya, David C. Hogg2026-03-10💻 cs

Deep Research for Recommender Systems

Dit paper introduceert RecPilot, een multi-agent framework dat traditionele aanbevelingslijsten vervangt door proactieve, diepgaande onderzoeksrapporten om de gebruikerservaring te verbeteren door de last van exploratie en synthese van het systeem te laten overnemen in plaats van van de gebruiker.

Kesha Ou, Chenghao Wu, Xiaolei Wang, Bowen Zheng, Wayne Xin Zhao, Weitao Li, Long Zhang, Sheng Chen, Ji-Rong Wen2026-03-10💻 cs

From Logs to Agents: Reconstructing High-Level Creative Workflows from Low-Level Raw System Traces

Dit paper introduceert een methode om ruwe systeemlogs van creatieve hulpmiddelen te vertalen naar gestructureerde workflows van hoog niveau, wat essentieel is voor de ontwikkeling van procesbewuste agenten die gebruikers beter kunnen begrijpen en ondersteunen.

Tae Hee Jo, Kyung Hoon Hyun2026-03-10💻 cs

Beyond Semantic Similarity: Open Challenges for Embedding-Based Creative Process Analysis Across AI Design Tools

Dit artikel betoogt dat bestaande op embedding gebaseerde methoden voor het analyseren van creatieve processen in AI-designtools ontoereikend zijn omdat ze subtiele creatieve verschuivingen missen, en schetst drie uitdagingen voor de ontwikkeling van contextbewuste, domeinonafhankelijke analysemethoden.

Seung Won Lee, Semin Jin, Kyung Hoon Hyun2026-03-10💻 cs

Looking Into the Water by Unsupervised Learning of the Surface Shape

Deze paper introduceert een onbewaakte methode met twee neurale netwerken en SIREN-activaties om beeldvervormingen door wateroppervlakte-refractie te verwijderen en tegelijkertijd het oppervlak te reconstrueren, wat betere resultaten oplevert dan bestaande technieken.

Ori Lifschitz, Tali Treibitz, Dan Rosenbaum2026-03-10💻 cs

Overthinking Causes Hallucination: Tracing Confounder Propagation in Vision Language Models

Dit paper introduceert de 'Overthinking Score', een nieuwe methode die hallucinaties in Vision Language Models detecteert door de instabiliteit van hypotheses over decoderlagen te analyseren in plaats van alleen naar het eindresultaat te kijken.

Abin Shoby, Ta Duc Huy, Tuan Dung Nguyen, Minh Khoi Ho, Qi Chen, Anton van den Hengel, Phi Le Nguyen, Johan W. Verjans, Vu Minh Hieu Phan2026-03-10💻 cs

Performance Evaluation of Automated Multi-Service Deployment in Edge-Cloud Environments with the CODECO Toolkit

Dit artikel evalueert het open-source CODECO-toolkit en toont aan dat het de handmatige inzet van containerized microservices in Edge-Cloud-omgevingen aanzienlijk reduceert terwijl het prestaties en resourcegebruik concurrerend houdt ten opzichte van standaard Kubernetes-werkstromen.

Georgios Koukis, Ioannis Dermentzis, Vassilis Tsaoussidis, Jan Lenke, Fabian Wolk, Daniel Uceda, Guillermo Sanchez, Miguel A. Puentes, Javier Serrano, Panagiotis Karamolegkos, Rute C. Sofia2026-03-10💻 cs

GeoLoco: Leveraging 3D Geometric Priors from Visual Foundation Model for Robust RGB-Only Humanoid Locomotion

GeoLoco is een robuust, puur op RGB-gebaseerd locomotieframework voor humanoiden dat door het benutten van geometrische priors van een visuele foundation-model en een speciaal cross-attention-mechanisme, succesvolle zero-shot overdracht van simulatie naar de Unitree G1-robot op complexe terreinen mogelijk maakt zonder gebruik van actieve dieptesensoren.

Yufei Liu, Xieyuanli Chen, Hainan Pan, Chenghao Shi, Yanjie Chen, Kaihong Huang, Zhiwen Zeng, Huimin Lu2026-03-10💻 cs

Duala: Dual-Level Alignment of Subjects and Stimuli for Cross-Subject fMRI Decoding

Duala is een nieuw raamwerk voor cross-subject fMRI-decodering dat door middel van dubbel niveau-uitlijning van stimuli en subjecten, zelfs met beperkte data, een verbeterde semantische consistentie en subjectspecifieke aanpassing bereikt voor nauwkeurigere beeldreconstructie.

Shumeng Li, Jintao Guo, Jian Zhang, Yulin Zhou, Luyang Cao, Yinghuan Shi2026-03-10💻 cs

Task Breakpoint Generation using Origin-Centric Graph in Virtual Reality Recordings for Adaptive Playback

Dit paper presenteert een methode die gebruikmaakt van een origin-gecentreerd grafiekmodel op ruimtelijk-temporele scene-graafdata om automatisch taakonderbrekingen te genereren in VR-opnames, waardoor adaptieve weergave mogelijk wordt die beter aansluit bij gebruikersvaardigheid dan bestaande methoden.

Selin Choi, Dooyoung Kim, Taewook Ha, Seonji Kim, Woontack Woo2026-03-10💻 cs

Real-Time Glottis Detection Framework via Spatial-decoupled Feature Learning for Nasal Transnasal Intubation

Deze paper introduceert Mobile GlottisNet, een lichtgewicht framework voor real-time glottisdetectie tijdens nasotracheale intubatie dat door middel van ruimtelijk gedecoupeerde feature learning en dynamische aanpassing hoge prestaties bereikt op beperkte randapparatuur.

Jinyu Liu, Gaoyang Zhang, Yang Zhou, Ruoyi Hao, Yang Zhang, Hongliang Ren2026-03-10💻 cs

PoEW:Encryption as Consensus and Enabling Data Compression Services?

Dit paper introduceert Proof-of-Encryption-Work (PoEW), een nieuw consensusmechanisme dat de energie-intensieve zoektocht naar encryptiesleutels omzet in een nuttige dienst voor gegevenscompressie, waarbij een lange platte tekst wordt gereduceerd tot een korte sleutel.

Chong Guan2026-03-10💻 cs

Coordination Games on Multiplex Networks: Consensus, Convergence, and Stability of Opinion Dynamics

Dit artikel onderzoekt hoe meningsvorming in multilagenetwerken via gecoördineerde speltheorie en wisselwerking tussen lagen kan leiden tot consensus, convergentie en stabiliteit, zelfs wanneer individuele lagen dit niet alleen bereiken.

Ruey-An Shiu, Parinaz Naghizadeh2026-03-10💻 cs

PanoDP: Learning Collision-Free Navigation with Panoramic Depth and Differentiable Physics

PanoDP is een communicatievrij leerframework dat panoramische dieptewaarneming en differentieerbare fysica combineert om autonome agents te trainen voor veilige, botsingsvrije navigatie in complexe en dynamische omgevingen.

Hao Zhong, Pei Chi, Jiang Zhao, Shenghai Yuan, Xuyang Gao, Thien-Minh Nguyen, Lihua Xie2026-03-10💻 cs

Registered Attribute-Based Encryption with Publicly Verifiable Certified Deletion, Everlasting Security, and More

Deze paper introduceert de eerste Registered Attribute-Based Encryption-schemata die zowel gecertificeerde verwijdering als eeuwige beveiliging bieden, met zowel privé- als publiek verifieerbare opties die escrow-risico's elimineren en informatie-theoretische privacy garanderen.

Shayeef Murshid, Ramprasad Sarkar, Mriganka Mandal2026-03-10💻 cs

TempoFit: Plug-and-Play Layer-Wise Temporal KV Memory for Long-Horizon Vision-Language-Action Manipulation

TempoFit is een trainingsvrije, plug-and-play methode die bestaande Vision-Language-Action-modellen verbetert voor langdurige robotmanipulatie door het hergebruiken van bestaande temporale geheugensporen (KV-memorie) om context te behouden zonder de inferentie-latentie of het model zelf aan te passen.

Jun Sun, Boyu Yang, Jiahao Zhang, Ning Ma, Chencheng Wu, Siqing Zhang, Yiou Huang, Qiufeng Wang, Shan Liang, Yaran Chen2026-03-10💻 cs

AtomicVLA: Unlocking the Potential of Atomic Skill Learning in Robots

Deze paper introduceert AtomicVLA, een unificerend kader voor robotplanning en -executie dat via een Skill-Guided Mixture-of-Experts (SG-MoE) schaalbare atomaire vaardigheden leert en dynamisch combineert, waardoor robuustere prestaties worden bereikt bij langdurige taken en voortdurend leren in vergelijking met bestaande VLA-modellen.

Likui Zhang, Tao Tang, Zhihao Zhan, Xiuwei Chen, Zisheng Chen, Jianhua Han, Jiangtong Zhu, Pei Xu, Hang Xu, Hefeng Wu, Liang Lin, Xiaodan Liang2026-03-10💻 cs

Multi-Agent Off-World Exploration for Sparse Evidence Discovery via Gaussian Belief Mapping and Dual-Domain Coverage

Dit artikel presenteert een raamwerk voor multi-agent off-world exploratie dat gebruikmaakt van Gaussische-bewijsmapping en dubbel-domein dekking om efficiënt en veilig zeldzame bewijsstukken te vinden in gevaarlijke omgevingen met beperkte communicatie, waarbij het beter presteert dan bestaande methoden door AOI-bias te verminderen en risico's actief te beheren.

Zhuoran Qiao, Tianxin Hu, Thien-Minh Nguyen, Shenghai Yuan2026-03-10💻 cs

GLASS: Graph and Vision-Language Assisted Semantic Shape Correspondence

Het paper introduceert GLASS, een nieuw raamwerk dat graftheorie en visueel-taalmodellen combineert om zonder handmatige supervisie nauwkeurige, semantisch consistente 3D-vormcorrespondenties te leren, zelfs onder complexe niet-isometrische vervormingen en tussen verschillende klassen.

Qinfeng Xiao, Guofeng Mei, Qilong Liu, Chenyuan Yi, Fabio Poiesi, Jian Zhang, Bo Yang, Yick Kit-lun2026-03-10💻 cs

Scaling Test-Time Robustness of Vision-Language Models via Self-Critical Inference Framework

Dit paper introduceert het Self-Critical Inference-framework en de Dynamic Robustness Benchmark om de taalbias en -gevoeligheid van Vision-Language-modellen te verminderen door middel van meervoudige counterfactuele redenering en model-specifieke evaluatie.

Kaihua Tang, Jiaxin Qi, Jinli Ou, Yuhua Zheng, Jianqiang Huang2026-03-10💻 cs

← Vorige Volgende →