cs papers | Gist.Science

VirtueBench: Evaluating Trustworthiness under Uncertainty in Long Video Understanding

Dit paper introduceert VirtueBench, een benchmark die de betrouwbaarheid van Vision-Language-modellen onder onzekerheid evalueert door te testen of ze eerlijk kunnen weigeren te antwoorden wanneer essentiële frames ontbreken, in plaats van onbetrouwbare gokkern te maken die de huidige evaluatiemethoden vertekenen.

Xueqing Yu, Bohan Li, Yan Li, Zhenheng Yang2026-03-10💻 cs

Physics-Guided VLM Priors for All-Cloud Removal

Deze paper introduceert PhyVLM-CR, een nieuwe methode die semantische priors van een Vision-Language Model combineert met fysische restauratie om een uniforme en nauwkeurige verwijdering van zowel dunne als dikke wolken op te leveren zonder expliciete cloudtype-classificatie.

Liying Xu, Huifang Li, Huanfeng Shen2026-03-10💻 cs

Retinex Meets Language: A Physics-Semantics-Guided Underwater Image Enhancement Network

Deze paper introduceert PSG-UIENet, een netwerk dat Retinex-fysica en taalkundige richtlijnen combineert om onderwaterbeelden te verbeteren, en introduceert hiervoor een nieuw multimodaal dataset en een semantische consistentieloss.

Shixuan Xu, Yabo Liu, Junyu Dong, Xinghui Dong2026-03-10💻 cs

Aligning What EEG Can See: Structural Representations for Brain-Vision Matching

Deze paper introduceert een nieuwe aanpak voor het decoderen van visuele informatie uit EEG-signalen door het concept van 'Neural Visibility' te gebruiken voor het selecteren van de juiste lagen in visuele modellen en een hiërarchisch fusieframework, wat leidt tot een aanzienlijke verbetering van de prestaties tot 84,6% op de THINGS-EEG-dataset.

Jingyi Tang, Shuai Jiang, Fei Su, Zhicheng Zhao2026-03-10💻 cs

Multi-TAP: Multi-criteria Target Adaptive Persona Modeling for Cross-Domain Recommendation

Het paper introduceert Multi-TAP, een nieuw raamwerk voor cross-domein aanbevelingen dat data-schaarste aanpakt door semantische persona's te modelleren om intra-domein heterogeniteit vast te leggen en bron-domein signalen selectief over te dragen op de doeldomeinen.

Daehee Kang, Yeon-Chang Lee2026-03-10💻 cs

mAVE: A Watermark for Joint Audio-Visual Generation Models

Dit paper introduceert mAVE, het eerste watermerksysteem dat audio en video cryptografisch aan elkaar koppelt in gezamenlijke generatieve modellen om de kwetsbaarheid voor 'swap-aanvallen' te elimineren en zo de reputatie van leveranciers te beschermen.

Luyang Si, Leyi Pan, Lijie Wen2026-03-10💻 cs

Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Deze studie introduceert een multidimensionaal evaluatiekader om de redeneercapaciteiten van kleine taalmodellen (SLM's) voor softwarearchitectuur te benchmarken, waarbij wordt vastgesteld dat modellen boven de 3 miljard parameters robuuste zero-shot prestaties leveren, terwijl sub-2B-modellen het meeste vooruitgang boeken door fine-tuning en few-shot prompting een effectieve kalibratiemethode blijkt voor specifieke middengrote modellen.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

Facial Expression Generation Aligned with Human Preference for Natural Dyadic Interaction

Deze paper introduceert een methode voor het genereren van gezichtsuitdrukkingen die zijn afgestemd op menselijke voorkeuren voor natuurlijke interactie, door menselijke feedback te integreren in een gesloten feedbacklus die een visueel-taal-actie model combineert met versterkende leerstrategieën.

Xu Chen, Rui Gao, Xinjie Zhang, Haoyu Zhang, Che Sun, Zhi Gao, Yuwei Wu, Yunde Jia2026-03-10💻 cs

Randomise Alone, Reach as a Team

Dit artikel onderzoekt concurrente graafspellen met gedistribueerde randomisatie, waarbij het aantoont dat geheugenloze strategieën volstaan voor drempelproblemen, de complexiteit van deze problemen analyseert, een nieuwe logica (IRATL) introduceert en een solver implementeert.

Léonard Brice, Thomas A. Henzinger, Alipasha Montaseri, Ali Shafiee, K. S. Thejaswini2026-03-10💻 cs

ACLM: ADMM-Based Distributed Model Predictive Control for Collaborative Loco-Manipulation

Deze studie introduceert ACLM, een op ADMM gebaseerde, gedistribueerde modelpredictieve regeling die legrobots in staat stelt om zware ladingen efficiënt en schaalbaar te vervoeren in complexe omgevingen door het globale optimalisatieprobleem op te splitsen in parallelle subproblemen met behoud van dynamische koppelingen.

Ziyi Zhou, Pengyuan Shu, Ruize Cao, Yuntian Zhao, Ye Zhao2026-03-10💻 cs

Towards Scalable Probabilistic Human Motion Prediction with Gaussian Processes for Safe Human-Robot Collaboration

Deze paper introduceert een schaalbaar, probabilistisch model op basis van Gaussische processen voor het voorspellen van menselijke bewegingen dat, ondanks een beperkt aantal parameters, nauwkeurige voorspellingen combineert met goed gekalibreerde onzekerheidsschattingen voor veilige mens-robotcollaboratie.

Jinger Chong, Xiaotong Zhang, Kamal Youcef-Toumi2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Het artikel NuNext introduceert een nieuwe methode voor nucleaire detectie in histopathologie die het probleem herschrijft als next-point detectie met een multimodaal groot taalmodel, gebruikmakend van twee trainingsfasen met ruimtelijke zachte supervisie en versterkingsleer om de prestaties op negen benchmarks aanzienlijk te verbeteren.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Dit onderzoek onderzoekt of grote taalmodellen (LLMs) onder strikte Unity-engine-structuurbeperkingen speelbare spelpatronen kunnen genereren, en concludeert dat hoewel menselijke tussenliggende representaties helpen, structurele 'grounding'-fouten de huidige schaalbaarheid van deze creatieve synthese beperken.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

AutoUE: Automated Generation of 3D Games in Unreal Engine via Multi-Agent Systems

Dit paper introduceert AutoUE, een multi-agent systeem dat geautomatiseerd 3D-spellen genereert in Unreal Engine door middel van een geïntegreerde aanpak voor asset-retrieval, scene-generatie, code-synthese met documentatie-ondersteuning en geautomatiseerd speltesten.

Lei Yin, Wentao Cheng, Zhida Qin, Tianyu Huang, Yidong Li, Gangyi Ding2026-03-10💻 cs

Efficient Personalized Reranking with Semi-Autoregressive Generation and Online Knowledge Distillation

Dit paper introduceert het PSAD-framework, dat een semi-autoregressieve generator en online kennisdistillatie combineert met een gebruikersprofielnetwerk om de latente en prestaties van gepersonaliseerde herordening in aanbevelingssystemen te verbeteren.

Kai Cheng, Hao Wang, Wei Guo, Weiwen Liu, Yong Liu, Yawen Li, Enhong Chen2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

De studie ConservationBench onthult dat Vision Language Models systematisch falen in het redeneren over fysieke transformaties en het behoud van eigenschappen, omdat hun prestaties dicht bij het toeval blijven en zelfs verslechteren wanneer visuele informatie wordt toegevoegd ondanks sterke tekstuele vooroordelen.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs

Learning From Failures: Efficient Reinforcement Learning Control with Episodic Memory

Dit paper introduceert Failure Episodic Memory Alert (FEMA), een techniek die door het opslaan en hergebruiken van korte faalervaringen in een episodisch geheugen de sample-efficiëntie van reinforcement learning voor robots aanzienlijk verbetert door herhaaldelijke instabiele toestanden te voorkomen.

Chenyang Miao2026-03-10💻 cs

Efficient Chest X-ray Representation Learning via Semantic-Partitioned Contrastive Learning

Dit paper introduceert S-PCL, een efficiënt zelftoezichtend leerframework voor borstfoto's dat door semantische partitie van patch-tokens zonder handmatige augmentaties of decoders een gestroomlijnde architectuur biedt met superieure prestaties en het laagste rekenverbruik.

Wangyu Feng, Shawn Young, Lijian Xu2026-03-10💻 cs

aCAPTCHA: Verifying That an Entity Is a Capable Agent via Asymmetric Hardness

Dit artikel introduceert aCAPTCHA, een nieuw beveiligingsprotocol dat gebruikmaakt van tijdsgebonden asymmetrische moeilijkheid om autonome AI-agenten, menselijke gebruikers en scripts van elkaar te onderscheiden via een verificatieprobleem voor agentic capaciteiten.

Zuyao Xu, Xiang Li, Fubin Wu, Yuqi Qiu, Lu Sun, FaSheng Miao2026-03-10💻 cs

TIQA: Human-Aligned Text Quality Assessment in Generated Images

Dit paper introduceert TIQA, een nieuwe taak en dataset voor menselijk afgestemde tekstkwaliteitsbeoordeling in gegenereerde afbeeldingen, en presenteert ANTIQA, een lichtgewicht methode die de correlatie met menselijke beoordelingen significant verbetert ten opzichte van bestaande OCR- en VLM-basismethoden.

Kirill Koltsov, Aleksandr Gushchin, Dmitriy Vatolin, Anastasia Antsiferova2026-03-10💻 cs

← Vorige Volgende →