cs papers | Gist.Science

HiconAgent: History Context-aware Policy Optimization for GUI Agents

HiconAgent is een nieuwe GUI-agent die met de History Context-aware Policy Optimization (HCPO) methode, bestaande uit Dynamische Context Sampling en Anker-gestuurde Historiecompressie, historische context efficiënter gebruikt dan bestaande modellen, wat leidt tot betere prestaties en aanzienlijke reducties in rekenkosten.

Xurui Zhou, Gongwei Chen, Yuquan Xie, Zaijing Li, Kaiwen Zhou, Shuai Wang, Shuo Yang, Zhuotao Tian, Rui Shao2026-03-10💻 cs

MAViD: A Multimodal Framework for Audio-Visual Dialogue Understanding and Generation

In dit paper wordt MAViD voorgesteld, een innovatief multimodaal raamwerk met een Conductor-Creator-architectuur dat geïntegreerde audio-visual dialogue-understanding en -generatie mogelijk maakt door autoregressieve en diffusiemodellen te combineren voor het creëren van levendige, contextueel samenhangende en langdurige interacties.

Youxin Pang, Jiajun Liu, Lingfeng Tan, Yong Zhang, Feng Gao, Xiang Deng, Zhuoliang Kang, Xiaoming Wei, Yebin Liu2026-03-10💻 cs

When Token Pruning is Worse than Random: Understanding Visual Token Information in VLLMs

Deze paper introduceert het concept van een "informatiehorizon" in Vision Large Language Models, waarbij visuele tokens in diepere lagen hun relevantie verliezen en willekeurige pruning in deze lagen de inferentie-efficiëntie aanzienlijk verbetert zonder de prestaties te schaden.

Yahong Wang, Juncheng Wu, Zhangkai Ni, Longzhen Yang, Yihang Liu, Chengmei Yang, Ying Wen, Lianghua He, Xianfeng Tang, Hui Liu, Yuyin Zhou2026-03-10💻 cs

IPPO Learns the Game, Not the Team: A Study on Generalization in Heterogeneous Agent Teams

Deze studie toont aan dat een standaard IPPO-basismodel in heterogene multi-agentomgevingen net zo goed generaliseert naar nieuwe teamgenoten als een complexere Rotating Policy Training-methode, wat suggereert dat de agents de onderliggende spelmechanismen en niet de specifieke teamgenootgedragingen hebben geleerd.

Ryan LeRoy, Jack Kolb2026-03-10💻 cs

Beyond Endpoints: Path-Centric Reasoning for Vectorized Off-Road Network Extraction

Deze paper introduceert MaGRoad, een padgerichte methode voor robuuste extractie van wegnetwerken in off-road omgevingen, en presenteert tegelijkertijd het WildRoad-dataset om de bestaande beperkingen van bestaande modellen op te lossen.

Wenfei Guan, Jilin Mei, Tong Shen, Xumin Wu, Shuo Wang, Chen Min, Yu Hu2026-03-10💻 cs

ReMeDI: Refined Memory for Disambiguation of Identities with SAM3 in Surgical Segmentation

Het paper introduceert ReMeDI-SAM3, een trainingsvrije uitbreiding van SAM3 die door middel van relevante geheugenfiltering, interpolatie en tijdsgebonden re-identificatie de nauwkeurigheid van chirurgische instrumentsegmentatie in endoscopie significant verbetert, zelfs bij frequente occlusies.

Valay Bundele, Mehran Hosseinzadeh, Hendrik P. A. Lensch2026-03-10💻 cs

It is not always greener on the other side: Greenery perception across demographics and personalities in multiple cities

Deze studie toont aan dat de discrepantie tussen objectieve metingen en subjectieve waarneming van stedelijke groenruimtes wereldwijd vergelijkbaar is en voornamelijk wordt beïnvloed door de woonlocatie en visuele factoren, terwijl demografische kenmerken en persoonlijkheid slechts een beperkte rol spelen.

Matias Quintana, Fangqi Liu, Jussi Torkko, Youlong Gu, Xiucheng Liang, Yujun Hou, Koichi Ito, Yihan Zhu, Mahmoud Abdelrahman, Tuuli Toivonen, Yi Lu, Filip Biljecki2026-03-10💻 cs

VOIC: Visible-Occluded Integrated Guidance for 3D Semantic Scene Completion

Dit paper introduceert VOIC, een nieuw dual-decoder framework dat camera-gebaseerde 3D semantische scène-completie verbetert door zichtbare en verduisterde gebieden expliciet te ontkoppelen, waardoor de interferentie tussen hoge en lage betrouwbaarheidsregio's wordt verminderd en state-of-the-art resultaten worden behaald op benchmarks zoals SemanticKITTI.

Zaidao Han, Risa Higashita, Jiang Liu2026-03-10💻 cs

Cost Trade-offs of Reasoning and Non-Reasoning Large Language Models in Text-to-SQL

Deze studie toont aan dat reasoning-modellen in Text-to-SQL-systemen op Google BigQuery 44,5% minder data verwerken en kosten-effectiever zijn dan niet-reasoning-modellen, terwijl snellere uitvoering niet noodzakelijk leidt tot lagere cloud-kosten door grote variatie in query-inefficiëntie.

Saurabh Deochake, Debajyoti Mukhopadhyay2026-03-10💻 cs

NashOpt -- A Python Library for Computing Generalized Nash Equilibria

NashOpt is een open-source Python-bibliotheek die het berekenen en ontwerpen van gegeneraliseerde Nash-evenwichten in niet-coöperatieve spellen met gedeelde constraints mogelijk maakt door gebruik te maken van KKT-voorwaarden, JAX voor automatische differentiatie en gemengd-integer lineaire programmering.

Alberto Bemporad2026-03-10💻 cs

Toward a Physical Theory of Intelligence

Dit artikel introduceert het Conservation-Congruent Encoding (CCE)-framework, een substraat-neutraal fysiek model dat intelligentie en bewustzijn beschrijft als processen waarbij open systemen door irreversibele overgangen en dissipatie informatie verwerken, waardoor een verenigde link wordt gelegd tussen thermodynamica, kwantummeting en de geometrie van de ruimtetijd.

Peter David Fagan2026-03-10💻 cs

DrivingGen: A Comprehensive Benchmark for Generative Video World Models in Autonomous Driving

Dit paper introduceert DrivingGen, het eerste uitgebreide benchmarkkader voor generatieve wereldmodellen in autonoom rijden, dat een diverse dataset en nieuwe meetmaten combineert om de prestaties van bestaande modellen op het gebied van visuele realisme, trajectplausibiliteit, temporele coherentie en controleerbaarheid te evalueren.

Yang Zhou, Hao Shao, Letian Wang, Zhuofan Zong, Hongsheng Li, Steven L. Waslander2026-03-10💻 cs

Machine Learning Guided Cooling System Optimization for Data Center

Dit paper presenteert een drie-traps, door fysica geleid machine learning-raamwerk dat, gebaseerd op operationele data van de Frontier-supercomputer, inefficiënties in het koelsysteem identificeert en aantoont dat tot 96% van de overbodige koelenergie veilig kan worden teruggewonnen door geoptimaliseerde instellingen.

Shrenik Jadhav, Zheng Liu2026-03-10💻 cs

Batch-of-Thought: Cross-Instance Learning for Enhanced LLM Reasoning

Dit paper introduceert Batch-of-Thought (BoT), een trainingsvrije methode die de redeneervermogens van grote taalmodellen verbetert door gerelateerde queries gezamenlijk te verwerken voor kruisinstanceleer, wat resulteert in hogere nauwkeurigheid, betere kalibratie en aanzienlijke kostenreductie.

Xuan Yang, Furong Jia, Roy Xie, Xiong Xi, Hengwei Bian, Jian Li, Monica Agrawal2026-03-10💻 cs

Route, Retrieve, Reflect, Repair: Self-Improving Agentic Framework for Visual Detection and Linguistic Reasoning in Medical Imaging

Deze paper introduceert R^4, een zelfverbeterend agentisch framework dat medische beeldanalyse verbetert door het werkproces te ontleden in vier gecoördineerde agenten (Router, Retriever, Reflector en Repairer), waardoor de betrouwbaarheid en ruimtelijke nauwkeurigheid van visueel-taalmodellen voor het genereren van rapporten en detectie van afwijkingen aanzienlijk stijgt zonder gradient-based fine-tuning.

Md. Faiyaz Abdullah Sayeedi, Rashedur Rahman, Siam Tahsin Bhuiyan, Sefatul Wasi, Ashraful Islam, Saadia Binte Alam, AKM Mahbubur Rahman2026-03-10💻 cs

The Algorithmic Gaze of Image Quality Assessment: An Audit and Trace Ethnography of the LAION-Aesthetics Predictor

Dit onderzoek onthult dat de LAION-Aesthetics Predictor, een veelgebruikt model voor het beoordelen van beeldkwaliteit, systematische vooroordelen vertoont die de westerse en mannelijke blik versterken door afbeeldingen met vrouwelijke of niet-westerse elementen te discrimineren, en pleit voor een verschuiving naar meer pluriforme evaluatiemethoden.

Jordan Taylor, William Agnew, Maarten Sap, Sarah E. Fox, Haiyi Zhu2026-03-10💻 cs

CaMeLs Can Use Computers Too: System-level Security for Computer Use Agents

Dit paper introduceert een veiligheidsarchitectuur voor Computer Use Agents die prompt-injectie-aanvallen voorkomt door een vertrouwd 'Single-Shot' planner te gebruiken om een volledig uitvoeringsgraf vooraf te genereren, terwijl aanvullende maatregelen nodig zijn om branch-steering-aanvallen te weren zonder de functionaliteit te offeren.

Hanna Foerster, Tom Blanchard, Kristina Nikolic, Ilia Shumailov, Cheng Zhang, Robert Mullins, Nicolas Papernot, Florian Tramèr, Yiren Zhao2026-03-10💻 cs

User Detection and Response Patterns of Sycophantic Behavior in Conversational AI

Dit onderzoek analyseert Reddit-discussies om te ontdekken hoe gebruikers sycophantisch gedrag in conversatie-AI detecteren en erop reageren, waarbij wordt geconcludeerd dat dergelijk gedrag niet altijd schadelijk is en voor kwetsbare groepen waardevol kan zijn als emotionele steun, wat pleit voor contextbewust AI-ontwerp in plaats van universele eliminatie.

Kazi Noshin, Syed Ishtiaque Ahmed, Sharifa Sultana2026-03-10💻 cs

BoxMind: Closed-loop AI strategy optimization for elite boxing validated in the 2024 Olympics

Dit paper introduceert BoxMind, een gesloten-lus AI-systeem dat ongestructureerde videodata omzet in strategische inzichten en tijdens de Olympische Spelen van 2024 de prestaties van het Chinese nationale boksteam heeft ondersteund bij het behalen van drie gouden en twee zilveren medailles.

Kaiwen Wang, Kaili Zheng, Rongrong Deng, Qingmin Fan, Milin Zhang, Zongrui Li, Xuesi Zhou, Bo Han, Liren Chen, Chenyi Guo, Ji Wu2026-03-10💻 cs

Multifaceted Scenario-Aware Hypergraph Learning for Next POI Recommendation

Dit paper introduceert MSAHG, een hypergraafleermethode die scenario-specifieke mobiliteitspatronen ontrafelt en conflicterende optimalisatiedoelen oplost om de prestaties van de volgende POI-aanbeveling in Location-Based Social Networks aanzienlijk te verbeteren.

Yuxi Lin, Yongkang Li, Jie Xing, Zipei Fan2026-03-10💻 cs

← Vorige Volgende →