Exploring the Reasoning Depth of Small Language Models in Software Architecture: A Multidimensional Evaluation Framework Towards Software Engineering 2.0

Deze studie introduceert een multidimensionaal evaluatiekader om de redeneercapaciteiten van kleine taalmodellen (SLM's) voor softwarearchitectuur te benchmarken, waarbij wordt vastgesteld dat modellen boven de 3 miljard parameters robuuste zero-shot prestaties leveren, terwijl sub-2B-modellen het meeste vooruitgang boeken door fine-tuning en few-shot prompting een effectieve kalibratiemethode blijkt voor specifieke middengrote modellen.

Ha Vo, Nhut Tran, Khang Vo, Phat T. Tran-Truong, Son Ha2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Het artikel NuNext introduceert een nieuwe methode voor nucleaire detectie in histopathologie die het probleem herschrijft als next-point detectie met een multimodaal groot taalmodel, gebruikmakend van twee trainingsfasen met ruimtelijke zachte supervisie en versterkingsleer om de prestaties op negen benchmarks aanzienlijk te verbeteren.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

Grounding Machine Creativity in Game Design Knowledge Representations: Empirical Probing of LLM-Based Executable Synthesis of Goal Playable Patterns under Structural Constraints

Dit onderzoek onderzoekt of grote taalmodellen (LLMs) onder strikte Unity-engine-structuurbeperkingen speelbare spelpatronen kunnen genereren, en concludeert dat hoewel menselijke tussenliggende representaties helpen, structurele 'grounding'-fouten de huidige schaalbaarheid van deze creatieve synthese beperken.

Hugh Xuechen Liu, Kıvanç Tatar2026-03-10💻 cs

Vision Language Models Cannot Reason About Physical Transformation

De studie ConservationBench onthult dat Vision Language Models systematisch falen in het redeneren over fysieke transformaties en het behoud van eigenschappen, omdat hun prestaties dicht bij het toeval blijven en zelfs verslechteren wanneer visuele informatie wordt toegevoegd ondanks sterke tekstuele vooroordelen.

Dezhi Luo, Yijiang Li, Maijunxian Wang, Tianwei Zhao, Bingyang Wang, Siheng Wang, Pinyuan Feng, Pooyan Rahmanzadehgervi, Ziqiao Ma, Hokin Deng2026-03-10💻 cs