Looking Back and Forth: Cross-Image Attention Calibration and Attentive Preference Learning for Multi-Image Hallucination Mitigation

Dit paper introduceert CAPL, een framework dat hallucinaties in multi-image taken van grote vision-language modellen aanpakt door cross-image attentie te kalibreren en voorkeurslering toe te passen om de interactie tussen afbeeldingen te verbeteren en de afhankelijkheid van tekstuele priors te verminderen.

Xiaochen Yang, Hao Fang, Jiawei Kong, Yaoxin Mao, Bin Chen, Shu-Tao Xia2026-03-10💻 cs

NuNext: Reframing Nucleus Detection as Next-Point Detection

Het artikel NuNext introduceert een nieuwe methode voor nucleaire detectie in histopathologie die het probleem herschrijft als next-point detectie met een multimodaal groot taalmodel, gebruikmakend van twee trainingsfasen met ruimtelijke zachte supervisie en versterkingsleer om de prestaties op negen benchmarks aanzienlijk te verbeteren.

Zhongyi Shui, Honglin Li, Xiaozhong Ji, Ye Zhang, Zijiang Yang, Chenglu Zhu, Yuxuan Sun, Kai Yao, Conghui He, Cheng Tan2026-03-10💻 cs

LiveWorld: Simulating Out-of-Sight Dynamics in Generative Video World Models

Dit paper introduceert LiveWorld, een nieuw framework dat bestaande generatieve videowereldmodellen verbetert door een persistent globale staat te modelleren die dynamiek blijft simuleren zelfs wanneer objecten buiten het gezichtsveld van de waarnemer zijn, waardoor een echt continu evoluerende wereld mogelijk wordt.

Zicheng Duan, Jiatong Xia, Zeyu Zhang, Wenbo Zhang, Gengze Zhou, Chenhui Gou, Yefei He, Feng Chen, Xinyu Zhang, Lingqiao Liu2026-03-10💻 cs