OnFly: Onboard Zero-Shot Aerial Vision-Language Navigation toward Safety and Efficiency

OnFly is een volledig aan boord draaiend, real-time framework voor zero-shot luchtbeweging op basis van visueel-taalnavigatie dat de besluitvorming stabiliseert en de veiligheid en efficiëntie verbetert door een gedeelde waarnemingsarchitectuur met twee agenten, een hybride geheugenmechanisme en een semantisch-geometrische verificateur.

Guiyong Zheng, Yueting Ban, Mingjie Zhang, Juepeng Zheng, Boyu Zhou2026-03-12💻 cs

A2^2-Edit: Precise Reference-Guided Image Editing of Arbitrary Objects and Ambiguous Masks

A2^2-Edit is een nieuw inpainting-framework dat, ondersteund door het UniEdit-500K-dataset en innovatieve technieken zoals de Mixture of Transformer-module en Mask Annealing Training Strategy, het mogelijk maakt om willekeurige objecten in afbeeldingen nauwkeurig te vervangen met een referentieobject, zelfs bij gebruik van ruwe maskers.

Huayu Zheng, Guangzhao Li, Baixuan Zhao, Siqi Luo, Hantao Jiang, Guangtao Zhai, Xiaohong Liu2026-03-12💻 cs

UniCom: Unified Multimodal Modeling via Compressed Continuous Semantic Representations

UniCom is een unificerend multimodaal framework dat de prestaties van beeldgeneratie en -begrip verbetert door gedetailleerde semantische informatie te behouden via gecomprimeerde continue representaties in plaats van discrete tokenizers, wat leidt tot state-of-the-art resultaten en superieure controleerbaarheid.

Yaqi Zhao, Wang Lin, Zijian Zhang, Miles Yang, Jingyuan Chen, Wentao Zhang, Zhao Zhong, Liefeng Bo2026-03-12💻 cs

FutureVLA: Joint Visuomotor Prediction for Vision-Language-Action Model

FutureVLA introduceert een nieuw architectuur voor gezamenlijke visuele-motorische voorspelling die door het ontkoppelen van visuele en motorische informatie tijdens het vooraf trainen, en het aligneren van latente embeddings tijdens het nabewerken, de prestaties van Vision-Language-Action-modellen verbetert door zowel temporele continuïteit als visueel geconditioneerde supervisie te waarborgen.

Xiaoxu Xu, Hao Li, Jinhui Ye, Yilun Chen, Jia Zeng, Xinyi Chen, Linning Xu, Dahua Lin, Weixin Li, Jiangmiao Pang2026-03-12💻 cs

eLasmobranc Dataset: An Image Dataset for Elasmobranch Species Recognition and Biodiversity Monitoring

Dit paper introduceert de eLasmobranc-dataset, een publiek beschikbare verzameling van expert-gevalideerde afbeeldingen van zeven haai- en roggensoorten uit de oostelijke Middellandse Zee, die is ontworpen om nauwkeurige soortherkenning en biodiversiteitsmonitoring te ondersteunen via kunstmatige intelligentie.

Ismael Beviá-Ballesteros, Mario Jerez-Tallón, Nieves Aranda-Garrido, Isabel Abel-Abellán, Irene Antón-Linares, Jorge Azorín-López, Marcelo Saval-Calvo, Andres Fuster-Guilló, Francisca Giménez-Casalduero2026-03-12💻 cs

Event-based Photometric Stereo via Rotating Illumination and Per-Pixel Learning

Deze paper introduceert een kalibratievrije, gebeurtenisgebaseerde fotometrische stereosysteem dat gebruikmaakt van een roterende lichtbron en een lichtgewicht per-pixel neurale netwerken om oppervlaktenormalen nauwkeuriger en robuuster te schatten dan bestaande methoden, zelfs onder uitdagende omstandigheden zoals sterke omgevingsverlichting en speculaire reflecties.

Hyunwoo Kim, Won-Hoe Kim, Sanghoon Lee, Jianfei Cai, Giljoo Nam, Jae-Sang Hyun2026-03-12💻 cs

AttriGuard: Defeating Indirect Prompt Injection in LLM Agents via Causal Attribution of Tool Invocations

Het paper introduceert AttriGuard, een runtime-benadering die indirecte prompt-injectie in LLM-agenten effectief bestrijdt door tooloproepen te verifiëren via causale attributie en contrafactuele tests om te onderscheiden tussen acties die voortvloeien uit de gebruikersintentie en die welke door onbetrouwbare externe observaties worden veroorzaakt.

Yu He, Haozhe Zhu, Yiming Li, Shuo Shao, Hongwei Yao, Zhihao Liu, Zhan Qin2026-03-12💻 cs

CodePercept: Code-Grounded Visual STEM Perception for MLLMs

Dit paper introduceert CodePercept, een aanpak die de visuele STEM-perceptie van multimodale taalmodellen verbetert door uitvoerbare code als grondslag te gebruiken voor het genereren van beschrijvingen en het reconstrueren van afbeeldingen, gebaseerd op de bevinding dat het schalen van perceptie effectiever is dan het schalen van redenering.

Tongkun Guan, Zhibo Yang, Jianqiang Wan, Mingkun Yang, Zhengtao Guo, Zijian Hu, Ruilin Luo, Ruize Chen, Songtao Jiang, Peng Wang, Wei Shen, Junyang Lin, Xiaokang Yang2026-03-12💻 cs

Aceso: Carbon-Aware and Cost-Effective Microservice Placement for Small and Medium-sized Enterprises

Dit paper introduceert Aceso, een adaptief systeem voor het plaatsen van microservices dat specifiek is ontworpen voor kleine en middelgrote bedrijven om koolstofuitstoot en operationele kosten te verlagen zonder in te leveren op latentie-eisen, zelfs binnen regionaal beperkte infrastructuur.

Georgia Christofidi, Francisco Álvarez-Terribas, Ioannis Roumpos, Nicolas Kourtellis, Jesus Omaña Iglesias, Thaleia Dimitra Doudali2026-03-12💻 cs