cs 篇论文 | Gist.Science

Performance Comparison of IBN orchestration using LLM and SLMs

该论文提出了一种利用状态分层多智能体架构结合大语言模型与小语言模型（SLMs）的 5G/6G 意图驱动网络编排新框架，实验表明两者在翻译精度上表现相当，但 SLMs 能将编排生命周期整体完成速度提升 20%。

Wai Lwin Phone, Brahim El Boudani, Tasos Dagiuklas, Saptarshi Ghosh2026-03-10💻 cs

ObjChangeVR: Object State Change Reasoning from Continuous Egocentric Views in VR Environments

针对虚拟现实环境中缺乏直接交互线索的背景物体状态变化检测难题，该论文提出了专用的 ObjChangeVR 数据集，并设计了结合视点感知、时序检索与跨视角推理的 ObjChangeVR 框架，显著提升了多模态大模型在此类任务上的表现。

Shiyi Ding, Shaoen Wu, Ying Chen2026-03-10💻 cs

Margin-Consistent Deep Subtyping of Invasive Lung Adenocarcinoma via Perturbation Fidelity in Whole-Slide Image Analysis

该论文提出了一种基于扰动保真度（Perturbation Fidelity）的边际一致性框架，通过结合注意力加权聚合与边际感知训练，显著提升了侵入性肺腺癌全切片图像亚型分类在真实世界扰动下的鲁棒性与跨机构泛化能力。

Meghdad Sabouri Rad (Vincent), Junze (Vincent), Huang, Mohammad Mehdi Hosseini, Rakesh Choudhary, Saverio J. Carello, Ola El-Zammar, Michel R. Nasr, Bardia Rodd2026-03-10💻 cs

PaLMR: Towards Faithful Visual Reasoning via Multimodal Process Alignment

该论文提出了 PaLMR 框架，通过构建感知对齐的数据层与过程对齐的优化层，解决了多模态大模型在强化学习中因过度关注最终答案而容忍推理过程幻觉的问题，从而显著提升了视觉推理的忠实度与可靠性。

Yantao Li, Qiang Hui, Chenyang Yan, Kanzhi Cheng, Fang Zhao, Chao Tan, Huanling Gao, Jianbing Zhang, Kai Wang, Xinyu Dai, Shiguo Lian2026-03-10💻 cs

Digital Twin-Enabled Mobility-Aware Cooperative Caching in Vehicular Edge Computing

该论文提出了一种名为 DAPR 的框架，通过结合数字孪生、异步联邦学习、GRU-VAE 预测模型和深度强化学习，优化了车联网边缘计算中的客户端选择与内容预测，从而显著提升了缓存命中率并降低了传输延迟。

Jiahao Zeng, Zhenkui Shi, Chunpei Li, Mengkai Yan, Hongliang Zhang, Sihan Chen, Xiantao Hu, Xianxian Li2026-03-10💻 cs

A Parameter-efficient Convolutional Approach for Weed Detection in Multispectral Aerial Imagery

本文提出了一种名为 FCBNet 的参数高效卷积模型，通过采用冻结的 ConvNeXt 骨干网络、特征校正模块（FCB）及轻量级解码器，在多种光谱模态下实现了超过 85% 的 mIoU 高精度杂草分割，同时显著降低了训练时间和参数量。

Leo Thomas Ramos, Angel D. Sappa2026-03-10💻 cs

GameVerse: Can Vision-Language Models Learn from Video-based Reflection?

本文提出了 GameVerse 基准，通过引入“反思并重试”的范式，证明视觉语言模型能够像人类一样从视频反馈（包括失败轨迹和专家教程）中学习并优化游戏策略。

Kuan Zhang, Dongchen Liu, Qiyue Zhao, Jinkun Hou, Xinran Zhang, Qinlei Xie, Miao Liu, Yiming Li2026-03-10💻 cs

ASMIL: Attention-Stabilized Multiple Instance Learning for Whole Slide Imaging

该论文针对注意力机制在基于实例的学习（MIL）中存在的动态不稳定、过拟合及注意力过度集中三大问题，提出了一种引入锚点模型、归一化 Sigmoid 函数及 Token 随机丢弃的 ASMIL 统一框架，显著提升了全切片图像（WSI）诊断的性能。

Linfeng Ye, Shayan Mohajer Hamidi, Zhixiang Chi, Guang Li, Mert Pilanci, Takahiro Ogawa, Miki Haseyama, Konstantinos N. Plataniotis2026-03-10💻 cs

Science Literacy: Generative AI as Enabler of Coherence in the Teaching, Learning, and Assessment of Scientific Knowledge and Reasoning

该论文探讨了生成式人工智能在 K-16+ 教育阶段提升科学素养的潜力与挑战，论证了通过构建协调教学、学习与评估的 AI 架构来应对科学素养教育难题的必要性，并展望了相关研发需求及该模式在其他学科领域的推广前景。

Xiaoming Zhai, James W. Pellegrino, Matias Rojas, Jongchan Park, Matthew Nyaaba, Clayton Cohn, Gautam Biswas2026-03-10💻 cs

Graph-of-Mark: Promote Spatial Reasoning in Multimodal Language Models with Graph-Based Visual Prompting

本文提出了 Graph-of-Mark (GoM)，一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术，实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。

Giacomo Frisoni, Lorenzo Molfetta, Mattia Buzzoni, Gianluca Moro2026-03-10💻 cs

Accelerating Video Generation Inference with Sequential-Parallel 3D Positional Encoding Using a Global Time Index

该论文提出了一种基于全局时间索引的序列并行 3D 位置编码方案（Causal-RoPE SP），通过系统级推理优化（如算子融合与预计算）解决了 DiT 视频生成模型在长视频合成中的显存爆炸与高延迟瓶颈，在八卡 A800 集群上实现了亚秒级首帧延迟和近实时推理速度。

Chao Yuan, Pan Li2026-03-10💻 cs

Better Eyes, Better Thoughts: Why Vision Chain-of-Thought Fails in Medicine

该论文指出思维链（CoT）在医学视觉问答任务中常因感知瓶颈而表现不如直接回答，并提出了无需训练的感知锚定与描述接地两种干预方法，有效提升了视觉大模型的准确性并逆转了性能劣势。

Yuan Wu, Zongxian Yang, Jiayu Qian, Songpan Gao, Guanxing Chen, Qiankun Li, Yu-An Huang, Zhi-An Huang2026-03-10💻 cs

SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation

本文提出了一种名为 SJD-PV 的训练-free 加速框架，通过分析训练语料中的 token 共现统计规律构建语义连贯的视觉短语，并利用短语级联合验证机制替代传统的独立 token 验证，从而在保持图像生成质量的同时显著降低了自回归图像模型的推理延迟。

Zhehao Yu, Baoquan Zhang, Bingqi Shan, Xinhao Liu, Dongliang Zhou, Guotao Liang, Guangming Ye, Yunming Ye2026-03-10💻 cs

Demonstration of a 1.2 Gbps Always-on Fully-Connected Mesh Network with RFSoC SDRs

该论文介绍了一种基于射频片上系统（RFSoC）软件定义无线电的完全连接网状网络，成功实现了四架无人机之间 12 条始终在线的 2x2 MIMO 链路实时聚合吞吐量达 1.2 Gbps，并支持多路未压缩 4K 视频流传输。

Hatef Nouri, George Sklivanitis, Dimitris A. Pados, Elizabeth Serena Bentley2026-03-10💻 cs

SDN-SYN PoW: Intent-Aware Adaptive SDN Defense with PoW Against multi-domain SYN Floods

本文提出了一种名为 SDN-SYN PoW 的新型防御架构，该架构通过将非交互式工作量证明（PoW）与软件定义网络（SDN）控制平面相结合，利用全局流量感知动态调整 PoW 难度，从而在有效抵御跨域 SYN 洪水攻击的同时，确保对合法客户端（包括低功耗设备）的开销可忽略不计。

Wenyang Jia2026-03-10💻 cs

Hybrid Orchestration of Edge AI and Microservices via Graph-based Self-Imitation Learning

本文提出了 SIL-GPO 框架，通过结合图注意力网络与自模仿学习策略的强化学习方法，有效解决了边缘 AI 微服务系统中异构服务编排的联合优化难题，显著降低了端到端延迟并提升了资源利用率。

Chen Yang, Jin Zheng, Yang Zhuolin, Lai Pan, Zhang Xiao, Hu Menglan, Yin Haiyan2026-03-10💻 cs

calibfusion: Transformer-Based Differentiable Calibration for Radar-Camera Fusion Detection in Water-Surface Environments

本文提出了 CalibFusion，一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器，它通过端到端学习隐式外参微调，有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限，显著提升了融合检测的精度与鲁棒性。

Yuting Wan, Liguo Sun, Jiuwu Hao, Pin LV2026-03-10💻 cs

cs