cs 篇论文 | Gist.Science

AmphiKey: A Dual-Mode Secure Authenticated Key Encapsulation Protocol for Smart Grid

本文提出了名为 AmphiKey 的双模式后量子/传统混合认证密钥封装协议，旨在通过结合 ML-KEM-768、X25519 及抗侧信道 Raccoon 签名等机制，为智能电网提供兼具“或”机密性与强认证或可否认隐私的灵活安全通信方案，并在异构设备上验证了其高效性能。

Kazi Hassan Shakib, Muhammad Asfand Hafeez, Arslan Munir2026-03-10💻 cs

Mix-modal Federated Learning for MRI Image Segmentation

本文针对非中心化混合模态 MRI 图像分割中存在的客户端模态与数据异构性挑战，提出了一种名为 MDM-MixMFL 的新型联邦学习框架，通过模态解耦策略和模态记忆机制，有效实现了多模态信息的自适应聚合与缺失模态补偿。

Guyue Hu, Siyuan Song, Jingpeng Sun, Zhe Jin, Chenglong Li, Jin Tang2026-03-10💻 cs

UltraUPConvNet: A UPerNet- and ConvNeXt-Based Multi-Task Network for Ultrasound Tissue Segmentation and Disease Prediction

本文提出了一种名为 UltraUPConvNet 的计算高效通用框架，该框架基于 UPerNet 和 ConvNeXt 架构，利用包含 9700 多个标注的大规模数据集，实现了在降低计算开销的同时，对超声图像进行组织分割与疾病预测的多任务联合处理。

Zhi Chen, Le Zhang2026-03-10💻 cs

Traffic-MLLM: Curiosity-Regularized Supervised Learning for Traffic Scenario Case-Based Reasoning

本文提出了 Traffic-MLLM，一种无需显式检索的神经案例建模框架，通过融合多源交通数据并引入基于随机网络蒸馏的好奇心正则化机制，有效提升了多模态大语言模型在复杂交通场景下的长尾推理能力与跨域泛化性能。

Waikit Xiu, Qiang Lu, Bingchen Liu, Chen Sun, Xiying Li2026-03-10💻 cs

ActivePose: Active 6D Object Pose Estimation and Tracking for Robotic Manipulation

本文提出了一种名为 ActivePose 的主动 6D 物体位姿估计与跟踪框架，通过结合视觉语言模型与“机器人想象”机制动态识别并解决位姿歧义，并利用扩散策略生成主动相机轨迹以维持目标可见性，从而显著提升了机器人操作中的位姿估计精度与鲁棒性。

Sheng Liu, Zhe Li, Weiheng Wang, Han Sun, Heng Zhang, Hongpeng Chen, Yusen Qin, Arash Ajoudani, Yizhao Wang2026-03-10💻 cs

Bio-inspired tail oscillation enables robot fast crawling on deformable granular terrains

受弹涂鱼启发的研究通过实验证明，主动摆动尾巴能流体化颗粒介质从而显著降低阻力，使机器人在沙泥等可变形地形上的爬行速度提升 67%，并据此提出了基于底质强度与尾巴形态的摆动策略设计原则。

Shipeng Liu, Meghana Sagare, Shubham Patil, Feifei Qian2026-03-10💻 cs

SAGA: Selective Adaptive Gating for Efficient and Expressive Linear Attention

本文提出了 SAGA 方法，通过引入输入自适应的可学习门控机制和高效的哈达玛积分解，在保留线性注意力全局感受野的同时缓解低秩特征限制，从而在显著降低计算复杂度和显存占用的基础上，大幅提升了视觉 Transformer 模型的推理效率与 ImageNet 分类精度。

Yuan Cao, Dong Wang2026-03-10💻 cs

Cumulative Consensus Score: Label-Free and Model-Agnostic Evaluation of Object Detectors in Deployment

本文提出了一种名为累积共识分数（CCS）的标签无关且模型无关的评估指标，通过利用测试时数据增强来衡量预测边界框的空间一致性，从而在无真实标注的情况下实现对部署中目标检测模型的持续可靠性监控。

Avinaash Manoharan, Xiangyu Yin, Domenik Helm, Chih-Hong Cheng2026-03-10💻 cs

WHU-STree: A Multi-modal Benchmark Dataset for Street Tree Inventory

本文提出了 WHU-STree，这是一个跨越两个城市、包含 21,007 个标注实例的多模态街景树木数据集，旨在通过融合点云与高分辨率图像数据，解决现有数据集规模小、标注少及模态单一的问题，并支持包括树种分类和单木分割在内的十余种街景树木清查任务。

Ruifei Ding, Zhe Chen, Wen Fan + 5 more2026-03-10💻 cs

Agile in the Face of Delay: Asynchronous End-to-End Learning for Real-World Aerial Navigation

本文提出了一种异步强化学习框架，通过解耦感知与控制并引入显式处理感知延迟的时序编码模块，成功解决了复杂环境中无人机高频敏捷控制与低频感知流之间的冲突，实现了在零样本仿真到现实迁移下 100 赫兹控制率的鲁棒自主导航。

Yude Li, Zhexuan Zhou, Huizhe Li, Youmin Gong, Jie Mei2026-03-10💻 cs

GeoAware-VLA: Implicit Geometry Aware Vision-Language-Action Model

本文提出了 GeoAware-VLA，一种通过集成预训练几何视觉模型的特征来增强视点不变性的视觉 - 语言 - 动作模型，该方法在无需重新训练视觉编码器或依赖显式 3D 数据的情况下，显著提升了机器人在未见视角下的零样本泛化能力，并在仿真与真实物理环境中均取得了优异表现。

Ali Abouzeid, Malak Mansour, Qinbo Sun, Zezhou Sun, Dezhen Song2026-03-10💻 cs

OIPP: Object-Adaptive Impact Point Predictor for Catching Diverse In-Flight Objects

本文针对四足机器人接取多样化飞行物体的挑战，构建了包含 8000 条轨迹的真实世界数据集，并提出了能够适应不同物体气动特性的 OIPP 预测器，通过实验验证了其在仿真与真机环境中对早期落点预测及接取成功率的有效性。

Ngoc Huy Nguyen, Kazuki Shibata, Takamitsu Matsubara2026-03-10💻 cs

LibriTTS-VI: A Public Corpus and Novel Methods for Efficient Voice Impression Control

该论文提出了首个基于 LibriTTS-R 的公开语音印象（VI）语料库 LibriTTS-VI，并设计了通过双 utterance 解耦训练及无参考音频控制的新方法，有效解决了语音印象控制中缺乏公开数据和印象泄露的问题，显著提升了数值化语音印象控制的精度。

Junki Ohmura, Yuki Ito, Emiru Tsunoo, Toshiyuki Sekiya, Toshiyuki Kumakura2026-03-10💻 cs

Compose by Focus: Scene Graph-based Atomic Skills

本文提出了一种基于场景图的原子技能学习框架，通过聚焦任务相关对象与关系来缓解分布偏移，并结合扩散模型与视觉语言规划器，显著提升了通用机器人在长程复杂任务中的执行鲁棒性与组合泛化能力。

Han Qi, Changhe Chen, Heng Yang2026-03-10💻 cs

DroFiT: A Lightweight Band-fused Frequency Attention Toward Real-time UAV Speech Enhancement

本文提出了名为 DroFiT 的轻量级单麦克风语音增强网络，通过融合频域 Transformer、全/子带混合编解码器及 TCN 后端，在显著降低计算与内存开销的同时，实现了无人机强自噪环境下的高效实时语音增强。

Jeongmin Lee, Chanhong Jeon, Hyungjoo Seo, Taewook Kang2026-03-10💻 cs

Event-Based Visual Teach-and-Repeat via Fast Fourier-Domain Cross-Correlation

本文提出了一种基于事件相机的视觉示教与复现（VT&R）导航系统，通过频域互相关算法将处理延迟降至 2.88 毫秒（比传统相机方案快 3.5 倍），并在昼夜室内外复杂环境下实现了跨 3000 米、横向误差小于 15 厘米的高精度自主导航。

Gokul B. Nair, Alejandro Fontan, Michael Milford, Tobias Fischer2026-03-10💻 cs

Do Modern Video-LLMs Need to Listen? A Benchmark Audit and Scalable Remedy

该论文通过审计现有视频基准发现其严重缺乏对音频能力的评估，进而提出一种可扩展的语音编码器集成方案，证明在引入音频信息后，模型在涉及语音理解和跨模态对齐的任务上取得了显著提升，而纯视觉任务则未受影响。

Geewook Kim, Minjoon Seo2026-03-10💻 cs

Efficient Construction of Implicit Surface Models From a Single Image for Motion Generation

本文提出了名为 FINS 的轻量级框架，通过结合多分辨率哈希网格编码器与预训练基础模型，实现了仅需单张 RGB 图像即可在数秒内高效重建高保真隐式表面及 SDF 场，并在收敛速度、重建精度及机器人表面跟随任务中优于现有最先进方法。

Wei-Teng Chu, Tianyi Zhang, Matthew Johnson-Roberson, Weiming Zhi2026-03-10💻 cs

RetoVLA: Reusing Register Tokens for Spatial Reasoning in Vision-Language-Action Models

本文提出了 RetoVLA 架构，通过复用原本用于缓解注意力伪影的注册令牌（Register Tokens）来增强轻量级视觉 - 语言 - 动作模型的空间推理能力，在零增加参数量的前提下显著提升了机器人任务的成功率。

Jiyeon Koo, Taewan Cho, Hyunjoon Kang, Eunseom Pyo, Tae Gyun Oh, Taeryang Kim, Andrew Jaeyong Choi2026-03-10💻 cs

Quantized Visual Geometry Grounded Transformer

本文提出了首个针对视觉几何基础 Transformer（VGGT）的量化框架 QuantVGGT，通过引入双平滑细粒度量化与噪声过滤多样化采样技术，有效解决了特殊令牌导致的重尾分布及多视图数据校准不稳定问题，在实现显著内存缩减与加速的同时保持了极高的重建精度。

Weilun Feng, Haotong Qin, Mingqiang Wu, Chuanguang Yang, Yuqi Li, Xiangqi Li, Zhulin An, Libo Huang, Yulun Zhang, Michele Magno, Yongjun Xu2026-03-10💻 cs

← 上一页下一页 →