TP-Spikformer: Token Pruned Spiking Transformer
本文提出了一种名为 TP-Spikformer 的免训练令牌剪枝方法,通过引入启发式时空信息保留准则和块级早期停止策略,在显著降低脉冲 Transformer 存储与计算开销的同时,在多种架构和任务中保持了具有竞争力的性能。
8774 篇论文
本文提出了一种名为 TP-Spikformer 的免训练令牌剪枝方法,通过引入启发式时空信息保留准则和块级早期停止策略,在显著降低脉冲 Transformer 存储与计算开销的同时,在多种架构和任务中保持了具有竞争力的性能。
该论文提出了名为 CaptionFool 的新型通用对抗攻击方法,仅需修改图像中极小部分(约 1.2%)的图块,即可以高达 94-96% 的成功率操控最先进的图像描述模型生成任意目标文本(包括冒犯性内容和规避审核的俚语),从而揭示了视觉语言模型面临的关键安全漏洞。
本文提出了一种检索增强流匹配(RAFM)方法,通过利用冻结的 DINOv3 编码器和全局 CT 记忆库构建检索引导的伪配对,有效解决了小样本医疗数据下无配对 CBCT 到 CT 转换中流匹配训练不稳定的问题,并在 SynthRAD2023 数据集上取得了优于现有方法的性能。
该研究提出了一种名为 MIMD-3DVT 的新型多输入混合数据 3D 视觉 Transformer 方法,通过整合连续切片、多区域 3D 成像以及人口统计学和认知评估等多源数据,在结合 ADNI、AIBL 和 OASIS 数据集的实验中实现了 97.14% 的准确率,有效克服了现有阿尔茨海默病 MRI 诊断方法在三维上下文信息丢失、关注区域单一及数据源局限等方面的不足。
本文提出了面向能力的十维度基准 M-JudgeBench 以诊断多模态大模型裁判系统的缺陷,并设计了基于 MCTS 的数据生成框架 Judge-MCTS 来训练出在现有基准及新基准上均表现更优的裁判模型 M-Judger。
本文提出了名为 LAS-VAD 的新框架,通过融合异常连通分量机制、意图感知策略以及异常属性信息,有效解决了弱监督视频异常检测中因缺乏帧级标注而导致的语义学习难题,并在 XD-Violence 和 UCF-Crime 数据集上取得了超越现有最先进方法的性能。
本文提出了 Geometry OR Tracker,这是一种通过多视角度量几何校正模块解决手术室相机标定不可靠问题,从而实现跨视图几何一致且抗遮挡的全局 3D 点跟踪的两阶段框架。
本文提出了名为 MIDAS 的多模态越狱框架,通过将有害语义分解并分散到多张图像中,利用跨图推理逐步重构恶意意图以规避安全机制,从而在多个闭源多模态大模型上实现了高达 81.46% 的平均攻击成功率。
该论文提出了一种名为 DASP 的解耦适应框架,通过识别模态间冗余差异并采用非对称的“稳定 - 可塑”组件更新策略,有效解决了多模态测试时适应中无偏模态的负迁移和有偏模态的灾难性遗忘问题。
本文提出了首个面向微观世界模拟的基准测试 MicroWorldBench 与高质量数据集 MicroSim-10K,并据此训练出专用视频生成模型 MicroVerse,有效解决了现有模型在微观尺度模拟中物理法则违背与专家准则对齐不足的问题,为生物医学研究与科学教育提供了新的可视化解决方案。
本文提出了 LangGap 基准,通过语义扰动实验揭示了当前视觉 - 语言 - 动作(VLA)模型严重忽视语言指令的缺陷,并指出尽管数据增强能部分缓解该问题,但模型在应对多样化语言指令时仍存在根本性的理解能力不足。
本文提出了 UNICBench,这是一个涵盖图像、文本和音频三种模态的统一多模态计数基准与评估工具包,通过严格的标准化协议对 45 个先进多模态大模型进行了全面评估,揭示了当前模型在基础计数任务上表现良好但在复杂推理及长尾场景中存在显著差距。
本文提出了一种面向遥感图像语义分割的数据中心基准,包含公开数据集及两种基于模型不确定性、预测一致性和表征分析的新型标签噪声估计与排序方法,旨在有效识别和量化标注噪声以提升模型性能。
本文提出了 IdGlow,一种基于流匹配扩散模型的无掩码两阶段框架,通过任务自适应时间步调度、基于坏例的视觉语言模型提示合成以及细粒度组级直接偏好优化,有效解决了多主体生成中的稳定性 - 可塑性困境,在保持高保真身份特征的同时实现了自然和谐的场景融合与年龄变换。
本文针对异构协同感知中因训练数据缺失共现样本而导致的模态隔离难题,提出了首个无需共现监督的高效对齐框架 CodeAlign,该方法通过跨模态特征 - 码本 - 特征(FCF)翻译机制实现模态对齐,在显著降低参数量与通信开销的同时,在 OPV2V 和 DAIR-V2X 数据集上取得了最先进的感知性能。
本文针对现有光谱压缩成像方法在单帧重建不确定性及视频时序一致性方面的局限,构建了首个动态高光谱数据集 DynaSpec,提出了利用时空特征传播的 PG-SVRT 模型,并通过仿真与实物实验验证了其在重建质量、光谱保真度及时序一致性上的优越性能。
本文针对 3D 数据长尾分布导致传统指标冲突的难题,提出了一种通过加权子集近似全量风险、结合类保留配额与先验不变教师监督的 3D 数据集剪枝方法,从而在多个场景下有效平衡并提升了总体准确率与平均准确率。
本文提出了首个雷达 - 相机协同感知框架 RC-GeoCP,通过建立以雷达为锚点的几何共识机制(包含几何结构校正、不确定性感知通信和共识驱动聚合),有效解决了多智能体间的深度歧义与空间失配问题,并在显著降低通信开销的同时实现了最先进的协同感知性能。
本文提出了一种名为 SCVM 的状态化跨层视觉调制框架,通过引入递归更新的跨层记忆状态和逐层反馈调制机制,在无需扩展视觉令牌、增加编码器或微调语言模型的前提下,有效解决了多模态大模型中浅层细节丢失及语义分布不匹配的问题,从而显著提升了视觉问答和幻觉评估等任务的性能。
本文提出了名为 HistoSelect 的框架,通过模拟病理学家“由粗到细”的检索策略,利用问题引导的组采样和补丁选择机制,在显著降低视觉 Token 用量的同时提升了全切片图像问答的准确性与可解释性。