Distilled Large Language Model-Driven Dynamic Sparse Expert Activation Mechanism
该论文提出了一种由蒸馏大语言模型驱动的动态稀疏混合专家(DS-MoE)框架,通过文本引导的动态路由与轻量级多尺度特征融合,有效解决了高类间相似性和尺度变化带来的视觉识别难题,并在多种工业缺陷检测数据集上显著超越了现有纯视觉模型。
13599 篇论文
该论文提出了一种由蒸馏大语言模型驱动的动态稀疏混合专家(DS-MoE)框架,通过文本引导的动态路由与轻量级多尺度特征融合,有效解决了高类间相似性和尺度变化带来的视觉识别难题,并在多种工业缺陷检测数据集上显著超越了现有纯视觉模型。
该论文研究了将序数关系融入深度神经网络的损失函数(包括单峰、准单峰和空间损失),通过改进的 EXP_MSE、QUL 和 CSSDF 等方法,在医学和牙科图像分割中提升了模型的鲁棒性、泛化能力及解剖结构的一致性。
该论文提出了受人类视觉感知启发的结构化序列视觉思维链(SSV-CoT)方法,通过端到端训练将图像编码从静态前缀转变为基于问题相关显著性图的动态有序视觉访问,从而在无需区域标注或外部工具的情况下显著提升了多模态大模型的视觉推理能力。
本文提出了 SleepVLM,一种基于规则的可解释视觉语言模型,它不仅能通过多通道脑电波形图像实现与现有最先进方法相当的睡眠分期性能,还能生成符合美国睡眠医学学会标准的临床可读推理依据,从而提升自动化睡眠分期在临床中的可信度与可审计性,并发布了新的专家标注数据集 MASS-EX 以推动可解释睡眠医学研究。
本文通过引入密度矩阵以涵盖语义退相干现象并构建 Q-矩阵框架,将 2006 年提出的量子模糊集理论从纯态推广至混合态,从而建立了具有丰富结构性质(如张量积与纤维化)的量子模糊集范畴 QFS。
该论文针对仅凭初始视角和语言指令进行导航的挑战,提出了包含 3.9 万条轨迹的 LCVN 基准数据集,并开发了结合扩散世界模型与 Actor-Critic 策略、以及基于自回归多模态架构的两类框架,以联合研究语言 grounding、未来状态预测与策略学习。
该论文提出了一种将稀疏自编码器与动态剪枝相结合的新框架,通过操纵可解释的稀疏潜在特征来实现对 Vision Transformer 中注意力头的类特定控制,从而在显著提升效率的同时保持甚至提高模型精度。
该论文通过引入新数据源(如必应地图和飞行模拟器)增强数据集多样性、优化运行设计域以覆盖更复杂的机场场景,并建立基准框架及开源模型,从而解决了自主着陆系统监督学习中物体检测面临的数据局限性与评估挑战。
本文提出了一种名为 DD-DMOEA 的无需训练的扩散驱动动态多目标优化算法,通过将上一时刻的帕累托最优解集视为“噪声”样本,利用解析构建的多步去噪过程及不确定性感知机制引导其演化至当前环境,从而在无需模型训练的情况下实现了快速且兼具收敛性与多样性的动态响应。
该论文提出了一种从真实相机陷阱图像生成合成野生动物健康数据(如脱毛和体况恶化)的流水线,通过构建 curated 基础数据集、应用表型编辑系统以及实施自适应场景漂移质量控制,成功创建了可用于自动健康筛查的合成训练数据,并证明了仅使用合成数据训练的模型在真实图像上能达到 0.85 的 AUROC 性能。