Evaluating Few-Shot Pill Recognition Under Visual Domain Shift
该研究从部署导向视角出发,评估了基于两阶段目标检测框架的少样本药片识别系统在跨数据集视觉域偏移下的表现,发现虽然语义分类在极少样本下即可快速饱和,但在重叠和遮挡等复杂场景下定位与召回率显著下降,从而强调了训练数据真实性和诊断性评估对系统部署就绪的重要性。
5321 篇论文
该研究从部署导向视角出发,评估了基于两阶段目标检测框架的少样本药片识别系统在跨数据集视觉域偏移下的表现,发现虽然语义分类在极少样本下即可快速饱和,但在重叠和遮挡等复杂场景下定位与召回率显著下降,从而强调了训练数据真实性和诊断性评估对系统部署就绪的重要性。
本文提出了一种名为 MAD(内存分配多样性)的新方法,通过结合内存分配与软件多样性原则,利用两种新颖的空间多样化技术克服内存子系统熵不足的障碍,以硬件和软件无关的方式有效延缓 DRAM 错误(如 RowHammer 攻击),从而为系统响应争取宝贵时间。
该论文提出了一种基于霍奇分解的拓扑模型,用于将无服务器平台中的复杂信息流分解为可局部修正的组件与反映系统结构特性的谐波模式,并据此开发了一种通过引入“耗散效应”来制定修复策略的迭代分析方法,从而有效识别架构异常并优化系统性能。
本文提出了名为 UltrasoundAgents 的分层多智能体框架,通过模拟从病灶定位到局部特征分析再到证据整合的临床工作流,并结合解耦渐进式训练策略,实现了具有可追溯证据链和更高诊断准确性的乳腺超声辅助诊断。
本文介绍了 OSUM-Pangu,这是一个基于 OpenPangu-7B 大语言模型并在昇腾 NPU 全栈非 CUDA 环境下构建的开源多维语音理解基础模型,其通过分阶段训练策略实现了与主流 GPU 模型相当的任务准确率,为开源语音社区提供了可复现的非 CUDA 基准。
该论文针对多模态大语言模型在长上下文场景中因视觉 token 注意力随文本序列增长而衰减(即“视觉淡化”)的问题,提出了一种基于模态交互解耦的模态间距离不变位置编码(DIPE)方法,通过保留模态内相对位置并固定模态间感知邻近性,有效消除了模态间距离带来的惩罚,从而显著提升了模型在长上下文中的视觉 grounding 能力。
该研究通过对 81 名参与团队软件项目的学生进行四轮调查,发现开发者对文本消息的情感感知具有显著的个体内波动性和语句依赖性,且情绪特质与反应性等因素虽能微弱影响正面感知,但整体关联信号较弱,提示在解读情感分析结果时需警惕语境缺失带来的歧义。
本文提出了 FG-CLTP 框架,通过构建包含 10 万对多维接触状态的大规模数据集及量化语义对齐机制,实现了细粒度触觉表征学习,并进一步结合流匹配策略构建了 3D 触觉 - 语言 - 动作模型,显著提升了机器人接触丰富操作任务的性能。
该论文提出了一种名为 BiLaLoRA 的无监督真实图像去雾方法,通过利用 CLIP 构建语义对齐损失函数来指导去雾过程,并结合双层层位 LoRA 策略自动搜索并微调关键网络层,从而在无需参考图像的情况下显著提升了模型在复杂真实场景中的适应能力。
该论文提出了一种将强化学习与模型预测控制(MPC)相结合的接触显式分层架构,通过高层智能体学习非周期性步态来减轻 MPC 的接触时序计算负担,并在多种机器人平台上成功实现了无需域随机化的零样本仿真到现实迁移。
本文介绍了 VoxCare 系统,该系统利用可穿戴设备在实时不存储原始音频的前提下,通过提取声学特征和语音基础模型指导的框架,对医院医护人员的自然沟通行为进行量化分析,从而揭示沟通模式与工作压力及负荷之间的关系,为优化医疗交付提供数据支持。
本文提出了名为 S2D 的新颖流程,通过结合高效的一步扩散模型修复稀疏点云图像伪影,并设计具有随机采样丢弃和加权梯度的重建策略,实现了仅需极少输入视图即可生成高质量、3D 一致的 3D 高斯泼溅(3DGS)重建。
该论文通过形式化权威 DNS 响应选择机制,证明了其语义受限于 DNS 协议约束而具有有界性,并构建了一个基于可观察上下文和有限候选集的正常形式框架,从而为异构权威 DNS 系统的等价性、表达能力及语义组合提供了基于协议语义的统一定理基础。
该论文分析了卷积神经网络架构对模型精度的影响,并探讨了分布式训练环境中影响计算效率的关键因素,旨在为资源密集型场景下的 CNN 部署优化提供见解。
该论文提出了一种无需训练的多步推理方法,通过冻结预训练模型并迭代插值混合语音与上一轮估计值来优化目标说话人提取,同时引入联合指标优化策略以在无真实标签场景下平衡不同评估指标,从而实现可控制的提取效果。
该研究提出了一种用于口腔癌病变检测的新型 RPA 架构,通过引入单例设计模式和批处理技术,将预测时间从 0.29 秒大幅缩短至 0.06 秒,实现了比标准方法高 60 至 100 倍的效率提升。
本文提出了一种基于多模态潜在空间回放与增量特征调整机制的终身模仿学习框架,通过存储紧凑的跨模态潜在表示并约束任务嵌入的演化,在 LIBERO 基准测试中显著提升了持续策略优化能力并大幅降低了灾难性遗忘。
本文提出了一种名为 Huffman-Bucket Sketch (HBS) 的简单可合并数据结构,它通过将 HyperLogLog 寄存器分桶并利用基于强集中分布的全局霍夫曼码进行编码,在保持常数级更新时间和可合并性的同时,将空间复杂度优化至最优的 比特。
本文提出了名为 CBCTRepD 的双语口腔颌面 CBCT 报告生成系统,该系统基于大规模高质量配对数据构建,并通过临床验证证明其不仅能生成达到中级放射科医生水平的报告草稿,还能在放射科医生与 AI 协作中显著提升不同经验水平医生的诊断质量并减少漏诊。
本文提出了 STADA 框架,该框架利用时序逻辑(LTLf)规范自动生成自动驾驶代理的多样化测试场景,在显著提升覆盖率和减少模拟次数的同时,有效解决了现有方法在验证形式化安全需求时依赖人工或随机生成导致的效率与完整性不足问题。