Composed Vision-Language Retrieval for Skin Cancer Case Search via Joint Alignment of Global and Local Representations
本文提出了一种基于 Transformer 的框架,通过联合对齐全局语义与基于空间注意力掩码的局部判别区域,实现了结合参考图像与文本描述的皮肤病变组成式检索,并在 Derm7pt 数据集上取得了优于现有方法的性能。
1458 篇论文
本文提出了一种基于 Transformer 的框架,通过联合对齐全局语义与基于空间注意力掩码的局部判别区域,实现了结合参考图像与文本描述的皮肤病变组成式检索,并在 Derm7pt 数据集上取得了优于现有方法的性能。
VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架,利用冻结的大语言模型作为结构化语义教师,通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术,在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络,在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。
本文提出了 PRLF 框架,通过自适应模态可靠性估计器和渐进式交互模块,有效解决了多模态情感分析中因模态缺失导致的特征不对齐问题,并在多种缺失场景下实现了优于现有方法的鲁棒性能。
本文提出了 QUSR 模型,通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块,有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。
该研究首次提出基于 SegFormer 变换器的全自动框架,对 HR-pQCT 图像进行多区域(包括骨骼及皮肤、肌腱、脂肪等软组织)分割并提取放射组学特征,结果表明利用软组织特征进行骨质疏松分类的效能优于传统骨参数模型,显著提升了诊断准确性。
该论文提出了首个旋转等变视觉 Mamba 架构 EQ-VMamba,通过引入旋转等变交叉扫描策略和群 Mamba 模块,在显著减少参数量的同时提升了模型对旋转变换的鲁棒性及在分类、分割和超分辨率等任务中的综合性能。
该论文提出了一种基于智能体(Agentic AI)的 6G 网络控制平面智能层,通过整合检索、规划、编码与评估等专用智能体,将联邦学习视为学习与网络管理的联合任务,从而在动态网络条件下实现高效的客户端选择、资源调度及自适应训练。
本文提出了 RTFDNet 网络,通过协同特征融合与跨模量/区域解耦正则化机制,统一了特征融合与模态适应过程,从而在传感器信号缺失时仍能实现鲁棒的 RGB-T 语义分割。
RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。
本文通过引入分块训练拼接策略和非线性强度变换,扩展了 POLISH 深度学习框架,使其能够处理高动态范围和宽视场条件,显著提升了射电干涉成像质量,并有望在深合成阵列(DSA)巡天中将星系 - 星系强引力透镜系统的发现数量比传统 CLEAN 算法提高 10 倍。
该论文提出了渐进式分裂 Mamba(PS-Mamba)框架,通过几何一致的分区策略和对称跨尺度捷径,有效解决了现有状态空间模型在处理图像恢复任务时面临的拓扑失真与长程信息衰减问题,从而在保持线性复杂度的同时实现了局部细节与全局一致性的高质量恢复。
本文提出了名为 SAGE 的首个端到端 3D 多模态大语言模型,它通过将原始点云视为“外语”并利用轻量级 3D 分词器直接将其转化为离散 token,从而摆脱了对预训练 3D 编码器的依赖,在提升计算效率与泛化能力的同时实现了更优的 3D 理解与推理性能。
本文提出了 MM-Zero,这是首个基于强化学习(GRPO)的框架,通过引入生成抽象视觉概念、编写渲染代码和执行多模态推理的三重角色机制,实现了无需任何种子数据即可从零开始的视觉语言模型自我进化。
该论文提出了一种基于 20 维关节角度描述符的几何感知度量学习框架,通过消除相机视角、手部和缩放差异带来的域偏移,显著提升了在 ASL、LIBRAS 等四种手语间进行静态手势少样本识别的跨语言迁移性能。
本文提出了 TubeMLLM,一种通过结合自然语言拓扑先验与视觉表示来增强拓扑感知能力的统一基础模型,并构建了 TubeMData 基准,在十五个数据集上实现了卓越的零样本泛化性能,显著降低了血管类解剖结构中的拓扑错误。
该论文提出了一种用于特定正类识别的新型分布式卷积神经网络(DisCNN),通过设计将正样本映射至高维紧凑集而将负样本映射至原点的新损失函数,实现了正类特征的解耦与轻量化提取,从而在复杂背景下展现出优异的泛化能力和检测效果。
该论文提出了 UniField 框架,通过利用预训练 3D 基础模型挖掘共享退化特征、引入场感知频谱校正机制(FASRM)解决频谱偏差,并发布大规模配对多场 MRI 数据集,实现了显著优于现有方法的 MRI 场强增强效果。
本文提出了 HelixTrack,一种完全基于事件驱动的方法,通过联合跟踪螺旋桨类物体并估计其转速,有效解决了传统跟踪器在快速周期性运动下的漂移问题,并发布了首个包含微秒级转速真值的 TQE 数据集以验证其性能。
BridgeDiff 提出了一种基于扩散模型的虚拟试穿框架,通过服装条件桥接模块和扁平结构约束模块,有效弥合了人体观测与扁平服装合成之间的差距,实现了更高质量且结构稳定的服装重建。
该论文提出了一种名为 RAE-NWM 的导航世界模型,通过在保留细粒度结构信息的密集视觉特征空间(而非压缩潜在空间)中建模动作条件状态转移,并结合条件扩散 Transformer 与时间驱动门控模块,显著提升了视觉导航的结构稳定性与动作控制精度。