Clinical Cognition Alignment for Gastrointestinal Diagnosis with Multimodal LLMs
本文提出了名为 CogAlign 的新框架,通过构建分层临床认知数据集进行监督微调以对齐专家诊断逻辑,并引入基于反事实推理的强化学习策略以消除视觉偏差、确保诊断基于因果病灶特征,从而在胃肠内镜诊断中实现了最先进的性能。
10072 篇论文
本文提出了名为 CogAlign 的新框架,通过构建分层临床认知数据集进行监督微调以对齐专家诊断逻辑,并引入基于反事实推理的强化学习策略以消除视觉偏差、确保诊断基于因果病灶特征,从而在胃肠内镜诊断中实现了最先进的性能。
该论文提出了一种名为 EHETM 的高效湍流抑制方法,利用事件相机捕捉到的极性交替梯度和动态物体“事件管”特征,在显著降低数据开销与系统延迟的同时,实现了高质量且适用于动态场景的图像恢复。
该论文通过提出新基准,系统研究了 3D 高斯泼溅(3DGS)中初始化与致密化策略的关系,发现现有的致密化方法无法充分利用密集初始化数据,往往难以在稀疏 SfM 初始化的基础上实现显著提升。
该论文提出了一种跨模态模糊对齐网络,通过引入模糊逻辑量化 Token 级可靠性并利用地面视角图像作为桥梁来缓解视角差异,同时构建了基于思维链的大规模 AERI-PEDES 基准数据集,显著提升了无人机视角下基于文本的人员检索性能。
本文提出了 Premier 框架,通过引入可学习的用户偏好嵌入和偏好适配器,结合分散损失以增强个体区分度,并利用现有嵌入的线性组合实现少样本泛化,从而显著提升了文本到图像生成中的个性化偏好对齐与风格一致性。
该论文提出了一种基于深度感知交叉注意力机制的弱监督多模态分割框架,通过置信度门控融合二维声学测井图像与一维测井曲线,在无需密集人工标注的情况下显著提升了井壁结构分割的精度与鲁棒性。
本文提出了 VSD-MOT 框架,通过引入以 CLIP 为教师的视觉语义蒸馏机制及动态权重调节模块,有效解决了低质量视频场景下多目标跟踪因信息缺失导致的性能下降问题。
本文提出了 SATTC,一种无需标签的测试时校准方法,通过结合几何专家(自适应白化与 CSLS)和结构专家(互近邻等)来校正跨主体 EEG 到图像检索中的主体偏移与枢纽效应,从而显著提升小 k 值检索的可靠性与准确率。
本文提出了一种名为 SADG 的基于 Mamba 的上下文学习框架,通过结构感知序列化、分层域建模及轻量级谱图对齐技术,有效解决了点云多任务域泛化中的结构漂移问题,并发布了 MP3DObject 数据集以验证其在重建、去噪和配准等任务中的优越性能。
该论文提出了跨时间步自校准(CTCal)方法,通过利用低噪时间步形成的可靠文本 - 图像对齐信息来显式监督高噪时间步的表征学习,从而有效提升了文本到图像扩散模型中提示词与生成图像的精确对齐能力。