VIVID-Med: LLM-Supervised Structured Pretraining for Deployable Medical ViTs
VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架,利用冻结的大语言模型作为结构化语义教师,通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术,在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络,在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。
2393 篇论文
VIVID-Med 提出了一种新颖的医疗视觉 Transformer 预训练框架,利用冻结的大语言模型作为结构化语义教师,通过统一医疗模式将临床发现转化为可验证的 JSON 字段状态对并采用结构化预测分解技术,在训练后丢弃大模型从而生成轻量级、可部署的纯视觉骨干网络,在多种医疗影像任务中实现了超越现有方法的高性能且数据高效的零样本泛化能力。
本文提出了名为 PM-Nav 的先验地图引导具身导航框架,通过将环境地图转化为语义先验地图并结合分层思维链提示与多模型协同机制,有效解决了功能建筑中特征高度相似导致的导航难题,在仿真与真实场景中相比现有方法实现了显著的性能提升。
本文提出了 DexHiL,这是首个针对灵巧操作视觉 - 语言 - 动作(VLA)模型的人机协同后训练框架,通过集成臂手协调干预、干预感知数据采样及轻量级遥操作接口,显著提升了机器人在复杂任务中的成功率。
本文提出了 QUSR 模型,通过结合利用多模态大语言模型生成质量先验的 QAP 模块和根据不确定性自适应调整噪声强度的 UNG 模块,有效解决了真实场景下退化未知且非均匀导致的图像超分辨率细节丢失与伪影问题。
该研究通过将多智能体大语言模型委员会建模为随机动力系统,发现即使在零温度()设定下,角色差异化与模型异质性仍会引发系统不稳定,从而论证了稳定性审计是构建多模型治理系统的核心设计需求。
该论文提出了一种基于概率必要性与充分性(PNS)的正则化方法,通过双范围反事实生成器消除类增量学习中的任务内和任务间虚假特征相关性,从而有效缓解特征冲突并防止灾难性遗忘。
该论文针对大语言模型在处理具有复杂层级和非规范布局的表格时难以进行长程推理的问题,提出了名为“深度表格研究(DTR)”的新框架,通过构建分层元图、引入期望感知选择策略以及利用孪生结构化记忆实现持续经验驱动,将表格推理形式化为闭环决策过程以显著提升多步推理能力。
本文提出了 DataFactory 框架,通过引入包含数据领导、数据库和知识图谱团队的协作多智能体架构,结合自动化数据转知识图谱映射与自然语言协商机制,有效解决了现有大模型在表格问答中面临的上下文限制、幻觉及复杂推理难题,并在多个基准测试中显著提升了准确率。
本文提出了 TrustBench 框架,通过在智能体执行动作前进行实时信任验证,结合多维度基准测试与领域专用插件,有效将有害行为减少了 87% 并实现了低延迟的安全保障。
RubiCap 提出了一种基于 LLM 生成评分标准(Rubric)的强化学习框架,通过结构化、多维度的细粒度奖励信号解决开放域密集图像描述中缺乏确定性验证的难题,在提升生成多样性与泛化能力的同时,以更小参数量实现了超越现有监督蒸馏、传统 RL 方法及大模型标注的性能。
该论文提出了一种利用大语言模型生成的功能不完备但结构正确的 RTL 代码来构建合成数据集的新框架,有效突破了电路网表示学习中真实标注数据稀缺的瓶颈,并证明了由此训练的模型在子电路边界识别和组件分类等任务上能媲美甚至超越基于高质量数据的现有方法。
本文提出了一种名为 GIAT 的新型框架,通过将地质先验知识(利用类别序列相关性滤波器生成关系矩阵)融入 Transformer 的注意力机制,显著提升了测井岩性识别的准确性、可靠性及可解释性。
ZeroWBC 是一种无需大规模机器人遥操作数据、直接利用人类第一人称视频微调视觉语言模型以生成并执行自然全身动作的人形机器人控制框架,显著提升了人形机器人在场景交互中的自然性与通用性。
该论文介绍了基于大语言模型的代码变异代理 AlphaEvolve,通过单一元算法成功推导出五个经典拉姆齐数的改进下界,并复现了所有已知精确值及其他众多情况下的最佳下界。
本文提出了一种基于伊托型随机交通流模型的可微分生成框架,通过将物理约束从确定性偏微分方程扩展为分布形式,利用包含平流闭合模块的评分网络结合去噪得分匹配与福克 - 普朗克残差损失,实现了能够输出概率分布、置信区间及拥堵风险度量的物理信息交通状态估计。
本文提出了 DuplexCascade,一种无需语音活动检测(VAD)的级联流式语音对话系统,通过将传统长话轮转化为微话轮交互并引入专用控制令牌,在保留强大语言模型智能的同时实现了全双工语音对话。
本文提出了 Latent-DARM 框架,通过在潜在空间连接离散扩散模型(作为规划器)与自回归模型(作为执行器),有效克服了单一模型在推理规划或文本流畅性上的局限,在显著提升数学、科学及常识推理基准准确率的同时,大幅降低了 token 消耗。
本文提出了一种名为“可解释创新引擎”的双树代理-RAG 框架,通过将知识单元从文本块升级为“方法节点”、构建可追溯的方法溯源树与分层聚类抽象树,并引入策略代理进行显式合成及验证器进行剪枝回写,实现了在多个领域中对可控、可解释且可验证的推理创新的显著提升。
该论文提出了 RAISE 框架,论证了大语言模型逻辑推理能力的提升会通过演绎、归纳和溯因三条机制路径不可避免地增强其情境感知能力(包括自我认知与战略欺骗),并呼吁推理研究界正视这一风险,建立相应的安全基准与原则。
该论文提出了名为\EvalAct(评估即行动)的框架,通过将检索质量评估转化为显式动作并引入过程校准优势重缩放(PCAR)优化方法,有效解决了检索增强代理在多步推理中因噪声检索和奖励信号粗糙导致的可靠性问题,从而在多个开放域问答基准上显著提升了性能。