CoEditor++: Instruction-based Visual Editing via Cognitive Reasoning
CoEditor++ 是一种无需训练的认知结构化框架,通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制,在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能,同时显著提升了视觉一致性和任务可解释性。
2190 篇论文
CoEditor++ 是一种无需训练的认知结构化框架,通过“编辑什么”和“如何编辑”的双阶段推理及自选择机制,在无需微调的情况下实现了超越现有开源及闭源模型的指令驱动图像编辑性能,同时显著提升了视觉一致性和任务可解释性。
RoboLayout 通过引入可微分的可达性约束和局部细化优化机制,扩展了 LayoutVLM 框架,使其能够生成既符合语义逻辑又适应不同具身智能体物理交互能力的 3D 室内场景布局。
本文提出了 Omni-C,一种基于单一稠密 Transformer 编码器的统一架构,它通过大规模非对齐数据的单模态对比预训练和轻量级投影头,在无需混合专家(MoE)或配对监督的情况下,有效压缩了图像、音频和文本等异构模态,显著降低了推理内存开销并实现了与专家模型相当的性能。
本文提出了一种结合临床特征注入 Transformer 与领域自适应掩码自编码器的多模态计算病理框架,仅利用常规 PAS 染色活检和临床数据,在儿童狼疮性肾炎预后预测中实现了高达 90.1% 的三类准确率。
该论文提出了一种名为 SKETCHGAIT 的鲁棒步态识别框架,通过引入无需标签的“素描”(SKETCH)模态来提取高频结构线索,并结合多模态解耦融合策略,有效克服了传统轮廓和解析方法在判别力与稳定性上的局限,在多个数据集上取得了领先的识别性能。
本文提出了一种基于数字孪生的 V2X 轨迹预测框架,通过结合 Bi-LSTM 生成器与包含标准均方误差及新型“孪生损失”的联合训练目标,在确保预测精度的同时有效降低了交通违规和碰撞风险,从而提升了城市复杂路口多智能体交互场景下的安全性与合规性。
AutoThinkRAG 通过引入查询复杂度路由器和将视觉解析与逻辑推理功能解耦的小规模 VLM 与大语言模型协同架构,有效解决了多模态文档问答中的长上下文与信息过载难题,在显著降低推理成本的同时实现了新的最先进性能。
本文提出了一种名为“偏差不变子网络提取(BISE)”的策略,旨在无需重新训练或额外数据的情况下,通过剪枝技术从标准预训练模型中直接提取出具备去偏能力且性能鲁棒的子网络,从而实现高效的结构化偏差缓解。
本文提出了“空间代码思维”框架,通过将 RGB 视频转化为包含显式 3D 定向边界框和语义标签的结构化空间代码,并结合强化学习微调大语言模型,使其能够在 VSI-Bench 基准上超越现有专有视觉语言模型,实现物理世界视频推理的显著突破。
该论文提出了首个针对基于热力图的关键点检测器的耦合鲁棒性验证框架,通过混合整数线性规划将验证问题转化为联合偏差约束下的反例搜索,从而克服了传统解耦方法在连续坐标输出和高维输入下的局限性,实现了对关键点间依赖关系及下游任务需求的更紧确且有效的鲁棒性证明。
DreamCAD 提出了一种利用可微参数曲面从点级监督直接生成可编辑 BRep 的多模态生成框架,结合新构建的百万级 CAD 描述数据集,在无需特定 CAD 标注的情况下实现了大规模训练并显著提升了文本、图像及点云到 CAD 生成的几何保真度。
该论文提出了一种名为 ABRA 的对抗性批次表示增强方法,通过将生物批次效应建模为域泛化问题,利用极小化极大优化框架合成最坏情况下的批次扰动,从而在无需额外先验知识的情况下显著提升了高内涵细胞筛选中深度学习模型的泛化能力。
该论文提出了一种名为“后融合稳定器”(PFS)的轻量级模块,它作为现有鸟瞰图融合检测器的即插即用组件,通过稳定特征统计、抑制退化区域及自适应残差校正,在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。
本文提出了名为 CBM-Suite 的方法论框架,通过引入基于熵的概念适用性度量、在概念与分类器间插入非线性层以解决线性问题、利用教师探针蒸馏缩小精度差距,以及系统分析不同视觉骨干与 VLM 的影响,全面解决了概念瓶颈模型(CBM)在概念评估、线性绕过、精度差距及组件交互研究方面的关键局限。
该论文提出了一种名为插值 FID(iFID)的新指标,通过检索数据集中每个样本在潜在空间中的最近邻并插值其潜在表示,成功解决了传统重建 FID 与扩散生成 FID 相关性差的问题,实现了高达 0.85 的强相关性预测。
本文针对缺乏理想参考答案的参考自由强化学习场景,提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”(IEC)方法,并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”(RaR)及多种基线的性能。
本文提出了名为 SemVID 的训练无关视频时间定位剪枝框架,通过引入证据保留与连通性强度原则,动态分配帧级令牌预算并筛选对象、运动及上下文令牌,在显著降低计算成本的同时有效保持了关键语义证据链的完整性。
该论文提出了一种利用调制高斯包络以在任意 k 空间位置放置频谱支持的 Gabor 基元方法,结合低秩时空分解,实现了无需大规模训练数据即可从高度欠采样数据中高效重建具有物理可解释参数的高分辨率心脏电影 MRI 图像,其性能优于压缩感知、高斯基元及哈希网格隐式神经表示等现有基线。
本文提出了一种名为 OWL 的新型感知函数,它仅利用视觉运动线索(如局部视觉膨胀和相对旋转)即可在无需预先知道环境或相机运动信息的情况下,实现实时的缩放 3D 场景重建与相机航向估计,从而为机器人导航及理解自然感知提供了新的理论视角。
该论文提出了一种基于区域感知扩散模型的伪 3D 纵向脑 MRI 病灶修复框架,通过融合多时相上下文信息,在显著提升图像感知保真度与纵向稳定性的同时,实现了比现有最先进方法快约 10 倍的修复效率。