DREAM: Where Visual Understanding Meets Text-to-Image Generation
本文提出了 DREAM 框架,通过掩码预热训练和语义对齐解码技术,在单一模型中协同优化判别与生成目标,从而在仅使用 CC12M 数据集训练的情况下,显著提升了视觉理解与文本到图像生成的综合性能。
4138 篇论文
本文提出了 DREAM 框架,通过掩码预热训练和语义对齐解码技术,在单一模型中协同优化判别与生成目标,从而在仅使用 CC12M 数据集训练的情况下,显著提升了视觉理解与文本到图像生成的综合性能。
本文提出了名为 VisionCreator 的原生视觉生成智能体模型,通过构建高质量数据、采用渐进式专业化训练与虚拟强化学习策略,并建立综合基准测试,实现了理解、思考、规划与创作(UTPC)能力的端到端统一,在多项评估中展现出超越更大规模闭源模型的卓越性能。
本文提出了 ReCo-Diff,一种利用观测残差进行残差条件自引导采样的确定性冷扩散框架,通过在每个采样步骤中基于预测图像与稀疏视图输入之间的残差进行持续校正,从而在无需启发式干预的情况下显著提升了稀疏视图 CT 重建的精度、稳定性及鲁棒性。
FiDeSR 提出了一种高保真且细节保留的单步扩散超分辨率框架,通过训练时的细节感知加权策略、推理时的低高频自适应增强器以及残差内噪声细化机制,在无需重新训练模型的情况下实现了优于现有扩散方法的真实世界图像超分辨率重建效果。
本文提出了 ShareVerse 框架,通过构建大规模多智能体交互数据集、采用四视图空间拼接策略以及引入跨智能体注意力机制,实现了多智能体在共享世界建模中时空一致的大规模视频生成。
本文提出并验证了基于视觉 - 语言深度学习模型的智能诊断系统 GTDoctor 及其软件 GTDiagnosis,该系统通过像素级病灶分割与个性化分析,显著提升了妊娠滋养细胞疾病病理诊断的准确性、一致性及效率。
该论文提出了一种名为 MiM-DiT 的统一图像恢复框架,通过结合预训练扩散模型与双层混合专家(MoE)架构,实现了从粗粒度退化类型到细粒度类内变化的自适应处理,从而在多种图像恢复任务中取得了优于现有最先进方法的效果。
本文提出了 CoR-Painter 框架,通过引入“约束推理”机制将生成过程从单纯描述“画什么”转变为先规划“怎么画”的视觉约束,从而有效解决自回归图像生成中的空间模糊与物体重叠问题,并在多项基准测试中实现了最先进的性能。
本文提出了 TenExp 框架,通过引入混合专家机制实现无监督的动态张量分解结构搜索,能够灵活选择单一或混合分解模式以精准捕捉数据低秩结构,并在理论误差界和实验验证上均优于现有方法。
本文提出了一种名为 SFDE 的轻量级网络,通过并行利用空间域与频域的多分支架构,有效解决了跨视角地理定位中因几何不对称和纹理不一致导致的特征匹配难题,并在多项实验中超越了现有最先进方法。
该论文针对多模态大语言模型在遥感视觉问答中因视觉定位失败导致的幻觉问题,提出了无需训练的 RADAR 推理方法,通过利用模型内在注意力机制引导渐进式定位与细粒度推理,有效提升了模型性能并减少了事实与逻辑幻觉。
本文提出了 HiLoRA,一种通过根、簇、叶三级分层低秩适配器结合正交约束与自适应聚类机制,以解决联邦学习中未见客户端泛化难题并提升个性化性能的视觉 Transformer 微调框架。
本文介绍了 UNICORN,这是一个旨在通过统一协议、标准化少样本评估及跨机构多模态数据集,系统评估医学基础模型在计算病理学、放射学和自然语言处理领域泛化能力的公开基准。
本文提出了 R3GW 方法,通过利用两套高斯点分别建模前景的可重光照反射与天空的非反射背景,并结合物理渲染技术,实现了在任意光照条件下对野外户外场景进行高质量的重光照与新视角合成。
本文提出了名为 NOVA 的无需配对数据的视频编辑框架,通过结合用户编辑关键帧的稀疏控制与原始视频运动纹理的密集合成,并采用退化模拟训练策略,在无需大规模配对数据的情况下实现了高保真、运动一致且时序连贯的视频编辑效果。
本文针对古代希腊批判版文本的复杂结构识别难题,构建了大规模合成语料与真实基准数据集,评估了视觉语言模型的表现并发现 Qwen3VL-8B 在微调后能以 1.0% 的中位字符错误率实现最先进的识别效果,揭示了当前模型在处理此类结构化历史文献时的局限与潜力。
本文提出了 ScribeTokens,一种将数字墨迹分解为固定 10 词表单元像素步长的新型分词方法,结合自监督的“下一墨迹词预测”预训练策略,在无需预训练的情况下实现了优于向量的手写识别性能,并在生成任务中大幅超越了传统向量表示。
本文提出了一种由尺度协方差高斯导数残差块级联构成的尺度不变高斯导数残差网络(GaussDerResNets),通过引入残差连接在显著提升精度的同时保持优异的尺度泛化能力,并在多个重缩放数据集上验证了其跨尺度泛化与选择性能。
该研究通过探测实验发现,大型视觉语言模型中节点和全局结构信息在视觉编码器阶段即已线性可分,而边信息仅在语言模型的文本令牌中才形成线性表示,这种边信息的延迟涌现解释了模型在理解节点与边等关系时面临的困难。
本文提出了一种用于稀疏视图新视图合成的多模态先验引导重要性采样方法,通过融合光度、语义和几何先验来指导分层 3D 高斯泼溅的粗到细构建与保留策略,从而在减少过拟合和噪声的同时实现了 DTU 基准上领先的重建质量。