InnoAds-Composer: Efficient Condition Composition for E-Commerce Poster Generation
本文提出了 InnoAds-Composer,一种针对电商海报生成的单阶段框架,通过动态路由机制实现高效的主体、文字和风格三重条件控制,并配合文本特征增强模块与首个联合数据集,显著提升了生成质量与文字准确性,同时保持了较低的推理延迟。
2224 篇论文
本文提出了 InnoAds-Composer,一种针对电商海报生成的单阶段框架,通过动态路由机制实现高效的主体、文字和风格三重条件控制,并配合文本特征增强模块与首个联合数据集,显著提升了生成质量与文字准确性,同时保持了较低的推理延迟。
该论文针对概念瓶颈模型(CBM)在图像分类中存在的概念信息泄露及性别偏见问题,提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术,显著提升了模型在公平性与性能之间的权衡,推动了可解释且公平图像分类的发展。
该论文提出了一种名为 CollabOD 的轻量级协同检测框架,通过结构细节保持、跨路径特征对齐及定位感知轻量化设计,有效解决了无人机图像中小目标检测中因尺度变化、细节退化及资源受限导致的定位不稳定和鲁棒性不足问题。
该论文针对现有 2D 转 3D 技术缺乏艺术表现力的问题,提出了以“艺术视差合成”为核心的新范式及 Art3D 框架,通过解耦全局深度意图与局部艺术笔触,实现了从追求几何精确性向构建沉浸式电影级 3D 体验的转变。
Pano3DComposer 是一种高效的单全景图前馈框架,通过引入可插拔的“对象 - 世界变换预测器”和粗到细对齐机制,实现了从单张全景图快速生成高保真、几何精确的 360 度完整 3D 场景。
该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K,并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架,通过从监督微调(SFT)到 GRPO 的渐进式训练策略,显著提升了复杂病灶分割的精度与逻辑可解释性。
本文提出了名为 BlackMirror 的通用无训练黑盒检测框架,通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性,从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。
本文提出了一种受整流流启发的 RAC 模型,通过利用整流流的直线路径实现可修正的多步解码与双向推理,在降低约 41% 参数和 70% 计算成本的同时,显著超越了现有最先进 VAE 的重建与生成性能。
本文提出了名为 RAID 的大规模驾驶场景数据集及一种弱监督风险感知框架,通过建模驾驶员意图与响应关系来识别潜在风险源,并在 RAID 和 HDDS 数据集上显著提升了风险识别性能。
本文提出了 TAR-ViTPose,一种专为视频 2D 人体姿态估计设计的时序聚合与恢复视觉 Transformer,通过引入关节中心时序聚合(JTA)和全局恢复注意力(GRA)机制,有效利用帧间时序信息以解决静态模型在遮挡和运动模糊等场景下的不稳定性问题,从而在 PoseTrack2017 基准上显著提升了精度并实现了更高的实时运行帧率。
FTSplat 提出了一种前馈三角形点阵网络,通过从多视图图像直接预测连续三角形表面,实现了无需单场景优化即可生成适用于机器人仿真的高保真、流形几何 3D 重建。
本文提出了名为 OD-RASE 的框架,通过结合领域本体、大型视觉语言模型与扩散模型,主动识别导致交通事故的道路结构并生成相应的基础设施改进方案及可视化图像,从而提升自动驾驶系统的安全性与适应性。
该论文提出了一种结合深度残差网络与 U-Net 架构的残差掩蔽网络,利用分割网络优化特征图以增强注意力机制,从而在 FER2013 和 VEMO 数据集上实现了面部表情识别的当前最优性能。
本文提出了 SLER-IR 框架,通过球面分层专家路由、基于对比学习的球面均匀退化嵌入以及全局 - 局部粒度融合模块,有效解决了统一图像恢复中的特征干扰与专家专业化不足问题,并在多项基准测试中取得了优于现有最先进方法的性能。
该论文提出了一种基于二维离散傅里叶幅度谱自适应径向投影的文档图像倾斜估计新方法,并发布了 DISE-2021 数据集以验证其性能,结果表明该方法在鲁棒性和准确性上均优于现有技术。
LucidNFT 提出了一种基于流匹配的生成式真实世界超分辨率多奖励强化学习框架,通过引入抗退化的语义一致性评估器(LucidConsistency)、解耦的优势归一化策略以及大规模真实退化数据集(LucidLR),有效解决了现有方法中语义幻觉、多奖励优化导致的优势坍缩及退化覆盖不足等关键问题,实现了感知质量与低分辨率锚定忠实度之间的更优平衡。
本文提出了 E-AdaPrune,一种基于视觉特征奇异值谱能量驱动的自适应视觉 Token 剪枝框架,它无需额外参数即可根据图像信息密度动态分配 Token 预算,在保持极低延迟的同时显著提升了多模态大模型的性能。
本文提出了 VINE 框架,通过构建空间 - 视图图来建模结构一致性,并利用判别性先验增强前景特征,从而在少样本分割任务中有效解决大视角变化下的结构错位与跨视图不一致问题。
OVGGT 是一种无需训练的框架,通过自选择性缓存和动态锚点保护技术,在保持恒定显存与计算成本的同时,实现了任意长度视频流的高精度 3D 几何重建。
该论文提出了一种基于“分割后识别”两阶段策略的开放词汇目标识别框架,通过结合 CLIP 与 CNN/MLP 特征对齐及 SVD 降维技术,在无需复杂重训练和人工标注的情况下,于多个基准数据集上实现了超越现有最先进方法的训练免费识别性能。