FlowFixer: Towards Detail-Preserving Subject-Driven Generation
FlowFixer 是一种面向主体驱动的生成框架,它通过引入自监督训练数据和基于关键点匹配的评估指标,利用直接图像到图像的翻译技术,有效解决了生成过程中因尺度与视角变化导致的细节丢失问题,从而在保真度上超越了现有最先进方法。
8844 篇论文
FlowFixer 是一种面向主体驱动的生成框架,它通过引入自监督训练数据和基于关键点匹配的评估指标,利用直接图像到图像的翻译技术,有效解决了生成过程中因尺度与视角变化导致的细节丢失问题,从而在保真度上超越了现有最先进方法。
该论文针对现有图像编辑模型在处理复杂物理动态时缺乏真实性的问题,提出了包含 3.8 万条物理轨迹的大规模数据集 PhysicTran38K 及端到端框架 PhysicEdit,通过结合大语言模型的物理推理能力与自适应视觉引导,显著提升了编辑结果的物理合理性与知识 grounded 水平。
SemVideo 提出了一种基于分层语义引导的 fMRI 到视频重建框架,通过其核心模块 SemMiner 提取静态、动态及整体语义线索,有效解决了现有方法中物体外观不一致和时序连贯性差的难题,在 CC2017 和 HCP 数据集上实现了语义对齐与时间一致性的新突破。
针对现有实时目标检测模型(如 YOLO 系列和 RT-DETR)过度关注前景特征而忽视背景上下文信息的局限性,本文提出了名为"Association DETR"的新模型,通过有效利用背景信息(如道路之于汽车、森林之于野生动物)在 COCO val2017 数据集上实现了超越现有 SOTA 模型的性能。
本文提出了 Gap-Free 反射去除网络(GFRRN),通过引入参数高效微调策略、统一合成与真实数据标签的生成器、基于高斯的自适应频率学习块以及动态代理注意力机制,有效解决了现有双流方法在语义理解差距和标签不一致方面的挑战,从而在单图像反射去除任务中实现了超越现有最先进方法的性能。
本文提出了 SPATIALALIGN 框架,通过引入基于几何度量的 DSR-SCORE 指标和零阶正则化直接偏好优化方法,显著提升了文生视频模型在生成过程中对文本提示中动态空间关系的对齐能力。
本文提出了 WARM-CAT 方法,通过利用无监督数据在测试时动态积累多模态知识、引入自适应更新权重与基于“热启动”优先队列的视觉原型生成机制,有效解决了组合零样本学习中的标签分布偏移问题,并发布了新基准数据集 C-Fashion 以刷新多项基准测试的 SOTA 性能。
本文提出了首个面向事件相机的运动感知事件抑制框架,该框架通过实时联合分割与预测运动物体来前瞻性地过滤动态事件,在显著提升分割精度与推理速度的同时,有效加速了下游视觉 Transformer 推理并优化了视觉里程计精度。
本文从光声波动方程出发,推导了适用于任意球对称初始压力分布的统一解析解,给出了均匀、高斯、指数及幂律等常见分布的具体表达式,并提供了基于该模型的超快前向模拟代码以辅助光声成像系统设计与信号分析。
该论文提出了一种基于 Qwen 2.5 Omni 的有监督微调大模型 AV-LMMDetect,通过将音视频深度伪造检测转化为提示式分类任务,并采用 LoRA 对齐与全量微调的两阶段训练策略,在多个数据集上实现了优于或持平现有方法的检测性能。
该论文通过基于双机械臂的 13,000 多次真实世界实验,系统性地解构了动作空间设计对机器人策略学习的影响,发现预测增量动作能显著提升性能,而关节空间与任务空间表示则分别在控制稳定性和泛化能力上各具优势。
本文提出了名为 DesignSense-10k 的大规模人类偏好数据集及基于视觉语言模型的奖励框架,通过五阶段数据构建流程和四分类标注体系,显著提升了图形布局生成的评估精度与生成质量,有效解决了现有模型在布局美学判断上的不足。
本文提出了 SALIENT,一种基于掩码条件的频域扩散框架,通过在离散小波域进行结构化去噪并解耦目标与背景属性,实现了可控的长尾 CT 病变合成与增强,从而显著提升了稀有病灶检测的精度与效率。
本文通过计算多度数和多重齐次消失理想,完整刻画了兼容基础矩阵三元组的代数结构,不仅回答了 Bråtelund 和 Rydell 提出的关键问题,还发现了一组新的四次约束,这些约束在基础矩阵和本质矩阵的兼容性问题中均具有核心意义。
该论文提出了一种结构引导的动态卷积(SGDC)机制,通过利用显式监督的结构提取分支提供的高保真边界信息来指导动态核生成,从而克服了传统平均池化导致的高频细节丢失问题,在多个医学图像分割数据集上实现了优于现有方法的边界保真度与分割精度。
该论文提出了一种名为 SegReg 的潜在空间正则化框架,通过约束 U-Net 特征图的结构化嵌入,在无需增加额外参数或显存的情况下,显著提升了医学图像分割模型在域泛化及持续学习场景下的性能。
本文针对动态视觉传感器数据稀缺的问题,提出了一种基于 Unity 引擎的名为 ANTShapes 的新颖仿真框架,该框架通过统计过程生成可配置的 3D 场景及异常行为,从而为事件式计算机视觉研究提供定制化的异常检测数据集。
该论文提出了一种名为 LIDMark 的统一主动取证框架,通过创新的 152 维地标 - 身份水印和因子化头部解码器,实现了深度伪造检测、篡改定位与来源溯源的“三合一”鲁棒解决方案。
本文提出了一种结合冻结预训练骨干网络与任务特定低秩适应(LoRA)模块的方法,在无需回放旧数据的情况下,成功解决了 3D 脑 MRI 在少样本连续学习场景下同时执行肿瘤分割和脑龄估计任务时的灾难性遗忘问题,并以极少的可训练参数实现了零遗忘的平衡性能。
该研究开发了一种基于剂量体积重叠与深度学习分割的自动化软件,能够无需依赖元数据即可从放疗计划中准确推断解剖区域,为处理大规模多机构放疗大数据提供了可扩展且标准化的解决方案。