Physics-Consistent Diffusion for Efficient Fluid Super-Resolution via Multiscale Residual Correction
本文提出了 ReMD(残差 - 多重网格扩散)框架,通过在每个反向步骤中结合数据一致性与轻量级物理线索进行多尺度残差校正,并利用多小波基捕捉流体结构,从而在无需方程约束的情况下实现了高效、物理一致且谱保真的流体超分辨率重建。
7913 篇论文
本文提出了 ReMD(残差 - 多重网格扩散)框架,通过在每个反向步骤中结合数据一致性与轻量级物理线索进行多尺度残差校正,并利用多小波基捕捉流体结构,从而在无需方程约束的情况下实现了高效、物理一致且谱保真的流体超分辨率重建。
该论文提出了一种无需额外训练、基于梯度的“锚点与垫片”方法,通过操纵扩散模型的潜在空间与交叉注意力机制,成功绕过可见及不可见的版权保护(如水印和签名),实现了对受版权保护图像的高度逼真复制,从而揭示了当前神经模型面临的严重数据剽窃风险。
本文针对机器人操作中单视角易受自遮挡影响的问题,提出了一种多视角架构以预测机器人动作的进展,并通过 Mobile ALOHA 实验验证了该方法的有效性。
本文提出了 EfficientPosterGen 框架,通过语义感知关键信息检索、基于视觉的上下文压缩以及无代理的布局违规检测三大创新,有效解决了现有方法在处理长论文时信息密度低、Token 消耗大及布局验证不可靠的问题,实现了高效且高质量的自动化学术海报生成。
本文提出了 BiCLIP 框架,通过双向多模态融合机制与增强一致性目标,显著提升了医学图像分割在标注稀缺及存在临床伪影等复杂场景下的鲁棒性与语义对齐能力。
本文提出了名为 FujiView 的多模态晚融合框架及包含超 10 万张图像的数据集,通过融合网络摄像头图像与气象数据,实现了对富士山等自然景观可视度的高精度预测(同天预测准确率约 89%),并确立了景观可视度预测作为多模态学习新基准任务的地位。
FlowPortrait 提出了一种基于多模态骨干网络与人类对齐评估系统的强化学习框架,通过组相对策略优化(GRPO)有效解决了音频驱动肖像视频生成中唇形同步、动作自然度及评估指标与人类感知不匹配等挑战,显著提升了生成视频的质量。
该研究通过整合大规模异构数据并采用自监督学习微调 DINOv3 作为骨干网络,构建了 DINOv3-YOLO26 双骨干架构模型,显著提升了蔬菜作物中杂草检测的精度与跨域泛化能力,同时保持了实时推理性能。
本文介绍了 SKINOPATHY AI,这是一款基于智能手机的轻量级计算机视觉 Web 应用,通过五个可解释的筛查模块(涵盖红眼量化、眨眼率估计、瞳孔光反射分析、巩膜颜色索引及虹膜病变测量),在无需云端 AI 推理和专用设备的条件下,为资源匮乏地区提供了隐私保护的纵向眼科筛查与追踪解决方案。
本文介绍了 GazeXPErT 数据集,该数据集通过收集专家在 346 例 FDG-PET/CT 肿瘤扫描中的眼动追踪数据,旨在提升 AI 模型在肿瘤分割、定位及意图预测方面的可解释性与性能,从而推动其在肿瘤学临床诊断中的应用。
该论文针对白board笔迹分割中极端的类别不平衡问题,提出了一套结合区域指标、边界感知指标及细粒度子集公平性分析的综合评估协议,揭示了重叠损失函数在提升整体与边界精度方面的优势,并阐明了传统二值化方法在平均性能与深度学习模型在极端情况下的鲁棒性之间的权衡。
本文提出了 ConFoThinking 框架,通过聚合分散的注意力信号至指定中间层并利用简洁语义线索提取关注区域,有效解决了多模态大模型在视觉问答中定位不准和语义噪声问题,显著提升了细粒度感知性能。
本文针对生成式 AI 在简单确定性任务中表现出的“简单悖论”,提出了“服从性”概念及分级体系,并推出了首个专注于纯色生成的 VIOLIN 基准,旨在揭示模型在指令对齐上的根本局限并推动相关研究。
该研究利用立体相机采集图像,并通过迁移学习优化 MobileNetV2 和 EfficientNetB0 卷积神经网络模型,成功实现了对土耳其五种特有橄榄品种的高精度(94.5%)自动分类,为农产品质量管控提供了有效的深度学习解决方案。
本文详细记录了从零开始训练视频基础模型 Summer-22B 的全过程,重点分享了在构建约 5000 万片段数据集时面临的工程挑战、设计决策及关键经验教训,强调了数据工程的主导作用以及特定架构优化策略的有效性。
本文针对长程 GUI 代理中 KV 缓存内存与延迟瓶颈,提出了一种无需训练的 ST-Lite 框架,通过结合组件中心空间显著性与轨迹感知语义门控策略,在仅保留 10-20% 缓存预算的情况下实现了 2.45 倍的解码加速,同时保持了与全缓存基线相当甚至更优的性能。
该论文提出了一种名为 LoDA 的新方法,通过从投影能量视角对 LoRA 进行任务驱动的子空间分解,并采用梯度对齐优化与闭式重校准策略,有效平衡了持续学习中的知识共享与隔离,从而显著提升了模型性能。
本文提出了 SKeDA 框架,通过基于洗牌密钥的分布保持采样(SKe)和差分注意力(DA)机制,解决了现有方法在文本生成视频模型中因帧对齐依赖和时序畸变导致的鲁棒性不足问题,实现了高保真且强鲁棒性的生成式水印嵌入。
本文通过将基于概念归纳的神经元可解释性框架应用于 SUN2012 数据集,验证了该方法在场景识别任务中的泛化能力及其对隐藏神经元语义标签分配的有效性。
该论文针对混合架构长视频视觉语言模型,通过分析令牌重要性在层间的稀疏性与不稳定性,提出了一种结合语言感知评分机制与由低到高分阶段缩减策略的方法,在大幅加速推理的同时保持了高精度的性能。