Investigating Disability Representations in Text-to-Image Models
本研究通过分析 Stable Diffusion XL 和 DALL-E 3 的生成结果,揭示了当前文生图模型在残障群体表征上存在的持续失衡问题,并强调了通过持续评估与优化以推动更具包容性描绘的必要性。
5331 篇论文
本研究通过分析 Stable Diffusion XL 和 DALL-E 3 的生成结果,揭示了当前文生图模型在残障群体表征上存在的持续失衡问题,并强调了通过持续评估与优化以推动更具包容性描绘的必要性。
本文提出了残差流扩散模型(RFDM),这是一种基于图像扩散模型的高效因果视频编辑方法,通过预测帧间残差实现了可变长度视频的逐帧编辑,在保持与图像模型相当计算成本的同时,显著提升了视频编辑的效率与效果。
该研究通过对比五个前沿模型在医疗与自然图像数据集上的表现,揭示了单切片重建 3D 体积时因深度模糊导致的体素重叠率普遍低下,但指出 SAM3D 在拓扑相似性上表现最佳,从而强调了实现可靠医疗 3D 重建亟需领域特定适配与解剖约束。
本文提出了 EchoTorrent,一种通过多教师训练、自适应 CFG 校准、混合长尾强制及 VAE 解码器优化等创新设计,旨在解决多模态视频生成中延迟高、时序不稳定及流式推理性能下降问题,从而实现快速、持久且同步的高质量视频生成的新型架构。
本文提出了 GPEReg-Net,一种通过位置编码时序注意力机制将跨域图像配准转化为场景表示与外观统计解耦重组的无变形配准方法,在无需显式估计形变场的情况下实现了超越现有方法的精度与速度。
本文提出了 OmniCT,一种统一的 CT 切片 - 体积大语言模型,通过空间一致性增强和器官级语义增强机制,有效解决了现有模型在局部细节与全局空间推理上的割裂问题,并发布了大规模数据集 MedEval-CT 以推动医学影像理解的临床转化。
本文提出了 Prefer-DAS 模型,通过结合稀疏提示学习与局部偏好优化(包括 LPO、SLPO 及 UPO),在仅需稀疏点标注或人类反馈的情况下,实现了比现有无监督及弱监督方法更优越且接近全监督水平的电子显微镜域自适应分割性能。
本文提出了专为肝细胞病理分析设计的多模态大语言模型 Hepato-LLaVA,通过引入稀疏拓扑打包注意力机制有效解决全切片图像中的信息丢失与特征冗余问题,并构建了专家验证的 HepatoPathoVQA 数据集,在肝癌诊断与描述任务中取得了领先性能。
该论文提出了一种基于因果推理框架的医学图像分割模型解释方法,通过量化平均处理效应来评估输入区域及网络组件对分割结果的影响,实验表明该方法不仅比现有技术提供更忠实的解释,还能揭示不同模型及输入间感知策略的显著异质性,为模型优化提供了新见解。
本文提出了数据集颜色量化(DCQ)框架,通过减少图像颜色空间的冗余并保留对模型训练至关重要的语义和结构信息,在显著压缩大规模图像数据集存储需求的同时提升了模型训练性能。
该论文提出了名为“视觉指令注入(VII)”的训练无关且可迁移的越狱框架,通过将恶意文本意图伪装成安全参考图像中的视觉指令,成功利用图像到视频生成模型的视觉指令跟随能力,在四大主流商业模型上实现了高达 83.5% 的攻击成功率并几乎消除了拒绝响应。
本文提出了 HorizonForge,这是一个通过结合可编辑的 Gaussian Splats 与 Mesh 表示及噪声感知视频扩散过程,实现任意轨迹和车辆驱动的逼真驾驶场景编辑的统一框架,并配套推出了 HorizonSuite 基准测试以验证其在保真度与可控性上的显著优势。
本文提出了一种基于光 - 几何交互(LGI)图的新方法,通过将光照方向与几何结构显式关联,构建了首个涵盖复杂反射与透射的大规模联合阴影生成与重光照基准数据集,并利用桥接匹配生成模型实现了物理一致且逼真的阴影生成与重光照效果。
PhotoAgent 提出了一种通过显式美学规划、树搜索多步决策及闭环反馈机制实现自主图像编辑的智能体系统,并构建了 UGC-Edit 基准与评估集以验证其在指令遵循和视觉质量上的显著优势。
本文提出了旨在评估跨视频、音频和图像模态深度推理与工具使用能力的 OmniGAIA 基准,并构建了基于主动感知与工具集成推理范式的原生全模态智能体 OmniAtlas,以推动面向真实场景的下一代全模态 AI 助手发展。
本文提出了 HELMLAB,一种专为 UI 设计系统打造的 72 参数解析色彩空间,它通过结合学习矩阵、通道幂压缩及傅里叶色相校正等机制,在 COMBVD 数据集上将感知距离的 STRESS 值较 CIEDE2000 降低了 20.2%,并具备高可逆性及完善的设计系统实用工具。
本文提出了名为 AgentVista 的基准测试,旨在通过涵盖 25 个子领域、结合高保真视觉场景与混合工具调用的长程任务,评估并揭示当前多模态智能体在应对现实世界复杂问题时的显著能力差距。
本文提出了 V-MORALS 方法,该方法利用图像轨迹数据在 learned 潜在空间中构建 Morse 图,从而在无需系统动力学模型或完整状态信息的情况下,有效估计机器人系统的吸引域。
本文提出了一种名为 HMKGN 的层次化多尺度知识感知图网络,通过结合空间局部约束的动态图构建与多尺度特征融合,在四个 TCGA 癌症队列的生存分析中显著优于现有方法,实现了更准确的预后预测。
该论文提出了名为 AoE 的始终在线第一人称视频采集系统,通过利用智能手机和云边协同架构,以低成本、高效率的方式从全球分布的“人类智能体”中获取大规模真实世界交互数据,从而解决具身智能基础模型训练中的数据稀缺问题并提升其泛化能力。