Personalized Feature Translation for Expression Recognition: An Efficient Source-Free Domain Adaptation Method
该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法,通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据,从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。
1392 篇论文
该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法,通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据,从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。
本文提出了 EgoCross 基准,旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测,揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性,并为构建更鲁棒的领域自适应视频理解系统奠定基础。
本文提出了YOPO,一种单阶段、基于查询的极简检测Transformer框架,仅需单目RGB图像和类别级标签即可实现端到端的9自由度多物体姿态估计,并在多个基准测试中刷新了仅用RGB数据的性能纪录。
CoRe-GS 提出了一种面向任务驱动的粗到精高斯溅射框架,通过仅对感兴趣区域进行选择性优化并引入颜色过滤机制去除异常点,在显著降低计算成本的同时提升了特定场景点的重建质量与分割效率,从而满足机器人实时操作需求。
本文提出了 VocSegMRI 框架,通过融合视频、音频和音位信息并利用交叉注意力机制与对比学习,显著提升了实时磁共振成像(rtMRI)中声道分割的精度与鲁棒性,在 USC-75 数据集上取得了优于现有方法的性能。
该论文提出了一种名为“Kuramoto 取向扩散模型”的生成方法,通过利用生物启发的 Kuramoto 同步动力学在周期性域上构建分数模型,有效解决了指纹和纹理等富含方向性信息的图像生成难题,显著提升了此类数据的生成质量。
本文提出了一种名为 CSLICS 的低成本模块化成像系统,利用人机协作训练的目标检测技术实现珊瑚产卵的自动化计数,在 Great Barrier Reef 的实验中不仅显著提升了不同发育阶段产卵检测的准确率(表面检测 F1 分数达 82.4%),还大幅减少了人工劳动时间,从而有效推动了珊瑚礁生态修复的规模化发展。
该论文提出了一种无监督方法,通过识别解码方向(基于激活聚类)和估计编码方向(基于信号向量),并利用不确定性区域对齐技术,成功恢复了深度视觉网络中概念信息的编码 - 解码方向对,从而实现了对模型黑盒机制的可解释性分析、预测解释及干预修正。
本文提出了 VSSFlow,一种基于流匹配的联合学习框架,通过引入解耦条件聚合机制,成功统一了视频到声音和视频文本到语音生成任务,并在端到端联合训练中实现了超越现有专用基线的性能。
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。
该论文针对视觉语言模型在多轮多模态对话中面临的安全挑战,构建了包含 4484 条标注对话的 MMDS 数据集及自动化红队测试框架,并提出了 LLaVAShield 安全审计系统,该系统在检测多轮对话中的隐蔽恶意意图和累积风险方面显著优于现有模型与工具。
该研究通过开发一种针对历史地图复杂性的双阶段 U-Net 深度学习流程,成功从 1925 至 1950 年的法国历史地图中提取并发布了首个覆盖全国的高精度城市足迹数据集,填补了 20 世纪 70 年代前法国城市扩张量化分析的空白。
本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。
该论文针对 LiDAR 语义分割中标签噪声与域泛化双重挑战,首次建立了相关基准并提出了名为 DuNe 的双视图一致性框架,在多个数据集的含噪标签域泛化任务中取得了最先进性能。
该论文提出了名为 RECODE 的代理框架,通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化,显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。
该论文提出了一种统一帧内与帧间编码的实时神经视频压缩框架,通过引入自适应帧内编码机制有效解决了遮挡、新内容处理及误差累积问题,并采用双向两帧压缩设计,在保持实时性的同时显著提升了压缩效率与稳定性。
本文提出了名为 FALCON 的新范式,通过利用空间基础模型从 RGB 图像中提取丰富的 3D 几何先验并注入动作头,有效弥补了现有视觉 - 语言 - 动作模型在空间推理上的不足,从而在仿真和真实世界任务中实现了超越基线的状态-of-the-art 性能。
该论文提出通过筛选关键身体地标子集并结合样条插值填补缺失数据,在巴西手语(LIBRAS)孤立手势识别任务中实现了比现有方法快 5 倍且精度相当甚至更优的轻量化解决方案。
本文提出了名为 SynHLMA 的新框架,利用离散的人机交互表示和语言模型,实现了根据自然语言指令生成可变形关节物体的手部操作序列,并在生成、预测及插值任务中展现出优于现有技术的性能,同时支持机器人模仿学习抓取应用。
该论文提出了名为 FRIDA 的轻量级框架,通过利用预训练 Stable Diffusion 模型的特征,实现了无需训练即可检测合成图像并准确归因其生成源,在 GenImage 基准测试中展现了跨生成器检测与源模型归因的卓越性能。