MAviS: A Multimodal Conversational Assistant For Avian Species
该论文提出了专为鸟类物种设计的多模态对话助手 MAviS,通过构建包含图像、音频和文本的大规模数据集(MAviS-Dataset)及评估基准(MAviS-Bench),训练出在细粒度物种理解与多模态问答方面表现优于现有开源模型(如 MiniCPM-o-2.6)的 MAviS-Chat,从而推动了生物多样性保护与生态监测领域的智能化发展。
1935 篇论文
该论文提出了专为鸟类物种设计的多模态对话助手 MAviS,通过构建包含图像、音频和文本的大规模数据集(MAviS-Dataset)及评估基准(MAviS-Bench),训练出在细粒度物种理解与多模态问答方面表现优于现有开源模型(如 MiniCPM-o-2.6)的 MAviS-Chat,从而推动了生物多样性保护与生态监测领域的智能化发展。
该论文提出了一种结合对抗训练与中间层特征图平滑的轻量级方法,在保持稀疏性的同时显著提升了梯度类显著性图的输入与输出稳定性,并通过用户研究验证了其生成的解释更具可信度。
本文提出了 StructSAM,一种专为 Segment Anything Model (SAM) 设计的结构与谱保持令牌合并框架,它通过基于梯度的令牌能量评分和网格平坦度筛选机制,在显著降低计算量的同时有效保护了边界细节与提示信息,从而在多个自然及医学基准测试中优于现有方法。
本文提出了 Faster-HEAL,一种面向异构自动驾驶车辆的高效隐私保护协同感知框架,它通过微调低秩视觉提示来对齐异构特征并采用金字塔融合,在无需重新训练大模型的情况下显著降低了计算开销并提升了检测性能。
本文提出了一种基于轻量级数字孪生的边缘辅助框架,通过仅利用目标检测与离线路径映射而非复杂的轨迹预测模型,实现了在资源受限边缘设备上高效运行且能提前约 88% 时间预测碰撞事件的车辆跟踪与碰撞预警系统。
该论文提出了 AgrI 挑战赛,通过引入多团队独立采集数据的跨团队验证(CTV)评估范式,揭示了单一数据源训练在农业视觉任务中的泛化缺陷,并证明了多源协作训练能显著缩小跨域泛化差距,同时发布了一个包含 5 万余张图像的大规模公开数据集以推动数据为中心的农业视觉研究。
本文提出了一种名为 N-Tree Diffusion 的层次化扩散模型,通过共享早期去噪阶段并在后期分支以生成连续的火险图,在降低计算成本的同时实现了长时序野火风险的概率预测。
该研究发现,猕猴在视觉辨别任务的学习过程中,其视觉皮层 V4 区神经响应的信息冗余度显著增加,且这种冗余提升了单个神经元的信息承载量,从而支持了基于贝叶斯推断的生成式感知假说。
该论文提出了名为 AQuA 的细粒度数据集,通过将模糊视觉问答按模糊程度分类并定义最优响应策略,训练视觉语言模型使其能够识别模糊性并自适应地选择直接回答、推断意图、列举替代方案或请求澄清等策略,从而在模糊场景下显著优于现有基线模型。
该论文提出了一种基于 3D 概念瓶颈模型的端到端框架,通过将 CTA 影像特征映射为可解释的形态学与血流动力学临床概念,在保持高预测精度(最高达 93.33%)的同时显著提升了颅内动脉瘤分类的可解释性,从而克服了传统黑盒模型在临床应用中缺乏透明度的局限。
该论文提出了 VIVECaption,一种通过构建分层采样黄金标准数据集和结合上下文对齐与监督微调的策略,系统性地解决视觉语言模型在图像描述生成中的幻觉与细粒度理解不足问题,从而提升图文对齐质量并满足企业对无版权风险训练数据的需求。
该论文针对现有牙科数据集缺乏单颗牙齿图像及全面描述的问题,提出利用视觉语言模型(VLM)通过引导式提示生成高质量单颗牙齿图像描述的方法,以填补数据空白并支持更全面的牙科图像分析。
该论文针对现有通用图像恢复模型在扩展多退化任务时面临的训练不稳定、模型臃肿及性能下降等局限,提出了一种基于多分支混合专家架构的统一推理流程,通过解耦退化知识实现了可扩展、可控制且具备强泛化能力的通用图像恢复。
本文提出了一种名为 QdaVPR 的新型基于查询的域无关视觉定位识别模型,通过设计双级对抗学习框架和基于查询组合的三元组监督,并利用风格迁移增强数据,在多种具有显著域变化的基准测试中实现了最先进的性能。
本文提出了 DTPSR 框架,通过构建包含解耦全局与局部、低频与高频描述的大规模数据集 DisText-SR,并利用空间层级与频率语义双重解耦的文本先验及多分支引导策略,显著提升了基于扩散模型的图像超分辨率在语义可控性、细节还原度及泛化能力方面的表现。
本文针对移动智能体在线强化学习中的泛化难题,提出了包含三种挑战模式的基准测试"AndroidWorld-Generalization"及一套集成 GRPO 算法的开源训练系统,实验表明该方法虽能显著提升模型在未见任务实例上的零样本泛化能力,但在未见模板和应用上的泛化效果仍有限,并初步验证了测试时少样本适应的潜力。
本文提出了 Data Agent,一种将数据选择建模为训练感知序贯决策问题的端到端动态优化框架,它通过自适应平衡损失难度与置信度不确定性的复合奖励机制,在无需人工设计指标的情况下实现了跨任务、跨架构的训练加速与性能保持。
本文提出了 RPG-SAM 框架,通过引入可靠性加权原型挖掘解决支持图像的区域异质性,并利用几何自适应选择处理查询响应异质性,从而在无需训练的情况下实现了单样本息肉分割的显著性能提升。
DogWeave 提出了一种基于模型的框架,通过扩散增强的法线场优化和结构风格引导的条件补全技术,仅从单张 RGB 图像即可重建出几何精确且纹理逼真的高保真 3D 犬类模型,有效解决了单目动物重建中因自遮挡和细节缺失导致的几何失真与纹理不一致问题。
Med-Evo 是一种首创的医疗多模态大语言模型自进化框架,它通过特征驱动的伪标签生成和软硬奖励机制,利用无标签测试数据实现无需额外标注的模型性能提升。