TruckDrive: Long-Range Autonomous Highway Driving Dataset
该论文针对现有数据集缺乏长距离感知能力的不足,推出了专为重型卡车高速自动驾驶设计的"TruckDrive"多模态数据集,并通过实验揭示了当前最先进模型在超过 150 米范围时感知性能显著下降的系统性缺陷。
6620 篇论文
该论文针对现有数据集缺乏长距离感知能力的不足,推出了专为重型卡车高速自动驾驶设计的"TruckDrive"多模态数据集,并通过实验揭示了当前最先进模型在超过 150 米范围时感知性能显著下降的系统性缺陷。
本文提出了 MIRAGE 框架,通过利用生物医学知识图谱引导跨队列的潜在特征蒸馏,并结合冻结的 3D U-Net 作为结构正则化约束,成功实现了仅基于电子健康记录预测阿尔茨海默病,从而在无需昂贵 MRI 扫描的情况下显著提升了诊断准确率。
ORCA 提出了一种基于多智能体协作的文档视觉问答新框架,通过推理分解、路由调度专用智能体、辩论与裁决机制以及一致性检查,显著提升了复杂文档推理任务的性能。
本文提出了一种基于迁移学习的深度学习框架,通过利用通用野火预训练模型并针对马来西亚泥炭地火灾数据进行微调,有效克服了泥炭火隐蔽性强和数据稀缺的挑战,显著提升了复杂环境下的检测精度与鲁棒性。
该论文提出了名为 STW 的大规模开源数据集(基于 10 阶 MST 肤色标准标注),通过对比传统计算机视觉与深度学习方法的性能,并开发了基于 ViT 的 SkinToneNet 模型,实现了在野外观测条件下的高精度肤色分类与公平性评估。
本文提出了一种名为 E2E-GNet 的端到端几何深度学习网络,通过引入几何变换层和失真感知优化层,在保持判别性几何特征的同时有效降低了骨架动作识别的失真与计算成本,并在多个数据集上取得了优于现有方法的性能。
本文提出了 ModalPatch,这是一种无需修改架构或重新训练即可无缝集成到现有框架中的即插即用模块,它利用历史数据预测缺失特征并结合不确定性引导的跨模态融合策略,显著提升了多模态 3D 物体检测在任意模态丢失场景下的鲁棒性与精度。
本文提出了 MUSE,一个开源的以运行流程为核心的多模态统一安全评估平台,通过集成自动跨模态载荷生成、多轮攻击算法及模态切换机制,揭示了现有大语言模型在多轮交互及跨模态场景下对齐泛化能力的显著不足。
本文基于 James 对称正定矩阵双锥域的重参数化,引入了两种新的几何结构(Finsler 结构和对偶信息几何结构),使得测地线在适当坐标系下对应直线,并证明了由此导出的 Hilbert VPM 距离推广了机器学习中的 Hilbert 单纯形距离,同时探讨了其应用及与传统差异度量的不等式关系。
本文提出了名为 WTHaar-Net 的混合量子 - 经典卷积神经网络,该网络利用具有空间局部性和多分辨率特性的 Haar 小波变换替代传统架构中的哈达玛变换,在显著减少参数量的同时保持了竞争力甚至更优的准确率,并成功在 IBM 量子云硬件上验证了其量子实现的可行性。
该论文提出了一种基于视频 3D 人体重建的无标记步态分析框架,通过提取类似运动捕捉的生物力学标记并结合 OpenSim 进行关节运动学估计,实现了与标记法高度一致且优于传统姿态估计方法的精准步态评估。
本文提出了语义引导模态感知(SGMA)框架,通过语义引导融合与模态感知采样两个模块,有效解决了遥感不完整多模态语义分割中存在的模态不平衡、类内变异及跨模态异质性挑战,显著提升了分割性能。
该研究提出了一种基于图注意力网络的深度学习框架,通过采用功能脑区划分(MSDL)替代传统解剖划分(AAL)并结合数据增强与可解释性分析,在 ABIDE I 数据集上将自闭症谱系障碍分类准确率提升至 95.0%,显著优于现有基准并验证了模型决策的神经病理学依据。
本文提出了 NeighborMAE 模型,通过联合重建相邻地球观测图像并采用动态掩码与损失权重策略来挖掘空间依赖关系,从而在自监督预训练中显著提升了表征学习效果。
EIMC 提出了一种高效的实例感知多模态协同感知范式,通过引入轻量级协同体素构建先验、基于热力图共识机制仅查询低置信度区域的 Top-K 实例向量,并利用自注意力机制进行特征增强,在显著降低通信带宽(减少 87.98%)的同时实现了高精度的协同检测(73.01% AP@0.5)。
本文从分布视角出发,系统研究了作为交叉熵类比物的焦点熵,通过建立其数学性质、证明最小化器的存在性与唯一性,并揭示其在类别不平衡下对概率分布的特定放大与抑制机制,为理解焦点损失函数提供了坚实的理论基础。
本文介绍了专为森林树冠下缺失人员检测而构建的大规模数据集 ForestPersons,该数据集包含近十万张地面及低空视角图像,旨在解决传统无人机航拍在茂密植被下难以发现目标的问题,并为搜救任务中的先进人员检测能力提供基准。
该论文针对多模态大模型在封闭集动作理解中生成式分类效率低且存在语义歧义的问题,提出了一种仅在微调阶段利用生成辅助的判别式分类器(GAD),在保持推理高效性的同时显著提升了准确率并实现了多项基准测试的领先性能。
SemGS 提出了一种前馈框架,利用双分支架构和相机感知注意力机制,从稀疏视角输入中快速重建具有泛化能力的语义 3D 高斯场,从而在无需场景特定优化的情况下实现高效的语义场景理解与新视角合成。
本文提出了一种名为"Give me scissors"的无碰撞双臂手术辅助机器人,它利用视觉语言模型零样本生成抓取与递送轨迹,并通过集成实时障碍物感知与二次规划框架,在动态环境中实现了安全、高效的器械递送,实验成功率达 83.33%。