Confidence-aware Monocular Depth Estimation for Minimally Invasive Surgery
本文提出了一种面向微创手术的置信度感知单目深度估计框架,通过利用集成立体匹配模型生成校准置信度目标、设计置信度感知损失函数以及引入推理阶段置信度预测头,有效解决了内窥镜图像噪声干扰问题,显著提升了深度估计精度并实现了预测可靠性的量化评估。
6484 篇论文
本文提出了一种面向微创手术的置信度感知单目深度估计框架,通过利用集成立体匹配模型生成校准置信度目标、设计置信度感知损失函数以及引入推理阶段置信度预测头,有效解决了内窥镜图像噪声干扰问题,显著提升了深度估计精度并实现了预测可靠性的量化评估。
本文提出了 L2G-Det 框架,通过利用模板与查询图像间的密集局部匹配生成候选点,并以此引导增强版 Segment Anything Model(SAM)进行实例特定提示,从而在无需显式物体提议的情况下,实现了对开放世界场景中遮挡和杂乱背景下新颖物体实例的鲁棒检测与分割。
本文提出了一种名为“环境无线电感知”(ARS)的新型集成感知与通信方案,通过利用现有的 5G 等环境通信信号进行被动式感知,结合自混频射频硬件架构与跨模态学习框架,在无需占用额外频谱资源的前提下实现了高精度的人体活动检测与骨架估计。
本文提出了一种受视觉问答启发的数据增强框架,通过为场景文本图像生成基于字符属性的自然语言问答任务,引导 OCR 模型进行细粒度推理,从而在 WordArt 和 Esposalles 数据集上显著降低了字符错误率和词错误率。
该论文提出了一种名为“交通场景图生成”的新任务及框架,通过融合交通事故数据与深度线索来增强视觉特征,旨在生成能够直观标注关键危害严重程度、作用机制及相对位置的交通场景图,从而提升自动驾驶在复杂场景下的以自我为中心的危害感知与推理能力。
本文提出了一种名为 DM-CFO 的扩散模型方法,通过结合文本与图约束逐步恢复缺失牙齿布局,并利用基于 3D 高斯的碰撞正则化项优化几何参数,从而实现了高质量且无碰撞的复合式 3D 牙齿生成。
本文提出了一种结合外观与运动特征的企鹅检测与识别框架,通过改进 YOLO11 利用连续帧提升检测精度,并采用基于轨迹的对比学习方法优化个体识别,有效解决了企鹅在复杂环境下的同质化外观、频繁姿态变化及环境噪声干扰等挑战。
本文针对航拍视频中马群跟踪时轴对齐边界框性能不足及现有旋转边界框无法区分头尾导致跟踪中断的问题,提出了一种基于头部朝向估计与 IoU 多数投票的改进方法,显著提升了旋转边界框跟踪的鲁棒性。
本文提出了首个分布式多视图图像压缩框架 ParaHydra,通过引入通用的 OmniParallax 注意力机制(OPAM)和自适应多源信息融合模块(PMIFM),在无需编码器端交互信息的前提下,显著超越了现有联合压缩方法的性能并大幅降低了计算开销。
本文针对开放环境下杨树幼苗叶片细粒度表型分析的挑战,构建了首个无人机林业叶片实例分割基准数据集 Poplar-leaf,并提出了集成多尺度感知与不规则形状建模能力的 LeafInst 网络,在多项基准测试中显著优于现有主流模型。
该论文提出了 RAGTrack,一种通过引入多模态大语言模型自动生成文本标注、构建多模态 Transformer 编码器、自适应 Token 融合机制及上下文感知推理模块,利用检索增强生成技术实现语言引导的鲁棒 RGBT 目标跟踪框架,并在多个基准测试中取得了最先进性能。
本文提出了 CoRe-BT,这是一个包含多序列 MRI、配对组织病理学图像及报告的 310 例脑肿瘤患者基准数据集,旨在通过模拟模态缺失的真实临床场景,评估并推动融合放射学与病理学信息的鲁棒性多模态脑肿瘤分类研究。
本文提出了一种基于核近似和再生核希尔伯特空间理论的严谨框架,通过建立核函数与索伯列夫原生空间的联系,使神经算子能够鲁棒地处理分布外输入函数并准确捕捉函数及其导数,且该方法在流形点云表示的椭圆偏微分方程求解中得到了实证验证。
该论文提出了一种名为“基于图像的提示注入”的黑盒攻击方法,通过将对抗性指令嵌入自然图像中,在保持隐蔽性的同时成功劫持多模态大语言模型的行为,最高可达 64% 的攻击成功率,从而揭示了多模odal 模型面临的新安全威胁。
本文提出了名为 InfinityStory 的新框架、数据集及模型,通过引入背景一致性生成流程、多主体过渡感知合成模块以及包含 1 万条序列的合成数据集,有效解决了长篇幅叙事视频中背景连贯性、多主体镜头切换及长时扩展性三大挑战,并在 VBench 评测中实现了背景与主体一致性的最优表现。
本文提出了 Shortcut-enhanced Coupling flow for Face Restoration (SCFlowFR),通过建立数据依赖耦合、条件均值估计及捷径约束,实现了兼具高质量与高速度的单步人脸复原。
该论文针对传统骨料表征方法的局限性,提出了一套涵盖单颗粒、二维堆场及三维点云场景的现场成像框架,通过开发集成重建 - 分割 - 补全(RSC-3D)的深度学习算法,实现了对骨料形态特征的高效自动化分析与未可见面的预测。
本文提出了首个专注于评估图像编辑模型中间逻辑路径推理能力的基准 InEdit-Bench,通过涵盖四类任务的测试集和细粒度评估标准,揭示了当前主流模型在处理动态推理与多步演化任务时的显著不足,旨在推动更智能的多模态生成模型发展。
本文提出了一种名为 MAP 的新型面部隐私保护方法,通过联合优化目标身份与人类表情来编辑图像,有效克服了传统方法在黑盒场景下迁移性差及跨人群适用性不足的缺陷,显著提升了对抗人脸识别系统的鲁棒性与图像感知质量。
本文提出了 EvoPrune,一种在视觉编码阶段直接执行剪枝的早期视觉令牌剪枝方法,通过基于相似性、多样性和注意力重要性的分层策略,在显著降低多模态大模型推理延迟的同时保持了极低的性能损失。