UltraStar: Semantic-Aware Star Graph Modeling for Echocardiography Navigation
本文提出了 UltraStar 模型,通过将超声心动图探头导航从路径回归重构为基于锚点的全局定位,利用语义感知的星形图结构有效建模历史关键帧,从而在含噪探索轨迹中实现更鲁棒且可扩展的精准导航。
8803 篇论文
本文提出了 UltraStar 模型,通过将超声心动图探头导航从路径回归重构为基于锚点的全局定位,利用语义感知的星形图结构有效建模历史关键帧,从而在含噪探索轨迹中实现更鲁棒且可扩展的精准导航。
本文提出了 WildCross,这是一个包含超过 47.6 万帧序列 RGB 图像、半稠密深度与法线标注及精确 6DoF 位姿的大规模跨模态基准数据集,旨在解决现有数据集在结构化城市环境中占主导而缺乏非结构化自然环境数据的问题,从而推动机器人跨模态场景定位与度量深度估计技术的发展。
本文提出了 SCATR 模型,通过引入“二次分配”和“轨迹查询丢弃”两种架构无关的训练策略,有效缓解了基于 LiDAR 的跟踪 - 注意力框架中的新实例抑制问题,从而在 nuScenes 基准上实现了最先进的性能并显著缩小了其与检测 - 跟踪方法的差距。
本文提出了一种名为 ATA 的训练免框架,通过互补的注意力引导与动作引导策略,在不依赖额外数据标注或重新训练的情况下,将隐式推理引入视觉 - 语言 - 动作(VLA)模型,从而在提升任务成功率与鲁棒性的同时保持了高效的推理性能。
该论文提出了 Radiometrically Consistent Gaussian Surfels (RadioGS) 框架,通过引入辐射度一致性约束解决高斯泼溅在反渲染中难以分离材质与复杂全局光照(特别是间接光照)的问题,实现了在保持高效渲染的同时显著提升重光照能力和反渲染精度。
本文提出了首个基于真实个人相册的基准测试 PhotoBench,旨在推动照片检索从单纯的视觉匹配转向基于多源信息融合的个性化意图驱动推理,并揭示了现有统一嵌入模型与智能体系统在应对此类复杂任务时的关键局限。
该论文提出了一种基于率失真理论的框架,通过提取表征准确性与鲁棒性权衡的几何特征(斜率与曲率),揭示了人类视觉系统比现代深度网络具有更平滑灵活的泛化特性,并表明该几何视角能有效超越传统精度指标来评估不同系统的泛化行为。
该论文提出了一种受下游任务启发的水下图像增强(DTI-UIE)框架,通过构建任务驱动的数据集、设计双分支网络及任务感知损失函数,有效解决了现有方法忽视高频细节的问题,显著提升了水下图像在语义分割、目标检测等下游任务中的识别性能。
该论文提出了一种基于神经算子的连续张量函数表示(NO-CTR),通过引入连续非线性模-n 算子替代传统离散线性运算,实现了对复杂真实世界数据更精确的连续表征,并在多维数据补全任务中展现出优越性能。
本文提出了 FireRed-OCR 框架,通过构建“几何 + 语义”数据工厂和采用包含多任务预对齐、专用微调及格式约束 GRPO 的三阶段渐进式训练策略,将通用视觉语言模型(基于 Qwen3-VL)转化为具备像素级精度的结构化文档解析专家,在 OmniDocBench v1.5 上取得了超越现有强基线的 SOTA 性能。
本文提出了 Tiny-DroNeRF,这是一种专为资源受限的亚 30 克微型无人机设计的轻量化神经辐射场模型,它通过优化 Instant-NGP 架构使其能在超低功耗 MCU 上运行,并结合联邦学习方案在多台无人机间协同训练,从而在显著降低内存占用的同时实现了复杂环境下的密集 3D 场景重建。
本文提出了一种仅利用事件相机数据、通过提取螺旋桨转速并融合至 RPM 感知卡尔曼滤波框架中的无人机轨迹预测方法,在无需 RGB 图像或训练数据的情况下实现了优于现有方法的短中期轨迹预测精度。
本文提出了一种无需训练且抗噪性强的新型三维场连接(3D FoJ)表示法,通过优化三维楔形连接作为结构先验,在低信噪比条件下有效提升了 CT、冷冻电镜及激光雷达点云等多种三维成像逆问题的去噪与重建质量,并优于现有的经典与深度学习方法。
该论文提出了一种基于条件 CycleGAN 的混合类插值数据增强方法(C2GMA),通过利用可见光图像合成合成孔径雷达(SAR)域数据,有效解决了非可见光领域数据稀缺问题,并在冰山分类任务中将准确率提升至 75.4%,显著优于传统增强策略。
本文提出了一种名为 Dite-HRNet 的动态轻量级高分辨率网络,通过引入动态多尺度上下文块和动态全局上下文块来高效提取多尺度特征并建模长程空间依赖,从而在 COCO 和 MPII 数据集上实现了优于现有轻量级网络的人体姿态估计性能。
本文提出了 CO^3 方法,通过利用车端与路侧 LiDAR 数据构建对比视图并结合上下文形状预测任务,实现了面向户外场景的无监督 3D 点云表征学习,显著提升了跨传感器和跨数据集的迁移性能及下游检测任务精度。
该论文提出了一种基于卷积神经网络(CNN)的故障检测方案,通过对光伏电池图像进行二分类和多分类,实现了高达 91.1% 和 88.6% 的准确率,显著优于先前研究并有效提升了光伏系统的鲁棒性。
本文通过揭示扩散模型对齐中奖励过优化与归纳偏差及首因效应的关联,提出了一种利用时间归纳偏差并重置活跃神经元以抑制首因效应的 TDPO-R 算法,从而有效缓解了奖励过优化问题。
本文提出了 Uni-ISP,一种通过设备感知嵌入和特殊训练方案统一多移动相机 ISP 学习的新框架,并构建了 FiveCam 数据集,显著提升了正向与逆向 ISP 的性能及对新相机模型的适应性。
本文提出了 R2GenCSR 框架,通过采用线性复杂度的 Mamba 作为视觉骨干网络,并结合训练过程中的正负样本上下文检索机制,有效提升了大语言模型在医学影像报告生成任务中的性能与效率。