TARDis: Time Attenuated Representation Disentanglement for Incomplete Multi-Modal Tumor Segmentation and Classification
本文提出了 TARDis 框架,通过时间衰减表示解耦技术,将缺失的 CT 模态视为连续时间 - 衰减曲线上的采样点,利用解剖静态与血流动力学动态特征的双路径架构,在辐射受限导致数据缺失的情况下显著提升了肿瘤分割与分类的精度。
8836 篇论文
本文提出了 TARDis 框架,通过时间衰减表示解耦技术,将缺失的 CT 模态视为连续时间 - 衰减曲线上的采样点,利用解剖静态与血流动力学动态特征的双路径架构,在辐射受限导致数据缺失的情况下显著提升了肿瘤分割与分类的精度。
该论文提出了一种利用相机元数据(EXIF)进行自监督学习的 AI 生成图像检测方法,通过从真实照片中学习内在特征并结合高斯混合模型或高频残差分类器,显著提升了跨模型泛化能力及对常见扰动的鲁棒性。
本文提出了 FRIEDA 基准,旨在通过涵盖拓扑、度量和方向等多步空间推理任务来评估大语言模型在复杂地图理解方面的能力,结果显示当前最先进的模型在此领域仍远未达到人类水平。
本文提出了名为 SHARP 的单目视图合成方法,它能在不到一秒的时间内通过单次前向传播将单张图像回归为具有绝对尺度的 3D 高斯表示,从而实现实时、高分辨率且泛化能力极强的新视角合成,在多项指标上显著超越现有最先进模型。
该论文提出了一种将几何与光度解耦的事件驱动 3D 高斯泼溅框架,通过事件级射线追踪和 warped 事件图像渲染,在无需先验信息或 COLMAP 初始化的情况下,实现了兼顾高精度、高时间分辨率与快速训练的事件 3D 重建。
本文提出了 ColaVLA 框架,通过构建认知潜在推理器将文本推理压缩至统一潜在空间,并结合分层并行轨迹解码器,在保留大语言模型泛化与可解释性优势的同时,有效解决了现有视觉 - 语言规划器在连续控制匹配、推理延迟及实时性方面的挑战,在 nuScenes 基准测试中实现了最先进的开环与闭环性能。
该论文提出了一种名为 WMReward 的推理时对齐方法,通过利用潜在世界模型(VJEPA-2)作为奖励来引导视频生成轨迹,显著提升了生成视频的物理合理性,并在 ICCV 2025 物理智能挑战赛中以 62.64% 的得分夺得冠军。
本文提出了 CPiRi 框架,通过结合时空解耦架构与排列不变正则化策略,解决了多变量时间序列预测中通道依赖模型过拟合顺序与通道独立模型忽略依赖的矛盾,实现了在通道重排、新增及分布漂移场景下的鲁棒泛化与高效预测。
该论文提出了一种结合尺度等变正则化与特征提升输入设计(融合原始模数图像、包裹有限差分及闭式初始化)的深度学习框架,有效解决了高动态范围模数成像中真实边缘与包裹伪影难以区分的问题,实现了当前最优的重建性能。
本文提出了 CityGenAgent,这是一种通过自然语言驱动、结合监督微调与强化学习策略,将城市生成解耦为可解释的街区与建筑程序,从而实现高质量、可控且支持编辑的 3D 城市自动生成框架。
本文提出了“核心擦除”(Erase at the Core, EC)框架,通过结合多层对比学习与深度监督机制,解决了现有机器遗忘方法仅实现表面遗忘而保留内部特征表示的问题,从而在确保保留集性能的同时,实现了从输出层到中间特征层的全方位信息擦除。
PixelRush 是一种无需微调的框架,通过结合低步数分块推理、无缝融合策略及噪声注入机制,在保持高视觉保真度的同时,将 4K 图像生成时间缩短至约 20 秒,实现了比现有最先进方法快 10 至 35 倍的超快速高分辨率图像生成。
本文提出了名为 MAILS 的无人机无地图激光雷达重定位框架,通过引入局部保持滑动窗口注意力、坐标无关特征初始化及局部不变位置编码等模块有效解决了现有方法在无人机场景下精度不足的问题,并构建了包含真实飞行特征的大规模数据集以验证其显著优于现有技术的定位性能。
本文提出了名为 COOPERTRIM 的自适应数据选择框架,通过利用时间连续性识别环境动态特征并引入共形时间不确定性度量,在显著降低带宽消耗(最高达 80.28%)的同时保持了与全量传输相当的感知精度,从而有效缓解了协同感知中通信带宽与丰富传感器信息之间的矛盾。
Diff-Aid 是一种轻量级的推理时自适应去噪方法,通过动态调整 Transformer 块和去噪步中每个文本令牌与图像特征的交互,显著提升了 SD 3.5 和 FLUX 等主流文生图模型的提示遵循度、视觉质量及语义对齐的可解释性。
SceneTok 提出了一种新颖的 3D 场景编码器,通过将多视角场景信息压缩为少量与空间网格解耦的无序令牌,在实现比现有方法高 1-3 个数量级压缩率的同时,仍能保持顶尖的重建质量、支持任意新视角渲染并实现高效快速的场景生成。
该论文提出了一种基于原型引导的免学习多模态数据集蒸馏框架,通过利用 CLIP 提取对齐嵌入并结合 unCLIP 解码器合成图像,有效克服了现有方法对大规模训练和架构依赖的局限,实现了跨架构泛化性能的提升。
One2Scene 提出了一种从单张图像生成可探索 3D 场景的新框架,通过将问题分解为全景锚点生成、基于高斯泼溅的多视图几何脚手架构建以及条件化新视图合成三个步骤,有效解决了现有方法在大幅视角移动时几何失真和伪影严重的问题,实现了稳定且沉浸式的场景探索。
该论文揭示测试时训练(TTT)与 KV 绑定并非基于记忆机制,而是可被统一表述为一种具有增强表征能力的学习线性注意力算子,从而在简化架构、提升并行效率及统一变体方面带来显著优势。
该论文提出了 FedVG,一种利用全局验证集计算各客户端层间梯度范数以评估泛化能力,从而指导自适应聚合、有效缓解数据异构性导致的客户端漂移并提升联邦学习整体性能的框架。