Remote Sensing Image Classification Using Deep Ensemble Learning
该论文提出了一种结合卷积神经网络(CNN)与视觉 Transformer(ViT)的集成学习融合模型,通过训练四个独立模型并在预测阶段进行集成,有效克服了单一架构的局限性及冗余特征瓶颈,在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。
2775 篇论文
该论文提出了一种结合卷积神经网络(CNN)与视觉 Transformer(ViT)的集成学习融合模型,通过训练四个独立模型并在预测阶段进行集成,有效克服了单一架构的局限性及冗余特征瓶颈,在 UC Merced、RSSCN7 和 MSRSI 等遥感图像数据集上取得了优于现有方法的分类精度。
Cog2Gen3D 提出了一种由 3D 认知引导的扩散框架,通过融合语义与绝对几何信息的认知特征嵌入、3D 潜在认知图及认知引导的潜在扩散机制,解决了现有方法在 3D 生成中缺乏空间几何约束和尺度一致性的问题,显著提升了生成结果的语义保真度与几何合理性。
VS3R 提出了一种结合前馈 3D 重建与生成式视频扩散的框架,通过联合估计相机参数、深度和掩码,并引入混合稳定渲染与双流扩散模型,实现了在极端运动下兼具高鲁棒性与全帧一致性的视频稳定效果。
本文提出了 MACRO,一种通过从验证执行轨迹中自主发现并合成可复用复合工具,从而将静态工具组合转变为经验驱动式自我演进的医疗影像智能体,显著提升了多步骤任务编排的准确性与跨域泛化能力。
本文提出了 TumorChain 框架,通过构建包含 150 万条思维链标注的大规模多模态数据集 TumorCoT,并采用交错式多模态推理机制,实现了从医学影像发现到病理预测的可追溯、高准确率的临床肿瘤分析。
该论文提出了名为 PatchCue 的新范式,通过将图像划分为补丁并利用补丁级视觉线索替代传统的像素级或纯文本推理,结合两阶段训练策略,显著提升了视觉语言模型在视觉问答、复杂推理及文档理解等任务中的表现。
该论文提出了一种名为 MemSeg-Agent 的记忆增强智能体,通过将医学图像分割的适应过程从权重空间转移到记忆空间,利用静态、少样本和测试时工作记忆在无需微调的情况下实现了高效的联邦学习、少样本适应及跨域鲁棒性。
该论文利用五个公共视频地点识别数据库和七种图像相似度方法,系统评估了合成新视角对视频地点识别的影响,发现少量合成视角能提升识别效果,而在大规模添加时,视角变化的幅度不如添加视角的数量和数据集图像类型重要。
本文提出了 CylinderSplat,一种基于新型圆柱体三平面表示的双分支前馈框架,旨在解决全景图像中遮挡和稀疏视角下的几何重建难题,并在单视图及多视图全景新视图合成任务中实现了最先进的重建质量与几何精度。
PixARMesh 提出了一种基于自回归机制的单视图场景重建方法,能够直接从单张 RGB 图像联合预测物体布局与几何,在无需隐式场或后期优化的情况下,一次性生成连贯且适用于下游应用的高质量 3D 室内网格。
本文提出了 InnoAds-Composer,一种针对电商海报生成的单阶段框架,通过动态路由机制实现高效的主体、文字和风格三重条件控制,并配合文本特征增强模块与首个联合数据集,显著提升了生成质量与文字准确性,同时保持了较低的推理延迟。
该论文针对概念瓶颈模型(CBM)在图像分类中存在的概念信息泄露及性别偏见问题,提出了包括 Top-k 概念过滤、移除偏见概念和对抗性去偏在内的三种缓解技术,显著提升了模型在公平性与性能之间的权衡,推动了可解释且公平图像分类的发展。
该论文提出了一种名为 CollabOD 的轻量级协同检测框架,通过结构细节保持、跨路径特征对齐及定位感知轻量化设计,有效解决了无人机图像中小目标检测中因尺度变化、细节退化及资源受限导致的定位不稳定和鲁棒性不足问题。
该论文针对现有 2D 转 3D 技术缺乏艺术表现力的问题,提出了以“艺术视差合成”为核心的新范式及 Art3D 框架,通过解耦全局深度意图与局部艺术笔触,实现了从追求几何精确性向构建沉浸式电影级 3D 体验的转变。
Pano3DComposer 是一种高效的单全景图前馈框架,通过引入可插拔的“对象 - 世界变换预测器”和粗到细对齐机制,实现了从单张全景图快速生成高保真、几何精确的 360 度完整 3D 场景。
该论文提出了首个面向复杂病灶推理分割的 Chain-of-Thought 基准 ComLesion-14K,并设计了结合语义引导提示适配器与自适应双粒度奖励机制的 CORE-Seg 框架,通过从监督微调(SFT)到 GRPO 的渐进式训练策略,显著提升了复杂病灶分割的精度与逻辑可解释性。
本文提出了名为 BlackMirror 的通用无训练黑盒检测框架,通过镜像匹配与镜像验证机制分析指令与生成图像间的语义偏差及其稳定性,从而有效识别现有基于图像相似性方法难以检测的多样化文本到图像模型后门攻击。
本文提出了一种受整流流启发的 RAC 模型,通过利用整流流的直线路径实现可修正的多步解码与双向推理,在降低约 41% 参数和 70% 计算成本的同时,显著超越了现有最先进 VAE 的重建与生成性能。
本文提出了名为 RAID 的大规模驾驶场景数据集及一种弱监督风险感知框架,通过建模驾驶员意图与响应关系来识别潜在风险源,并在 RAID 和 HDDS 数据集上显著提升了风险识别性能。
本文提出了 TAR-ViTPose,一种专为视频 2D 人体姿态估计设计的时序聚合与恢复视觉 Transformer,通过引入关节中心时序聚合(JTA)和全局恢复注意力(GRA)机制,有效利用帧间时序信息以解决静态模型在遮挡和运动模糊等场景下的不稳定性问题,从而在 PoseTrack2017 基准上显著提升了精度并实现了更高的实时运行帧率。