Multimodal Classification via Total Correlation Maximization
该论文从信息论角度分析了多模态学习中的模态竞争问题,提出了一种通过最大化特征与标签间总相关性(TCMax)来缓解竞争并捕捉模态交互的无超参数分类方法,其实验表现优于现有的联合与单模态学习方案。
1431 篇论文
该论文从信息论角度分析了多模态学习中的模态竞争问题,提出了一种通过最大化特征与标签间总相关性(TCMax)来缓解竞争并捕捉模态交互的无超参数分类方法,其实验表现优于现有的联合与单模态学习方案。
受非平衡热力学启发的扩散模型虽性能卓越但推理延迟高,而现有蒸馏技术因丢弃中间步骤导致结构信息丢失和离散化误差,为此本文提出了 B-DENSE 框架,通过多分支轨迹对齐机制,让学生模型在扩展通道中同时映射教师轨迹的所有离散中间步骤,从而在训练早期实现密集监督并显著提升生成质量。
本文提出了名为 CoPeDiT 的通用潜在扩散模型,通过引入具备完整性感知能力的自编码器(CoPeVAE)和专用的 3D 扩散 Transformer 架构(MDiT3D),无需依赖外部手动指示即可自主推断缺失状态,从而实现了在多种缺失模式下具有高保真度和语义一致性的统一 3D MRI 合成。
ChimeraLoRA 提出了一种将类共享 LoRA 与多图像特定 LoRA 相结合的新方法,通过语义增强训练和基于狄利克雷分布的混合生成策略,在数据稀缺场景下合成既具多样性又富含细节的图像,从而显著提升下游分类任务的准确性。
本文提出了 OrthoAI 框架,通过结合稀疏监督的 3D 牙齿分割、基于本体约束的可行性推理以及多标准治疗评估,实现了在清矫正畸中从几何感知到临床推理的证据驱动型自动化决策支持。
本文提出了一种基于 Grounding DINO 1.5、YOLOv11 和 SAM 2.1 的双流水线框架,通过零-shot 文本提示或轻量级监督微调实现鸟类图像分割,在 CUB-200-2011 数据集上显著超越了传统端到端模型,证明了提示驱动的基础模型在无需重新训练分割主干的情况下即可实现高精度分割。
本文提出了首个文档伪造检测零样本基准 DOCFORGE-BENCH,评估发现现有方法在真实部署场景下因伪造区域占比极低导致标准阈值严重失准,揭示了校准而非表征能力才是当前文档伪造检测面临的主要瓶颈。
Pri4R 提出了一种简单有效的训练方法,通过利用特权 4D 信息(3D 点轨迹预测)作为辅助任务,使视觉 - 语言 - 动作(VLA)模型在无需增加推理开销的情况下,隐式地习得世界动力学规律,从而显著提升了其在复杂操作任务中的物理感知与控制能力。
本文综述了超低功耗边缘与片上传感器 AI 处理器的演进现状,并通过在 GAP9、STM32N6 和 Sony IMX500 三种代表性平台上对 PicoSAM2 模型的实证基准测试,揭示了不同架构在延迟、能效及能量延迟积方面的性能权衡,突显了片上传感器处理技术的成熟度与重要性。
该论文提出了 Granulon,一种基于 DINOv3 的多模态大语言模型,通过文本条件粒度控制器和自适应令牌聚合模块,实现了从像素级到粗粒度语义的动态自适应融合,显著提升了细粒度视觉理解能力并降低了幻觉。
该论文提出了一种面向 3D 高斯泼溅(3D-GS)的原生可解释水印框架,通过 Trio-Experts 模块与安全性预算感知门控机制实现载体选择与质量保护的解耦,在显著提升鲁棒性与图像质量的同时,利用解耦微调技术实现了水印嵌入位置与选择依据的透明化归因。
本文提出了具备显式反思机制的视觉生成智能体 VisionCreator-R1 及其反思 - 规划协同优化(RPCO)训练方法,通过解决强化学习中反思与规划优化的不对称性,使其在单图及多图任务基准测试中表现优于 Gemini2.5Pro。
该论文提出了一种基于计算机视觉和 YOLOv8 目标检测模型的智能停车分配系统,通过逆透视映射(IPM)融合多路摄像头数据来动态识别空车位,并利用 3D 笛卡尔坐标图模拟停车环境以引导用户,从而为高密度城市提供低成本、高效率的可持续停车解决方案。
该论文提出了一种名为 MuCTaL 的轻量级多癌症肿瘤定位框架,通过在四种癌症数据上进行平衡训练,实现了在已知癌种及未见过的胰腺癌中均具备良好泛化能力的肿瘤区域检测,并构建了可部署的数字病理空间热图生成工作流。
HECTOR 提出了一种混合参考条件生成管道,支持通过静态图像或动态视频作为混合引导,并允许用户显式指定各元素的轨迹,从而实现对视频生成中复杂时空约束的细粒度组合控制。
本文提出了一种基于黑盒优化与语义同质化的系统性框架,在 CARLA 仿真中对比评估了 Dolphins、OmniDrive 和 LeapVAD 三种视觉语言模型架构在物理补丁攻击下的鲁棒性,揭示了当前自动驾驶 VLM 设计存在严重的安全漏洞及独特的架构脆弱性模式。
该论文提出了视觉查询分割(VQS)新任务及首个大规模基准 VQS-4K,并设计了基于 SAM 2 改进的 VQ-SAM 方法,旨在实现对未修剪视频中目标对象所有出现时刻的像素级精准定位。
该论文针对甲状腺超声多任务学习在跨中心域偏移下几何与纹理特征退化不一致的问题,提出了一种基于多核门控适配器(MKGA)的轻量级解码器方案,通过融合互补感受野与语义门控机制,有效提升了分割与恶性风险评估的跨中心鲁棒性。
本文提出了 MedCBR 框架,通过将临床指南融入视觉 - 语言模型与概念推理,实现了从医学图像分析到符合指南的专家级诊断推理的端到端可解释性提升。
该论文介绍了 MEGC2026 微表情挑战赛,旨在通过引入基于多模态大语言模型的微表情视频问答(ME-VQA)和长视频问答(ME-LVQA)两项新任务,推动微表情分析在复杂时空推理与多模态理解领域的研究进展。