Hepato-LLaVA: An Expert MLLM with Sparse Topo-Pack Attention for Hepatocellular Pathology Analysis on Whole Slide Images
本文提出了专为肝细胞病理分析设计的多模态大语言模型 Hepato-LLaVA,通过引入稀疏拓扑打包注意力机制有效解决全切片图像中的信息丢失与特征冗余问题,并构建了专家验证的 HepatoPathoVQA 数据集,在肝癌诊断与描述任务中取得了领先性能。
8007 篇论文
本文提出了专为肝细胞病理分析设计的多模态大语言模型 Hepato-LLaVA,通过引入稀疏拓扑打包注意力机制有效解决全切片图像中的信息丢失与特征冗余问题,并构建了专家验证的 HepatoPathoVQA 数据集,在肝癌诊断与描述任务中取得了领先性能。
该论文提出了一种基于因果推理框架的医学图像分割模型解释方法,通过量化平均处理效应来评估输入区域及网络组件对分割结果的影响,实验表明该方法不仅比现有技术提供更忠实的解释,还能揭示不同模型及输入间感知策略的显著异质性,为模型优化提供了新见解。
本文提出了数据集颜色量化(DCQ)框架,通过减少图像颜色空间的冗余并保留对模型训练至关重要的语义和结构信息,在显著压缩大规模图像数据集存储需求的同时提升了模型训练性能。
该论文提出了名为“视觉指令注入(VII)”的训练无关且可迁移的越狱框架,通过将恶意文本意图伪装成安全参考图像中的视觉指令,成功利用图像到视频生成模型的视觉指令跟随能力,在四大主流商业模型上实现了高达 83.5% 的攻击成功率并几乎消除了拒绝响应。
本文提出了 HorizonForge,这是一个通过结合可编辑的 Gaussian Splats 与 Mesh 表示及噪声感知视频扩散过程,实现任意轨迹和车辆驱动的逼真驾驶场景编辑的统一框架,并配套推出了 HorizonSuite 基准测试以验证其在保真度与可控性上的显著优势。
本文提出了一种基于光 - 几何交互(LGI)图的新方法,通过将光照方向与几何结构显式关联,构建了首个涵盖复杂反射与透射的大规模联合阴影生成与重光照基准数据集,并利用桥接匹配生成模型实现了物理一致且逼真的阴影生成与重光照效果。
PhotoAgent 提出了一种通过显式美学规划、树搜索多步决策及闭环反馈机制实现自主图像编辑的智能体系统,并构建了 UGC-Edit 基准与评估集以验证其在指令遵循和视觉质量上的显著优势。
本文提出了旨在评估跨视频、音频和图像模态深度推理与工具使用能力的 OmniGAIA 基准,并构建了基于主动感知与工具集成推理范式的原生全模态智能体 OmniAtlas,以推动面向真实场景的下一代全模态 AI 助手发展。
本文提出了 HELMLAB,一种专为 UI 设计系统打造的 72 参数解析色彩空间,它通过结合学习矩阵、通道幂压缩及傅里叶色相校正等机制,在 COMBVD 数据集上将感知距离的 STRESS 值较 CIEDE2000 降低了 20.2%,并具备高可逆性及完善的设计系统实用工具。
本文提出了名为 AgentVista 的基准测试,旨在通过涵盖 25 个子领域、结合高保真视觉场景与混合工具调用的长程任务,评估并揭示当前多模态智能体在应对现实世界复杂问题时的显著能力差距。
本文提出了 V-MORALS 方法,该方法利用图像轨迹数据在 learned 潜在空间中构建 Morse 图,从而在无需系统动力学模型或完整状态信息的情况下,有效估计机器人系统的吸引域。
本文提出了一种名为 HMKGN 的层次化多尺度知识感知图网络,通过结合空间局部约束的动态图构建与多尺度特征融合,在四个 TCGA 癌症队列的生存分析中显著优于现有方法,实现了更准确的预后预测。
该论文提出了名为 AoE 的始终在线第一人称视频采集系统,通过利用智能手机和云边协同架构,以低成本、高效率的方式从全球分布的“人类智能体”中获取大规模真实世界交互数据,从而解决具身智能基础模型训练中的数据稀缺问题并提升其泛化能力。
该研究通过对比不同数据划分策略发现,在基于 40 名受试者 fMRI 数据的帕金森病前驱期检测中,严格的受试者级划分能有效避免信息泄露,且在此极端数据稀缺场景下,轻量级模型 MobileNet 比深层架构表现出更可靠的泛化能力。
该论文针对离散承诺系统提出了一种“确定性 - 有效性”(CVS)诊断框架,通过区分高/低确定性与有效/无效预测,揭示了标准准确率指标无法识别的“自信错误”幻觉问题,并论证了模型在模糊数据上拒绝盲目承诺而非强行过拟合的机制才是推理系统的理想特征。
本文提出了一种用于自动检测铁路车辆多传感器数据标注中九种常见错误的开源工具,旨在通过显著减少人工工作量并实现高准确率(部分方法达 100% 精度)来保障自动驾驶训练数据的质量。
本文提出了一种名为多模态模块化思维链(MMCoT)的框架,利用视觉语言模型将能源绩效证书(EPC)评估分解为中间推理阶段,并通过结构化提示在任务间显式传播推断属性,从而在数据稀缺场景下实现了比单纯指令提示更准确的低成本建筑能源性能预评估。
本文提出了一种名为 VoxelDiffusionCut 的方法,利用基于扩散模型的体素化迭代结构估计技术,在缺乏拆解信息的情况下,通过捕捉未观察区域的不确定性来规划切割路径,从而实现电池和电机等目标内部部件的非破坏性提取。
本文提出了一种名为多尺度空间自适应注意力网络(MSAAN)的轻量级图像超分辨率方法,通过引入多尺度空间自适应注意力模块等创新组件,在显著降低模型复杂度的同时实现了优于现有方法的重建精度与纹理细节恢复效果。
本文提出了 BiSe-Unet,一种专为资源受限设备设计的轻量级双路径 U-Net 模型,它通过结合注意力机制优化的上下文路径与浅层空间路径,在 Kvasir-Seg 数据集上实现了兼顾高精度与实时性(树莓派 5 上超过 30 FPS)的结肠息肉分割。