SJD-PV: Speculative Jacobi Decoding with Phrase Verification for Autoregressive Image Generation
本文提出了一种名为 SJD-PV 的训练-free 加速框架,通过分析训练语料中的 token 共现统计规律构建语义连贯的视觉短语,并利用短语级联合验证机制替代传统的独立 token 验证,从而在保持图像生成质量的同时显著降低了自回归图像模型的推理延迟。
8464 篇论文
本文提出了一种名为 SJD-PV 的训练-free 加速框架,通过分析训练语料中的 token 共现统计规律构建语义连贯的视觉短语,并利用短语级联合验证机制替代传统的独立 token 验证,从而在保持图像生成质量的同时显著降低了自回归图像模型的推理延迟。
该论文介绍了一种基于射频片上系统(RFSoC)软件定义无线电的完全连接网状网络,成功实现了四架无人机之间 12 条始终在线的 2x2 MIMO 链路实时聚合吞吐量达 1.2 Gbps,并支持多路未压缩 4K 视频流传输。
本文提出了一种名为 SDN-SYN PoW 的新型防御架构,该架构通过将非交互式工作量证明(PoW)与软件定义网络(SDN)控制平面相结合,利用全局流量感知动态调整 PoW 难度,从而在有效抵御跨域 SYN 洪水攻击的同时,确保对合法客户端(包括低功耗设备)的开销可忽略不计。
本文提出了 SIL-GPO 框架,通过结合图注意力网络与自模仿学习策略的强化学习方法,有效解决了边缘 AI 微服务系统中异构服务编排的联合优化难题,显著降低了端到端延迟并提升了资源利用率。
本文提出了 CalibFusion,一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器,它通过端到端学习隐式外参微调,有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限,显著提升了融合检测的精度与鲁棒性。
该研究通过配对诊断实验发现,尽管语义噪声初始化在图像扩散模型中表现优异,但在文本到视频生成任务中并未展现出统计显著的优越性,其性能与高斯噪声基线相当。
AutoFigure-Edit 是一个端到端系统,能够结合长文本理解与参考图引导的风格迁移,从长篇科学文本中直接生成可编辑且风格可控的高质量科学插图(SVG 格式)。
该论文提出了一种名为 MultiGen 的新方法,通过引入独立于模型上下文窗口的可编辑外部记忆模块,将生成过程分解为记忆、观测和动态三个部分,从而解决了现有视频世界模型在环境可编辑性及多人协同交互一致性方面的局限性。
本文提出了名为 VB 的基准测试,旨在评估多模态大模型在图像可见性与视角推理任务中判断可见性、识别不可回答情况并给出置信度的能力,通过最小化编辑对照实验和多项严格指标发现 GPT-4o 与 Gemini 3.1 Pro 表现最佳,而开源模型 Gemma 3 12B 亦展现出超越部分旧版闭源系统的潜力。
本文提出了 RADAR,这是一个基于 3D 医学图像与临床审阅流程的多模态基准,旨在通过评估影像一致性、临床严重程度及编辑类型,推动多模态模型在放射学报告修订与差异分析中的细粒度推理能力。
本文提出了 ECHO 框架,通过多智能体协作对多媒体事件超图进行迭代优化,并采用“先链接后绑定”策略以缓解跨模态错误传播,从而在多媒体事件提取任务中显著超越了现有最先进方法。
本文提出了一种利用手机拍摄视频或图像并结合运动恢复结构(SfM)技术与三维分割算法,对现场骨料堆进行三维重建与单颗粒提取的创新方法,旨在为道路建设中的骨料粒径与形状分析提供便捷、低成本的现场质量管控解决方案。
本文提出了名为“叙事编织者(Narrative Weaver)”的新框架,通过结合多模态大语言模型进行叙事规划、引入动态记忆库实现细粒度控制,并发布了首个电商广告视频分镜数据集(EAVSD),从而解决了生成式 AI 在长序列内容创作中难以维持多模态可控性与视觉一致性的核心挑战。
该研究探讨了 TerraMind 多模态地理空间基础模型在不进行高光谱预训练的情况下,通过波段选择等策略适应高光谱下游任务的能力,结果表明虽然其表现略逊于原生支持高光谱的模型,但为未来引入原生光谱标记化架构奠定了重要基准。
本文提出了一种专为移动机器人设计的鲁棒性单次羽毛球检测框架,通过构建包含 20,510 帧半自动标注数据的新数据集并优化 YOLOv8 网络,有效解决了动态视角下羽毛球检测的难题,为后续跟踪与轨迹估计等任务奠定了基础。
该论文提出了一种名为 HARP 的深度学习框架,通过仅在可移动的扩散体模上进行训练,成功消除了多站点体内扩散 MRI 数据间的扫描仪差异,从而无需依赖复杂且难以获取的多站点人体受试者队列即可实现数据标准化。
该论文提出利用眼动追踪数据作为监督信号,通过引入专用的注视令牌引导医学视觉语言模型按时间顺序模拟放射科医生的视觉搜索过程,从而显著提升了模型在医学影像推理任务中的性能与泛化能力。
该论文通过实证研究揭示,在将大规模 Vision Transformer 教师模型蒸馏至容量受限的 CNN 学生模型时,会引发严重的维度坍塌现象,导致有效维度大幅降低并削弱模型的噪声鲁棒性,且这种由非对称余弦蒸馏引起的几何局限性无法通过输入增强来修复。
该论文针对农业领域缺乏通用视觉定位基准的难题,提出了首个包含负样本的农业数据集 gRef-CW,并设计了融合多标签分层相关性评分与插值回归的 Weed-VG 框架,以解决作物与杂草实例定位及目标缺失场景下的定位挑战。
该论文提出了科学图像质量评估(SIQA)框架,通过构建包含知识(科学有效性与完整性)和感知(认知清晰度与学科规范性)的双维评估体系及 SIQA 挑战基准,揭示了现有多模态大模型在科学图像评分一致性上表现良好但科学理解能力不足的差距,从而强调了多维评估对于科学图像质量判断的必要性。