MoEless: Efficient MoE LLM Serving via Serverless Computing
MoEless 是首个基于无服务器架构的混合专家(MoE)大模型服务框架,它通过轻量级负载预测与动态专家扩缩容策略,有效解决了专家负载不均导致的延迟与成本问题,相比现有方案显著降低了推理延迟和成本。
7435 篇论文
MoEless 是首个基于无服务器架构的混合专家(MoE)大模型服务框架,它通过轻量级负载预测与动态专家扩缩容策略,有效解决了专家负载不均导致的延迟与成本问题,相比现有方案显著降低了推理延迟和成本。
本文提出了动态分块扩散 Transformer(DC-DiT),通过引入端到端学习的编码器 - 路由器 - 解码器架构,根据图像内容复杂度和扩散时间步自适应地压缩 Token 序列,从而在显著降低计算成本的同时提升了生成质量,并支持从预训练 DiT 模型的低成本迁移。
本文提出了名为 CLAIRE 的混合深度学习框架,通过结合无监督深度表征学习与监督分类,并利用博弈论可解释性技术分析潜在空间,有效解决了高维工业环境中传感器数据噪声大、冗余多的问题,显著提升了智能制造系统中的故障检测精度与可解释性。
本文提出了 ESAA-Security 架构,这是一种专为 AI 生成代码安全审计设计的、基于事件溯源的验证性框架,它通过将代理认知与确定性状态变更分离,并采用追加日志、约束输出及重放验证机制,将安全审查从自由形式的对话转化为可追溯、可复现且基于证据的治理流程。
本文提出了一种基于动能正则化(KBR)的局部多维核回归方法,通过显式与隐式两种方案实现了对离散含噪数据空间导数的二阶精度估计,并展示了其在保守求解器中稳定捕捉激波及求解高维不规则点云偏微分方程的潜力。
该论文提出了一种提示组感知训练框架,通过将语义相关的提示组织成组并引入质量引导的正则化与对数级一致性约束,在不改变模型架构的前提下显著提升了文本引导的细胞核分割在临床病理场景中的鲁棒性与泛化能力。
该论文针对科学工作流中确定性与灵活性难以兼得的矛盾,提出了一种通过机器可验证的“模式门控”将对话自由与执行严格相分离的架构,并验证了多模型评分在系统评估中的有效性,旨在实现既灵活又可复现的代理式 AI 科学工作流。
该论文提出了物理模拟器内循环视频生成(PSIVG)框架,通过将物理模拟器与视频扩散过程相结合,利用模拟的 4D 场景轨迹引导生成过程,并辅以测试时纹理一致性优化技术,从而在保持视觉质量的同时显著提升了生成视频对重力、惯性和碰撞等基本物理定律的遵循程度。
该论文针对强化学习框架缺乏统一参考架构的问题,基于对 18 个主流框架的扎根理论分析,提出了一套包含核心组件及其关系的参考架构,并以此重构典型模式、识别技术趋势以指导框架改进。
本文提出了 CLoPA 策略,通过在标注缓存上对 nnInteractive 模型进行轻量级的持续参数微调,无需引入新参数或改变推理流程,即可在多种医学图像分割任务中快速将零-shot 模型的性能提升至专家水平。
本文通过将演绎数据集转化为适合溯因推理的形式,评估了大语言模型在溯因推理中的准确性与偏差,旨在揭示其超越形式演绎的上下文推理能力,从而促进机器与人类认知在复杂推理任务中的融合。
该论文提出了一种基于弱时间对齐数据的 Prosodic Boundary-Aware 后训练策略,使 LLM 驱动的 TTS 模型能够在流式文本输入下实现基于内容边界的早期停止与滑动窗口推理,从而有效解决了流式合成中韵律不自然和长文本崩溃的问题,显著降低了长文本合成的词错误率并提升了说话人与情感相似度。
该论文通过探针实验证明,冻结的视觉 - 语言模型底层特征中蕴含的连续几何信息远超其文本输出能力,且这种“表示 - 表达”差距源于训练路径而非表征缺失,不同架构的编码器虽表征相似性低却实现了功能收敛,表明无需微调即可利用冻结骨干网络作为多任务几何传感器。
PONTE 是一种人机协同框架,通过闭环验证与自适应机制,结合偏好建模、基于结构化 XAI 产物的生成以及多重验证模块,为不同用户生成既个性化又可信的自然语言解释,有效解决了现有可解释人工智能方法中缺乏个性化及大模型易产生幻觉的问题。
本文提出了专为从头预训练设计的 NOBLE 架构,通过在 Transformer 线性层中引入带有可学习非线性(如 CosNet)的低秩分支,在仅增加少量参数和时间开销的情况下显著提升了 LLM、BERT 及 ViT 等模型的训练效率。
COLD-Steer 是一种无需重新训练的大语言模型控制框架,它通过推理时近似小样本上下文学习的梯度更新动态,仅用极少量示例即可高效实现高达 95% 的定向控制效果,从而解决了现有激活导向方法在样本效率与信号提取能力之间的权衡难题。
该研究提出了一种基于超过 4.5 万张超声图像训练的人工智能系统,其诊断胎儿口面裂的准确率媲美资深放射科医生,不仅能显著提升初级医生的诊断敏感性,还能加速罕见病临床专家的培养,为医疗资源匮乏地区提供了兼顾精准诊断与专业教育的可扩展解决方案。
本文提出了 RAMoEA-QA,一种通过两阶段条件专业化机制(即音频混合专家路由和语言混合适配器选择)来应对呼吸音频数据异质性与查询意图多样性的分层生成模型,该模型在提升诊断准确率的同时展现了卓越的跨域泛化能力。
本文介绍了 LiveSense 平台,该平台利用商用 Wi-Fi 网卡将笔记本电脑转化为厘米级实时距离 - 多普勒传感器,在保持通信能力的同时实现了高频 CSI 提取、自干扰消除及微动检测等功能。
该论文提出了一种名为 H²RL 的混合分层强化学习框架,通过引入基于逻辑选项的预训练策略,将符号结构注入神经智能体以引导其进行目标导向的长期决策,从而有效解决了深度强化学习中常见的奖励过拟合问题,并在长程任务中超越了现有基线模型。