SmartBench: Evaluating LLMs in Smart Homes with Anomalous Device States and Behavioral Contexts
本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench,涵盖正常与异常设备状态及行为上下文,评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。
3899 篇论文
本文提出了首个面向大语言模型的智能家居基准数据集 SmartBench,涵盖正常与异常设备状态及行为上下文,评估结果显示当前主流模型在检测和处理智能家居异常状态方面仍存在显著不足。
该论文提出了名为 HEARTS 的统一基准,旨在通过整合 16 个真实数据集和 110 项任务来评估大语言模型在健康时间序列上的分层推理能力,研究发现当前模型在复杂时序推理上表现不佳且单纯扩大规模无法解决这一问题,从而为开发下一代医疗推理智能体提供了标准化测试平台。
本文提出了 RECAP 方法,这是一种结合未训练储层动力学与自组织赫布原型读出机制的生物启发式图像分类策略,通过局部突触可塑性规则实现无需反向传播的鲁棒识别,并在未见过的图像噪声下展现出优异的泛化能力。
SR-TTT 通过引入基于损失门控的稀疏记忆机制,将高惊异度的关键令牌动态路由至精确注意力残差缓存,从而在保持 O(1) 内存占用的同时解决了传统测试时训练(TTT)模型在精确回忆任务中的灾难性遗忘问题。
本文提出了一种基于自适应信任评分机制的联邦学习框架,通过利用频率响应数据的频谱特征来解读骨愈合阶段,有效解决了分布式医疗传感环境中不可靠或对抗性参与者带来的安全挑战,从而在保障模型完整性的同时提升了训练稳定性与预测性能。
该论文提出了一种利用状态分层多智能体架构结合大语言模型与小语言模型(SLMs)的 5G/6G 意图驱动网络编排新框架,实验表明两者在翻译精度上表现相当,但 SLMs 能将编排生命周期整体完成速度提升 20%。
针对虚拟现实环境中缺乏直接交互线索的背景物体状态变化检测难题,该论文提出了专用的 ObjChangeVR 数据集,并设计了结合视点感知、时序检索与跨视角推理的 ObjChangeVR 框架,显著提升了多模态大模型在此类任务上的表现。
本文提出了 HURRI-GAN 这一基于时间序列生成对抗网络(TimeGAN)的新型人工智能方法,旨在通过校正物理模型(如 ADCIRC)的系统性偏差,在减少计算网格分辨率和运行时间的同时,实现超越现有水位监测站范围的飓风风暴潮高精度预测。
本文提出了一种名为测地线梯度下降(GGD)的通用且无需学习率的优化算法,该算法通过在目标函数诱导的流形上利用 n 维球面近似局部邻域并沿测地线更新参数,有效解决了传统欧氏梯度下降偏离流形及黎曼梯度下降难以表征复杂流形的问题,并在多项实验中显著降低了测试误差。
该论文提出了 PaLMR 框架,通过构建感知对齐的数据层与过程对齐的优化层,解决了多模态大模型在强化学习中因过度关注最终答案而容忍推理过程幻觉的问题,从而显著提升了视觉推理的忠实度与可靠性。
本文提出了一种名为 FCBNet 的参数高效卷积模型,通过采用冻结的 ConvNeXt 骨干网络、特征校正模块(FCB)及轻量级解码器,在多种光谱模态下实现了超过 85% 的 mIoU 高精度杂草分割,同时显著降低了训练时间和参数量。
本文提出了 GameVerse 基准,通过引入“反思并重试”的范式,证明视觉语言模型能够像人类一样从视频反馈(包括失败轨迹和专家教程)中学习并优化游戏策略。
该论文探讨了生成式人工智能在 K-16+ 教育阶段提升科学素养的潜力与挑战,论证了通过构建协调教学、学习与评估的 AI 架构来应对科学素养教育难题的必要性,并展望了相关研发需求及该模式在其他学科领域的推广前景。
本文提出了 Graph-of-Mark (GoM),一种通过在输入图像上叠加场景图来促进空间推理的免训练像素级视觉提示技术,实验表明该方法能显著提升多模态大模型在零样本场景下对物体位置和相对方向的理解能力。
该论文提出了一种基于全局时间索引的序列并行 3D 位置编码方案(Causal-RoPE SP),通过系统级推理优化(如算子融合与预计算)解决了 DiT 视频生成模型在长视频合成中的显存爆炸与高延迟瓶颈,在八卡 A800 集群上实现了亚秒级首帧延迟和近实时推理速度。
该论文指出思维链(CoT)在医学视觉问答任务中常因感知瓶颈而表现不如直接回答,并提出了无需训练的感知锚定与描述接地两种干预方法,有效提升了视觉大模型的准确性并逆转了性能劣势。
本文提出了 SIL-GPO 框架,通过结合图注意力网络与自模仿学习策略的强化学习方法,有效解决了边缘 AI 微服务系统中异构服务编排的联合优化难题,显著降低了端到端延迟并提升了资源利用率。
本文提出了 CalibFusion,一种面向水面环境的 Transformer 基可微雷达 - 相机融合检测器,它通过端到端学习隐式外参微调,有效克服了传统方法在纹理缺失和杂波干扰场景下的校准局限,显著提升了融合检测的精度与鲁棒性。
本文提出了名为 ERP-RiskBench 的复合基准与防数据泄露的集成学习框架,通过结合真实采购日志、标注欺诈数据及合成数据,利用时间感知和分组感知的嵌套交叉验证,显著提升了企业资源计划(ERP)系统中财务风险检测的准确性与可解释性,并纠正了以往研究中因数据泄露导致的性能高估问题。
该研究通过配对诊断实验发现,尽管语义噪声初始化在图像扩散模型中表现优异,但在文本到视频生成任务中并未展现出统计显著的优越性,其性能与高斯噪声基线相当。