VDCook:DIY video data cook your MLLMs
本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。
5749 篇论文
本文介绍了 VDCook,一个基于自然语言查询和 MCP 协议实现自动检索与合成、支持持续演进与多维元数据标注的自进化视频数据操作系统,旨在降低构建垂直领域多模态大模型训练数据集的门槛。
本文探讨了人工智能时代人类 - 数据交互、探索与可视化所面临的挑战(如非结构化数据、基础模型带来的不确定性及现有交互范式局限),并提出了通过重新定义人机角色、超越传统效率指标以及融合认知与设计原则来构建面向交互式数据分析的人本 AI 系统的未来研究方向。
本文介绍了 EigenData,一个通过多智能体架构实现函数调用数据合成、审计与修复的自进化平台,该平台在修复 Berkeley 函数调用排行榜(BFCL-V3)基准测试的同时,引入了基于数据库状态正确性的结果感知评估协议,显著提升了模型排名与人类对功能正确性判断的相关性。
本文提出了一种连续时间 Koopman 自编码器(CT-KAE)作为双层准地转海洋系统的轻量级代理模型,通过将其非线性动力学投影为线性常微分方程,实现了比自回归 Transformer 基线更稳定、误差增长有界且推理速度快数个数量级的长时序海洋状态预测。
本文研究了描述逻辑概念在点式解释模型下的修改问题,区分了剔除、接收和修正三种操作,论证了修正不能简单归结为前两者的组合,并给出了针对EL和ALC逻辑中这些操作兼容性的正负结果。
该论文通过构建包含内生教育和异质性厂商的任务模型,揭示了生成式 AI 在压缩个体技能差异的同时,因经济价值向集中互补资产转移而可能加剧总体不平等的悖论,并界定了决定这一结果的两个制度与技术 regimes。
该论文提出了名为 CBR-to-SQL 的框架,通过借鉴基于案例的推理(CBR)思想,将问答对抽象为可复用的案例模板并采用两阶段检索机制,有效解决了医疗领域文本转 SQL 任务中传统检索增强生成(RAG)方法面临的术语噪声、可扩展性差及数据稀缺等挑战,在 MIMICSQL 数据集上实现了优于现有方法的逻辑形式准确率与鲁棒性。
PRISM 提出了一种结合模仿学习与强化学习的指令驱动方法,通过大语言模型生成奖励函数并结合人类反馈对策略进行迭代优化,从而在无需大量新数据的情况下高效提升机器人操作策略的泛化能力与鲁棒性。
本文提出了名为 Tool-Genesis 的诊断基准,旨在量化语言智能体仅凭抽象需求自主创建工具的能力,并揭示了当前最先进模型在一次性生成中因接口与逻辑的微小缺陷而导致下游任务性能急剧下降的问题。
该研究提出了一种融合 MGWR、随机森林和时空图卷积网络的 GeoAI 混合分析框架,通过实证分析揭示了土地利用与多模式交通流之间复杂的空间异质性相互作用,显著提升了预测精度并识别出五种功能各异的交通类型,为制定基于证据的多模态交通管理和土地利用政策提供了可解释的工具。
该论文首次系统研究了物理基础模型中 Tokenizer 预训练的价值,发现通过在相同物理系统上进行自编码预训练,可显著提升下游动力学建模的计算效率与精度(VRMSE 降低 64%),并提出了支持运行时调整压缩比的灵活时空压缩操作。
DreamCAD 提出了一种利用可微参数曲面从点级监督直接生成可编辑 BRep 的多模态生成框架,结合新构建的百万级 CAD 描述数据集,在无需特定 CAD 标注的情况下实现了大规模训练并显著提升了文本、图像及点云到 CAD 生成的几何保真度。
该论文提出了一种混合管理架构,通过封装复杂子图来优化实时 AI 服务经济中的 DAG 依赖拓扑,从而在去中心化市场中显著降低价格波动并实现与集中式分配相当的资源配置效率。
该论文提出了 RACAS 系统,这是一种通过自然语言交互的协作智能体架构,仅需机器人描述、动作定义和任务指令即可在不修改代码或模型权重的情况下,实现对轮式地面机器人、多关节机械臂及水下车辆等多样化平台的统一闭环控制。
该论文提出了一种名为 ABRA 的对抗性批次表示增强方法,通过将生物批次效应建模为域泛化问题,利用极小化极大优化框架合成最坏情况下的批次扰动,从而在无需额外先验知识的情况下显著提升了高内涵细胞筛选中深度学习模型的泛化能力。
该论文提出了一种名为“后融合稳定器”(PFS)的轻量级模块,它作为现有鸟瞰图融合检测器的即插即用组件,通过稳定特征统计、抑制退化区域及自适应残差校正,在不改变原有架构的前提下显著提升了多模态 3D 检测在相机丢失、低光照等域偏移和传感器故障场景下的鲁棒性。
本文提出了名为 SCOUT 的新方法,通过从大语言模型蒸馏结构化关系知识并直接在 3D 场景图上基于关系启发式规则进行效用评分,实现了在开放世界家居环境中高效、实时且具备泛化能力的交互式物体搜索。
该研究通过大规模扰动实验发现,大型语言模型的道德判断极易受叙事视角、说服性提示及任务协议形式的影响,表明其道德评估结果更多取决于呈现方式而非道德实质,从而引发了关于可复现性与公平性的严重担忧。
该论文通过算法审计揭示,《数字服务法》因对“广告”定义过窄,导致 TikTok 虽在形式上遵守禁止向未成年人投放基于画像广告的规定,却未能有效规制未标注的网红营销等实质商业内容,致使未成年人仍遭受严重的个性化商业诱导,因此呼吁扩大监管定义以填补这一漏洞。
本文针对缺乏理想参考答案的参考自由强化学习场景,提出了通过加权枚举错误而非构建评分标准来生成奖励的“隐式错误计数”(IEC)方法,并在虚拟试衣任务中验证了其优于传统“评分标准即奖励”(RaR)及多种基线的性能。