ConLID: Supervised Contrastive Learning for Low-Resource Language Identification
该论文提出了一种名为 ConLID 的有监督对比学习方法,旨在通过学习域不变表示来解决低资源语言在单一领域数据(如《圣经》)上表现不佳的问题,从而在保持高资源语言性能的同时,显著提升了低资源语言在跨域数据上的语言识别准确率。
2099 篇论文
该论文提出了一种名为 ConLID 的有监督对比学习方法,旨在通过学习域不变表示来解决低资源语言在单一领域数据(如《圣经》)上表现不佳的问题,从而在保持高资源语言性能的同时,显著提升了低资源语言在跨域数据上的语言识别准确率。
本文介绍了 OPENXRD,这是一个针对大语言模型和 multimodal 大语言模型在晶体学问答任务中评估其上下文信息整合能力的综合基准框架,通过包含 217 道专家审定 XRD 问题的闭卷与开卷测试,揭示了模型规模、内容质量对知识整合效果的关键影响。
该论文提出数学问题解决是一个信念更新循环,区分了优化既有语言搜索的“隐性概念”与引入新表达方式的“显性概念”,并论证后者是数学发现的核心特征,而当前 AI 系统仅具备前者,缺乏创造显性概念的能力。
该论文提出了一种名为“潜在策略引导”(LPS)的方法,通过利用光流作为跨具身无关的动作表示来预训练世界模型,并结合目标具身的小规模演示数据进行微调与价值函数学习,从而在低数据场景下显著提升了机器人视觉运动策略的性能。
该论文提出了 MMGraphRAG 框架,通过引入基于谱聚类的 SpecLink 方法将视觉场景图与文本知识图谱深度融合,并发布了 CMEL 数据集,有效解决了现有 GraphRAG 难以构建细粒度多模态知识图谱的问题,从而在复杂多模态场景下显著提升了检索增强生成的性能与可解释性。
该研究提出了一种结合新闻数据与社交媒体画像的 LLM 智能体框架,通过事实提取、魔鬼代言人模拟及反事实暴露三种去偏机制,探究了媒体对中美态度的影响,发现“魔鬼代言人”机制在模拟人类认知和缓解偏见方面最为有效,同时揭示了不同大模型因地理起源而存在的固有偏见差异。
该论文提出了一种名为 SFDA-PFT 的轻量级无源域自适应方法,通过在潜在空间中利用预训练的特征翻译器将源域风格映射到仅含中性表情的目标域数据,从而在无需源数据或图像合成的隐私敏感场景下实现了高效的面部表情识别。
本文提出了 EgoCross 基准,旨在通过涵盖手术、工业、极限运动和动物视角等四个高影响力跨域场景的评测,揭示现有多模态大语言模型在 egocentric 视频问答任务中面对域偏移时的泛化局限性,并为构建更鲁棒的领域自适应视频理解系统奠定基础。
该论文提出了一种利用开源工具 HeyGem 将课程大纲转化为虚拟化身演唱歌曲的创新方法,旨在通过更具吸引力的视听形式提升学生对课程信息的关注度、情感连接及记忆效果。
本文提出了 TaoSR1 框架,通过结合思维链监督微调、偏好优化及基于难度的动态采样策略,成功解决了大语言模型在电商搜索相关性任务中面临的推理错误累积、判别幻觉及部署可行性等挑战,显著提升了离线与在线评估表现。
本文提出了 CMASE 框架,该框架通过将生成式智能体建模与虚拟民族志方法相结合,使研究者能够作为嵌入参与者实时干预虚拟社会环境,从而在保持实证准确性的同时,实现对复杂社会现象的机制性解释与因果预测。
本文提出了 VistaWise,一种通过构建跨模态知识图谱并微调专用目标检测模型,仅需数百样本即可在 Minecraft 中实现低成本、高性能的具身智能体框架。
该论文提出了 SEER 框架,通过结合 Best-of-N 采样与任务感知自适应过滤来动态压缩思维链(CoT),在显著降低计算延迟和内存开销的同时,有效提升了大型语言模型在软件工程及数学任务中的准确性与鲁棒性。
本文提出了 VSSFlow,一种基于流匹配的联合学习框架,通过引入解耦条件聚合机制,成功统一了视频到声音和视频文本到语音生成任务,并在端到端联合训练中实现了超越现有专用基线的性能。
本文提出了 VoiceBridge,一种基于能量保持变分自编码器、联合神经先验及桥接训练目标的一步潜在桥接模型,能够利用单一潜在生成过程高效恢复从去噪、超分到合成语音优化等多种失真场景下的高质量全频带语音。
本文提出了名为 v-HUB 的视频幽默理解基准,通过包含非语言短视频及环境声音标注的多样化评估任务,揭示了当前多模态大模型在纯视觉幽默理解上的局限性,并证实了引入音频模态能显著提升模型对复杂视频幽默的感知能力。
该论文提出了潜语音 - 文本 Transformer(LST),通过将离散语音令牌聚合为更高阶的潜语音补丁,解决了语音与文本模态间的序列长度不平衡问题,从而在提升计算效率的同时显著增强了跨模态对齐能力,并在语音理解、生成及下游任务中实现了性能与效率的双重优化。
本文介绍了 AlphaApollo 系统,该系统通过多轮智能体推理、多轮智能体学习(结合工具使用强化学习)以及多轮智能体进化(提出 - 判断 - 更新循环)三大核心组件,有效解决了基础模型在复杂长程推理中的能力瓶颈及测试时演进的不可靠问题,并在多个数学基准测试中显著提升了不同规模模型的性能。
本文提出了旨在评估导航智能体空间感知与推理能力的 NavSpace 基准及包含六个任务类别的 1,228 条轨迹 - 指令对,并通过该基准对 22 种现有模型进行了全面评估,同时推出了在 NavSpace 和真实机器人测试中均表现优异的新型空间智能导航模型 SNav。
该论文提出了名为 RECODE 的代理框架,通过将结构化视觉逆向工程为可执行代码并进行迭代验证与优化,显著提升了多模态大语言模型在图表和几何等视觉推理任务中的精确性与可验证性。