Enhancing Lexicon-Based Text Embeddings with Large Language Models

该论文提出了首个利用大语言模型构建的基于词表的文本嵌入方法 LENS,通过聚类令牌词表解决冗余问题并优化注意力与池化策略,在保持紧凑维度的同时实现了超越传统稠密嵌入的性能,且无需特殊目标即可高效降维,与稠密嵌入结合后更在检索任务上达到最先进水平。

Yibin Lei, Tao Shen, Yu Cao, Andrew Yates

发布于 2026-03-20
📖 1 分钟阅读☕ 轻松阅读

Each language version is independently generated for its own context, not a direct translation.

这篇论文介绍了一种名为 LENS 的新方法,它利用目前最火的大语言模型(LLM)来生成“文本向量”(Text Embeddings)。

为了让你轻松理解,我们可以把这项技术想象成是在给大语言模型“戴上一副特制的眼镜”,让它能更清晰、更精准地理解文字的含义。

以下是用通俗语言和比喻对这篇论文的解读:

1. 背景:大模型虽然聪明,但“视力”有点模糊

  • 什么是文本嵌入?
    想象一下,计算机不懂人类语言,它只认识数字。为了把“苹果”和“香蕉”这两个词放进计算机里,我们需要把它们变成一串数字(向量)。这串数字就像它们的“身份证”,如果两个词意思相近,它们的“身份证”数字长得很像。
  • 现在的两种主流方法:
    • 稠密嵌入(Dense Embeddings): 就像把整段话压缩成一个抽象的“味道”。比如“苹果”的味道是“甜、脆、红”。这种方法很流行,但有时候太抽象了,你很难知道它具体是哪里像。
    • 词典嵌入(Lexicon-based): 就像把这段话拆解成具体的“关键词”。比如“苹果”直接对应“水果”、“红色”、“甜”。这种方法很透明,你知道它为什么像,但以前的方法有个大毛病:太乱、太冗余

2. 问题:大模型的“字典”太乱了(LENS 要解决什么?)

以前的词典嵌入方法直接拿大模型的“字典”来用,结果发现字典里充满了噪音和重复

  • 比喻:同义词的“变装舞会”
    在大模型的字典里,"what"(什么)、"What"(大写)、" what"(前面带空格)可能被当成三个完全不同的词。这就像一个人穿了件红衣服叫“张三”,穿了件蓝衣服也叫“张三”,计算机傻傻分不清楚,导致匹配时很混乱。
  • 比喻:把单词拆得七零八落
    大模型喜欢把长词拆开。比如"education"(教育)被拆成了"edu"和"cation"。这就像把“苹果”拆成“苹”和“果”,如果只搜“苹”,可能搜不到“苹果”。这种碎片化让匹配变得很困难。
  • 单向视野的局限
    大多数大模型(像 LLaMA, Mistral)是“单向”阅读的,只能看前面的字,不能看后面的字。就像一个人戴着眼罩走路,只能看前面,看不到身后的路,理解力就受限了。

3. 解决方案:LENS 的三大绝招

LENS 就像给大模型做了一次“视力矫正手术”,主要做了三件事:

第一招:把“乱字典”整理成“分类柜”(聚类)

  • 做法: 既然字典里有很多长得像但意思一样的词(比如"what", "What"),LENS 就用一种叫“聚类”的方法,把它们强行归为一类
  • 比喻: 以前字典里有一万个抽屉,每个抽屉里都放着"what"的各种变体。LENS 把这 10000 个抽屉合并成1 个大柜子,贴上“疑问词”的标签。
  • 效果: 这样不仅减少了噪音,还把原本巨大的字典(几万维)压缩到了几千维(比如 4000 维),和现在的稠密嵌入一样小巧,但保留了“关键词”的透明性。

第二招:摘下眼罩,拥有“全景视野”(双向注意力)

  • 做法: 大模型通常是单向的(只看前面),LENS 在微调时强行让它既能看前面,也能看后面
  • 比喻: 以前大模型是“管中窥豹”,只能看到前面。LENS 给它摘掉眼罩,让它能360 度无死角地观察整个句子。这对于理解上下文(比如“苹果”是指水果还是手机)至关重要。

第三招:只取精华,自动“瘦身”(Top-K 剪枝)

  • 做法: LENS 生成的向量虽然比原始字典小,但依然可以进一步精简。它不需要特殊的训练,直接只保留最重要的前 256 个关键词,其他的直接扔掉。
  • 比喻: 就像写文章总结,LENS 能自动帮你把 4000 个字的草稿,提炼成最核心的 256 个字,而且不丢信息。这比那些需要专门训练才能“瘦身”的模型要聪明得多。

4. 成果:既快又准,还能“强强联合”

  • 单打独斗也很强: 在著名的 MTEB 测试(文本嵌入界的“奥林匹克”)中,LENS 的表现超过了很多只用公开数据训练的顶级稠密模型。它生成的向量既紧凑(体积小),又透明(你知道它为什么这么判断)。
  • 1+1 > 2 的魔法: 论文发现,如果把 LENS(关键词派)和传统的稠密嵌入(抽象派)结合起来,效果直接封神,在检索任务上达到了目前的世界最高水平(SOTA)
    • 比喻: 就像找东西,稠密模型告诉你“大概在这个区域”,LENS 告诉你“具体是红色的那个”。两个一起用,就能精准定位。

5. 总结:LENS 是什么?

简单来说,LENS 就是给大语言模型装了一个“智能分类器”和“全景镜头”

它解决了大模型字典太乱、太碎的问题,把成千上万个重复的单词变体整理成清晰的类别,让模型既能像以前一样理解深层含义,又能像查字典一样透明地展示它关注的关键词。

一句话总结:
LENS 让大模型在理解文字时,既拥有了抽象的直觉,又保留了具体的关键词,而且还能自动瘦身,是目前文本检索和语义理解领域的一项重大突破。