字节跳动 Seed 团队发布的 Seed1.5-Embedding 向量模型 - 颠覆性的智能设计与应用
Seed1.5-Embedding是什么
Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型,基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果,在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。 模型采用 Siamese 双塔结构,依托 Seed1.5 预训练 LLM,通过两阶段训练强化通用表征能力。第一阶段使用无监督数据进行预微调,通过对比学习改造生成模型为编码模型;第二阶段使用有监督数据和合成数据进行微调,混合多种任务数据进行多任务优化。通过迭代式难负例挖掘、伪负例过滤和合成数据等策略优化数据构成和质量,提升模型在检索任务中的表现。 Seed1.5-Embedding 支持多种向量维度,包括 2048、1024、512 和 256。

Seed1.5-Embedding的主要功能
- 文本语义编码:将输入文本的语义编码到高维空间的表征向量中,使相关文本之间的向量相似度更高。这种编码方式可以支撑检索、分类、聚类等下游任务,广泛应用于搜索、推荐和内容理解等场景。
- 检索任务:通过向量相似度计算,快速从海量文档中定位与用户查询最相关的信息。模型在推理密集型检索任务上表现出色,能理解复杂的查询和文档匹配关系。
- 多任务优化:支持多种任务,包括分类、聚类、成对分类、重排、检索和语义文本相似性(STS)任务,适用于多种应用场景。
- 灵活的向量维度支持:支持多种向量维度(2048、1024、512、256),用户可以根据具体需求选择合适的维度,即使在较低维度下,模型性能下降也很小,提供了灵活的存储和运行效率选择。
- 推理能力优化:通过构造推理密集型检索数据,优化模型在复杂查询和文档匹配中的推理能力,能处理更复杂的语义关系和逻辑推理任务。
Seed1.5-Embedding的技术原理
- 模型架构:Seed1.5-Embedding 采用 Siamese 双塔向量模型结构,查询与文档的向量通过 cosine 相似度计算匹配得分。模型依托 Seed1.5 预训练 LLM,将单向注意力改为双向,构建出一个小规模的 MoE(Mixture of Experts)模型,查询侧和文档侧模型参数共享,保证了较高的运行效率。
- 两阶段训练流程
- 第一阶段:使用无监督数据进行预微调,通过对比学习将单向 Attention 的生成模型改造为双向 Attention 的编码模型,充分建模各种文本匹配模式。
- 第二阶段:使用有监督数据和合成数据进行微调,混合多种任务数据进行多任务优化,让模型学习各个任务的最佳表征模式。
- 数据工程策略
- 负例挖掘:设计迭代式难负例挖掘策略,根据模型自身偏好挖掘难负例,提升模型的细粒度相关性区分能力。
- 伪负例过滤:自动过滤与正例过于相似的文本,避免伪负例影响学习。
- 合成数据:构造通用场景和推理密集场景的数据,提升模型在复杂检索任务中的表现。
Seed1.5-Embedding的项目地址
- HuggingFace模型库:https://huggingface.co/ByteDance-Seed/Seed1.5-Embedding
Seed1.5-Embedding的应用场景
- 信息检索与语义搜索:Seed1.5-Embedding 可将文档或网页向量化,支持语义级别的搜索,显著提高召回率和精准度。例如,在问答系统(QA)、企业内部文档检索、客户服务等场景中,模型能更准确地理解用户查询意图,快速定位相关文档。
- 文本聚类与话题识别:利用文本向量,Seed1.5-Embedding 可对海量文档进行聚类,自动识别出不同主题和分类信息。
- 推荐系统:在推荐系统中,模型可将用户评论、产品描述等文本信息向量化,通过计算相似度,实现相似商品、相似用户的检索。
- 文本分类与情感分析:Seed1.5-Embedding 可将文本生成向量,再输入下游分类模型,提升文本分类、情感分析、立场分析等任务的性能。相比传统 TF-IDF 特征,生成的向量能更准确地表达文本含义和上下文关系。
- 复杂查询理解与推理:模型在推理密集型检索任务上表现出色,能深入理解复杂查询和文档之间的深层匹配关系。例如,在生物学、地球科学、编程等领域的复杂搜索任务中,Seed1.5-Embedding 能提供更准确的检索结果。
发表评论