字节跳动 Seed 团队发布的 Seed1.5-Embedding 向量模型 - 颠覆性的智能设计与应用

Seed1.5-Embedding是什么

Seed1.5-Embedding 是字节跳动 Seed 团队最新发布的向量模型，基于 Seed1.5 (Doubao-1.5-pro) 进一步训练。模型在权威测评榜单 MTEB 上达到了中英文 SOTA 效果，在推理密集型检索任务的 BRIGHT 榜单上也取得了优异成绩。模型采用 Siamese 双塔结构，依托 Seed1.5 预训练 LLM，通过两阶段训练强化通用表征能力。第一阶段使用无监督数据进行预微调，通过对比学习改造生成模型为编码模型；第二阶段使用有监督数据和合成数据进行微调，混合多种任务数据进行多任务优化。通过迭代式难负例挖掘、伪负例过滤和合成数据等策略优化数据构成和质量，提升模型在检索任务中的表现。 Seed1.5-Embedding 支持多种向量维度，包括 2048、1024、512 和 256。

Seed1.5-Embedding的主要功能

文本语义编码：将输入文本的语义编码到高维空间的表征向量中，使相关文本之间的向量相似度更高。这种编码方式可以支撑检索、分类、聚类等下游任务，广泛应用于搜索、推荐和内容理解等场景。
检索任务：通过向量相似度计算，快速从海量文档中定位与用户查询最相关的信息。模型在推理密集型检索任务上表现出色，能理解复杂的查询和文档匹配关系。
多任务优化：支持多种任务，包括分类、聚类、成对分类、重排、检索和语义文本相似性（STS）任务，适用于多种应用场景。
灵活的向量维度支持：支持多种向量维度（2048、1024、512、256），用户可以根据具体需求选择合适的维度，即使在较低维度下，模型性能下降也很小，提供了灵活的存储和运行效率选择。
推理能力优化：通过构造推理密集型检索数据，优化模型在复杂查询和文档匹配中的推理能力，能处理更复杂的语义关系和逻辑推理任务。

Seed1.5-Embedding的技术原理

模型架构：Seed1.5-Embedding 采用 Siamese 双塔向量模型结构，查询与文档的向量通过 cosine 相似度计算匹配得分。模型依托 Seed1.5 预训练 LLM，将单向注意力改为双向，构建出一个小规模的 MoE（Mixture of Experts）模型，查询侧和文档侧模型参数共享，保证了较高的运行效率。
两阶段训练流程
- 第一阶段：使用无监督数据进行预微调，通过对比学习将单向 Attention 的生成模型改造为双向 Attention 的编码模型，充分建模各种文本匹配模式。
- 第二阶段：使用有监督数据和合成数据进行微调，混合多种任务数据进行多任务优化，让模型学习各个任务的最佳表征模式。
数据工程策略
- 负例挖掘：设计迭代式难负例挖掘策略，根据模型自身偏好挖掘难负例，提升模型的细粒度相关性区分能力。
- 伪负例过滤：自动过滤与正例过于相似的文本，避免伪负例影响学习。
- 合成数据：构造通用场景和推理密集场景的数据，提升模型在复杂检索任务中的表现。

Seed1.5-Embedding的项目地址

HuggingFace模型库：https://huggingface.co/ByteDance-Seed/Seed1.5-Embedding

Seed1.5-Embedding的应用场景

信息检索与语义搜索：Seed1.5-Embedding 可将文档或网页向量化，支持语义级别的搜索，显著提高召回率和精准度。例如，在问答系统（QA）、企业内部文档检索、客户服务等场景中，模型能更准确地理解用户查询意图，快速定位相关文档。
文本聚类与话题识别：利用文本向量，Seed1.5-Embedding 可对海量文档进行聚类，自动识别出不同主题和分类信息。
推荐系统：在推荐系统中，模型可将用户评论、产品描述等文本信息向量化，通过计算相似度，实现相似商品、相似用户的检索。
文本分类与情感分析：Seed1.5-Embedding 可将文本生成向量，再输入下游分类模型，提升文本分类、情感分析、立场分析等任务的性能。相比传统 TF-IDF 特征，生成的向量能更准确地表达文本含义和上下文关系。
复杂查询理解与推理：模型在推理密集型检索任务上表现出色，能深入理解复杂查询和文档之间的深层匹配关系。例如，在生物学、地球科学、编程等领域的复杂搜索任务中，Seed1.5-Embedding 能提供更准确的检索结果。