豆包向量化API – 字节跳动新推出的高效语义向量化模型解析

豆包向量化API是什么

豆包向量化API是由字节跳动研发的语义向量化模型,名为Doubao-embedding,主要面向向量检索的使用场景,支持中、英双语,能处理最长4K的上下文长度。目前提供两个版本,text-240715:最高维度向量 2560,支持 512、1024、2048 降维使用。中英文 Retrieval效果较 text-240515 版本有较大提升,推荐使用该版本。text-240515:最高维度向量 2048,支持 512、1024 降维使用。API的Host为maas-api.ml-platform-cn-beijing.volces.com,Region为cn-beijing

使用Doubao-embedding API之前,需要通过设置环境变量或在代码中直接修改,配置VOLC_ACCESSKEYVOLC_SECRETKEY。字节跳动提供了统一的SDK接入方式,包括Golang、Python和Java的SDK。

豆包大模型

豆包向量化API的主要功能

  • 语义向量化:将文本内容转换为语义向量,这些向量能表达文本的语义信息。
  • 支持多种语言:支持中文和英文文本的向量化处理。
  • 长文本处理:能处理最长4K(即4096个字符)的上下文长度,适合长文本的向量化。
  • 高维向量输出:提供2048维的向量输出,同时支持512维和1024维的降维使用,适应不同的应用场景和计算资源。
  • 向量检索优化:生成的向量适用于文档相似度比较、信息检索等向量检索任务。
  • 易于集成:提供Golang、Python和Java的SDK,方便开发者在不同编程环境中集成和使用。
  • 灵活的输入输出:API的输入是一个包含文本内容的列表,输出则是包含每个文本向量化结果的列表,其中包含向量和对应的序号。
  • 检索效果优化:在检索场景中,建议为查询文本添加指令前缀,提高检索的效果和准确度。
  • 适用于多种应用:适用于搜索引擎、推荐系统、知识图谱、自然语言处理等多种应用场景。

豆包向量化API的项目地址

  • 向量化API调用指南地址:https://www.volcengine.com/docs/82379/1263524

如何获取豆包向量化API的API key鉴权

API Key是用于API鉴权的密钥,确保在调用API时能验证身份。在使用API进行开发时,需要在HTTP请求的Header中添加Authorization字段,在实际调用API时,需要将VOLC_ACCESSKEY替换为实际API Key。

  • 注册账号:前往火山引擎官网并注册账号。
  • 登录控制台:使用账号登录火山引擎控制台。
  • 创建API Key:在控制台中,找到API访问秘钥部分,点击创建API Key。需要为API Key设置一个名称,便于识别和管理。创建后,系统会提供一串字符,即为API Key,务必妥善保管,避免泄露给他人。

豆包向量化API的不同语言SDK接入方式

  • Golang SDK接入方式
    • 安装SDK:首先需要通过go get命令安装Golang SDK。
      go get -u github.com/volcengine/volc-sdk-golang

发表评论