Jina AI开源第二代文字嵌入模型,整体表现接近OpenAI同级模型
德国人工智慧新创Jina AI开源了该公司的第二代文字嵌入模型jina-embeddings-v2,新模型现在可以处理多达8,192个token上下文长度。以大规模文字嵌入基准(Massive Text Embedding Benchmark)评估jina-embeddings-v2的能力,整体来说已非常接近同等级模型OpenAI text-embedding-ada-002的表现。
jina-embeddings-v2是完全由Jina AI开发团队研发、收集资料集和调校的新模型,能力较前一版本大幅提升,其最重要的进步,便是能够处理8,192个token上下文长度。可以处理更长的上下文,也就代表模型可以应用的领域更为广泛,像是可以分析法律文件,更细致地捕捉法律文件中的细节,或是从财务报表中解析关键资讯,进行财务预测,也能够用於开发对话机器,以应对复杂的用户查询。
在大规模文字嵌入基准的排名中,开源的jina-embeddings-v2排名第17,与商用的OpenAI text-embedding-ada-002的15名相去不远,而且在分类、重新排序、检索和摘要生成等自然语言处理任务,jina-embeddings-v2的表现已经超越text-embedding-ada-002。
目前用户可以从Huggingface免费下载jina-embeddings-v2模型,官方释出两个模型版本,第一个是针对学术研究或是商业分析等高准确性需求任务设计,大小为0.27 GB的基础模型,另一个则是适用於轻量级应用程式,能够整合行动应用程式或是供运算资源资源有限的装置使用的小型模型,容量只有0.07 GB。
Jina AI持续扩展jina-embeddings-v2模型,正着手开发API平台,供用户能够根据需求简单扩展使用规模,同时Jina AI也将扩增jina-embeddings-v2的能力,支援更多的语言。…