搞大模型，没有重排工具怎么行？_架构设计

在说重排工具之前，我们要先了解一下 rag。

检索增强生成（rag）是一种新兴的 ai 技术栈，通过为大型语言模型（llm）提供额外的“最新知识”来增强其能力。

基本的 rag 应用包括四个关键技术组成部分：

embedding 模型：用于将外部文档和用户查询转换成 embedding 向量

向量数据库：用于存储 embedding 向量和执行向量相似性检索（检索出最相关的 top-k 个信息）

提示词工程（prompt engineering）：用于将用户的问题和检索到的上下文组合成大模型的输入

大语言模型（llm）：用于生成回答

上述的基础 rag 架构可以有效解决 llm 产生“幻觉”、生成内容不可靠的问题。但是，一些企业用户对上下文相关性和问答准确度提出了更高要求，需要更为复杂的架构。一个行之有效且较为流行的做法就是在 rag 应用中集成 reranker。

什么是 reranker？

reranker （重排器）是信息检索（ir）生态系统中的一个重要组成部分，用于评估搜索结果，并进行重新排序，从而提升查询结果相关性。在 rag 应用中，主要在拿到向量查询（ann）的结果后使用重排器，能够更有效地确定文档和查询之间的语义相关性，更精细地对结果重排，最终提高搜索质量。

目前，重排器类型主要有两种——基于统计和基于深度学习模型的 reranker：

基于统计的重排器会汇总多个来源的候选结果列表，使用多路召回的加权得分或倒数排名融合（rrf）算法来为所有结果重新算分，统一将候选结果重排。这种类型的重排器的优势是计算不复杂，效率高，因此广泛用于对延迟较敏感的传统搜索系统中。

基于深度学习模型的重排器，通常被称为 cross-encoder reranker。由于深度学习的特性，一些经过特殊训练的神经网络可以非常好地分析问题和文档之间的相关性。这类重排器可以为问题和文档之间的语义的相似度进行打分。因为打分一般只取决于问题和文档的文本内容，不取决于文档在召回结果中的打分或者相对位置，这种重排器既适用于单路召回也适用于多路召回。

将重排器整合到 rag 应用中，可以显著提高生成答案的精确度，因为重排器能够在单路或多路的召回结果中挑选出和问题最接近的文档。此外，扩大检索结果的丰富度（例如多路召回）配合精细化筛选最相关结果（reranker）还能进一步提升最终结果质量。使用重排器可以排除掉第一层召回中和问题关系不大的内容，将输入给大模型的上下文范围进一步缩小到最相关的一小部分文档中。通过缩短上下文， llm 能够更“关注”上下文中的所有内容，避免忽略重点内容，还能节省推理成本。

追求回答高精度和高相关性的场景中，特别适合使用重排器，例如专业知识库或者客服系统等应用。因为这些应用中的查询都具有很高的商业价值，提升回答准确性的优先级远高于系统性能和控制成本。使用重排器能够生成更准确的答案，有效提升用户体验。

重排器在提高检索相关性的同时，也会增加延迟和计算成本。因此，在检索质量、搜索延迟、使用成本之间进行权衡之后，当前可选择的重排工具并不多，下面介绍三款：cohere rerank 、 bge re-ranker、jina reranker。

cohere rerank

cohere rerank 是在业界被广泛使用的重排工具，它通常集成在 langchain 和 llamaindex 框架中，使用相对简单。

其背后公司 cohere 的来头不简单。cohere 成立于 2019 年，由曾在 google brain 和 cortex 工作的研究人员和工程师创立，其联合创始人之一 aidan gomez，是 transformers 架构的作者之一。根据不完全统计，cohere 累计融资已经超过 4.45 亿美元。今年 3 月，还爆出 cohere 的新一轮融资已进入后期谈判阶段，筹集超 5 亿美元资金，估值有望达到 50 亿美元。

今年 4 月， cohere 发布了 rerank 3，各方面都提升了不少，包括：

4k 上下文长度可显著提高较长文档的搜索质量

能够搜索多方面和半结构化数据，如电子邮件、发票、json 文档、代码和表格

覆盖 100 多种语言

改善延迟并降低总体拥有成本 (tco)

不过，它是商业闭源的。原本每 1000 次搜索，用户需要花费 1 美元，在升级到 rerank 3 之后，每 1000 次搜索，需要 2 美元。

bge re-ranker

bge re-ranker 是智源研究院推出检索排序模型，今年 3 月发布了 2.0 版本。该模型是智源团队在 bge 系列基础上的新尝试。bge（baai general embedding）是智源研究院打造的通用语义向量模型。自 2023 年 8 月发布以来，智源团队陆续发布了中英文模型 bge v1.0、v1.5以及多语言模型 bge-m3。

bge re-ranker v2.0系列排序模型采用了两种不同尺寸的模型基座：

bge re-ranker v2-llm：基于 minicpm-2b，gemma-2b等性能卓越的轻量化大语言模型。

bge re-ranker v2-m3：基于性能出色、参数量更小的 bge-m3-0.5b（速度更快）。

来看看 bge re-ranker 2.0 的特性：

支持更多语言，更长文本长度，并在英文检索基准 mteb、中文检索基准 c-mteb、多语言检索基准 miracl、llama-index evaluation 等主流基准上取得了 state-of-the-art 的结果。

借助分层自蒸馏策略进一步优化推理效率，适度的开销即可换取显著的性能收益。在实际应用中，用户可以基于具体场景的算力条件及时延限制灵活选择排序模型的层数。

开源模型现已通过 hugging face、github 等平台发布，采用免费、商用许可的开源协议：

https://github.com/flagopen/flagembedding
https://huggingface.co/baai

截至今年3月，bge 系列模型全球下载量超过 1500万，位居国内开源ai模型首位。bge-m3 模型一度跃居 hugging face 热门模型前三，其所属代码仓库 flagembedding 位居 github 热门项目前 10；bge-m3 所带来的全新的通用检索模式也相继被 milvus、vespa 等主流向量数据库集成。

jina reranker

jina reranker 是由神经搜索公司 jina ai 开发。2022 年，jina ai 完成 a 轮融资，融资总额已经超过 2 亿人民币。其开发的神经搜索框架 jina 多次登上 github 全球 trending 排行榜第一名。

jina reranker v2 在今年 6 月发布，在速度、多语言支持和功能上都有显著提升，尤其适用于检索增强生成（rag）场景。

jina reranker v2 的主要优势：

多语言支持: 在 100 多种语言中提供更相关的搜索结果，性能超过 bge-reranker-v2-m3；

代理能力: 具备最先进的函数调用和文本到 sql 转换能力，适用于代理 rag 场景。

代码检索：在代码检索任务上表现最佳；

极速：推理速度比上一代产品快6倍，比同类产品bge-reranker-v2-m3快15倍。

jina reranker v2 的特性：

创新需求：弥补嵌入模型在检索精度上的不足。

多语言支持：在 mkqa、beir 和 airbench 等基准测试中表现优异。

应用场景：在结构化数据查询、函数调用和代码检索方面的应用。

推理速度：模型尺寸更小、采用了 flash attention 2 技术。

训练过程：分四个阶段进行，包括使用英语数据预训练、添加跨语言数据、微调等。

jina reranker v2 的应用方式：

通过 reranker api：使用 jina reranker v2 最快捷的方式是通过其 api，无需部署模型，就能轻松提升搜索的相关性和 rag 的准确性。

通过 rag/llm 框架集成：jina reranker 与现有的 llm 和 rag 编排框架集成，只需使用模型名称即可快速集成。

huggingface：jina ai 开放了（在 cc-by-nc-4.0 下）对 hugging face 上的 jina-reranker-v2-base-multilingual 模型的访问，以用于研究和评估目的。

私有云部署：jina reranker v2 的预构建私有部署包即将在 aws marketplace 和 azure marketplace 上线，方便 aws 和 azure 用户部署。

jina reranker 也是收费的，不过前 100 万个 token 可以免费。10 亿个token 是 20 美元，110 亿个 token 要 200 美元。

8 月 15 日至 16 日，gotc 2024 大会将于上海张江科学会堂举行。在“硬核 ai 技术创新与实践”论坛，jina ai 高级算法工程师付杰将分享 jina ai 如何通过 reranker 优化搜索结果，主要讲解 reranker 背后的开发流程，包括在多语言、长 context 场景下模型的训练，模型数据的筛选与挖掘，模型性能的评测，以及在 rag 场景下 reranker 模型如何帮助用户提升检索生成的效果。

gotc 2024 与上海浦东软件园联合举办，并结合 “gotc（全球开源技术峰会）” 与 “gogc（全球开源极客嘉年华）”，旨在打造一场全新的开源盛会。

全球开源技术峰会（global open-source technology conference，简称 gotc）始于 2021 年，是面向全球开发者的开源技术盛会；2024 全球开源极客嘉年华（gogc 2024）由浦东软件园携手 s 创共建，与开源中国、linux 基金会等品牌联合呈现。

此次大会将集结全球范围内对开源技术充满热情的开发者、社区成员、创业者、企业领袖、媒体人，以及各开源项目应用场景的产业精英、跨界才俊与年轻力量。通过主题演讲、圆桌讨论、创新集市、人才集市、黑客松、技术展示和互动工作坊等形式，与会者将有机会交流实践经验、探索前沿技术，让我们一起激发创新活力、展示开源魅力、促进跨领域合作。

更多大会信息，访问官网查看：

参考文章：

1、提高 rag 应用准确度，时下流行的 reranker 了解一下

https://cloud.tencent.com/developer/article/2410324

2、cohere ai 推出 rerank 3：旨在优化企业搜索和 rag（检索增强生成）系统的先进模型

https://medium.com/@bitrise.co.in/cohere-ai-unveils-rerank-3-a-state-of-the-art-model-designed-to-optimize-enterprise-search-and-rag-fe32a2da5533

3、rag 再添新利器！智源开源最强检索排序模型 bge re-ranker v2.0

https://mp.weixin.qq.com/s/xnkqfcdbvjox1y06ibilyw