FinLongEval 由北邮金融大数据安全实验室和熵简科技 AI Lab 共同发起,旨在构建专门面向金融场景的长文档开放评测集,从项目筹备、评测集构建、工具评测到评测报告撰写共历时近5个月时间。此次工作为阶段性成果输出,也欢迎其他有兴趣参与本项目的个人或组织加入,为 FinLongEval 的持续完善贡献力量,我们将在文末持续更新主要贡献者和贡献单位。
Github 地址:
https://github.com/valuesimplex/FinLongEval
为什么需要金融长文档评测集
自 ChatGPT 发布以来的这一年,大语言模型正以极快的发展速度一路狂飙演进,据不完全统计,中国企业发布的大模型数量已经过百。但是,大模型本身并不直接产生价值,需要与各个行业的业务场景深度结合才能真正发挥作用。如此,大模型的"机器智能"才能真正带来生产力升级。
在金融场景中,大模型对于金融长文档的理解和推理能力是一项常见又需求广泛的基础能力,包括如智能投研、量化投资、合规审计、财富管理等等。在目前开源的金融评测集中,文本长度一般都小于 1000字,无法满足对于金融长文档的评测的需求。而在长文档评测集中,目前仅有 L-eval 评测集包含少量金融长文档评测题(仅包含8篇英文文档,且只覆盖业绩会这一个场景)。
为了填补这一空白,我们构建了面向金融长文档推理的开放评测集 FinLongEval,以推动大模型在金融场景下的落地。
哪些组织可能需要用到这个评测集
FinLongEval 评测集对于以下三类群体或组织有一定帮助:
• 大模型研发厂商:帮助大模型厂商更准确理解金融场景下真实业务需求,帮助了解所研发的大模型在金融长文档场景下的能力范围及优化方向;
• 学术组织:帮助学术机构更准确了解大模型在金融场景落地上的关键需求和主要挑战,以加快技术研究和创新;
• 金融机构:百模大战之下,作为最终用户的金融机构,在选择大模型产品时已然 “乱花渐欲迷人眼”,本次的评测集可以帮助金融用户全面、准确地筛选出符合真实场景需求的金融大模型和产品。
主流长文档工具的评测
在 FinLongEval 评测集的基础上,本次我们也挑选了市面上几款具有代表性的用于长文档辅助阅读的产品,进行详细评估和分析。
不同于其他评测报告中直接以大模型作为评测对象,本次我们将长文档阅读和推理的产品作为评估对象,因此整个评估结果既包含了大模型本身的长文档推理和理解能力,也同时包含了处理链上的其他环节的性能,如检索准确度、文档解析和分割效果等(若产品采用 RAG 的路线)。
采用这一方案的原因在于,我们希望站在金融从业者(最终用户)的角度,全面评估当前大模型商业产品对于金融长文档处理能力的边界和不足,以及距离业务成熟可用的距离。
工作计划
FinLongEval 评测集的整体工作计划如下:
• 2023-12:发布 FinLongEval 1.0 版,包含中文场景下的金融长文档评测集;
• 2024-02:发布 FinLongEval 1.1 版,增加英文场景下的金融长文档评测集;
• 2024-04:根据社区反馈,在评测集规模、问题类型覆盖度、问题难度、文件类型覆盖上进行一次较大升级 。
评测集详情介绍
01 构建原则
在 FinLongEval 构建过程中,我们希望评测集能够从一线金融业务场景来,再服务到各个业务场景中去,能够真正代表金融场景下的各类典型问题和典型需求。为此,我们和多家一线证券公司的业务部门和IT部门进行深入沟通,最终整理和搜集了最具代表性的8大类金融长文档和12大类问题,共计43篇金融长文档和347道问题(FinLongEval 1.0版)。
02 文档类型
• 券商研究报告:涵盖个股研报、行业研报、宏观研报、金工研报这四类常见券商研报,文本长度在1万字至3万字之间;
• 上市公司公告/募集书:涵盖拟上市公司招股书、债券募集书、基金募集说明书、上市公司年报、业绩预告&快报、股权激励公告等,文本长度大部分在10万字至30万字之间;
• 财经资讯:涵盖财经评论、主流财经媒体的财经早报等,文本长度在3千字至1万字之间;
• 会议路演:涵盖业绩交流会、策略会等会议文字,文本长度在1万字至5万字之间;
• 政策文件:涵盖国务院政策文件、政府工作报告、人民银行的货币政策报告等文件,文本长度在1万字至5万字之间;
• 学术论文:涵盖货币政策、外汇储备、疫情研究等金融学术类文章,文本长度在1万字至3万字之间;
下图所示为本评测集的文件类型分布比例图,券商研究研报、上市公司公告/募集书(定期报告、公司发行、公司重大事项)、财经资讯、会议路演文件,占比分别为 25.4%、19.3%、17.9%、15.6%。在文件类型覆盖度和覆盖比例上面我们尽量做到与实际业务场景的需要处理文件类型分布比例保持一致。
03 问题类型
为了充分考察大模型在金融长文档上面的能力表现,同时充分考虑在实际业务的各类场景,如投研分析、文档合规审查、投教服务等场景,我们设计了12类不同类型的问题,以期望从不同维度、不同场景下对于大模型进行充分的评估和测试。具体的问题类型、相应的考察目标和业务场景如下表所示:
下图所示为本评测集的问题类型分布图。其中,阅读理解、信息提取、逻辑推理的数量最多,占比分别是 26%、25%、13%,表格提取、事件分析、文本摘要、陷阱问题等的比例相当,均在 7% 左右。这一分布比例也较为符合我们在前期做机构调研时的抽样结果。
04 文件的长度分布
上图所示为本次评测集中各个文件字数分布比例,可以看出,超过80%以上的文件字数超过了1万字,这一长度远远大于现有金融评测集的平均文本长度。超过 40% 以上的文件字数超过了2.5万字,这一长度超过了当下典型商用大模型的上下文窗口长度。此外,本评测集还包含了最长字数超过 50万字(约500页)的超长金融文档。
由此也可以看出,在实际各类金融业务场景中,典型的金融文件都在数万字,某些场景下几十万字也是常态,因此长文档处理能力是大模型在金融场景落地的必备基础能力。
05 参考答案的编写
在编写本次评测集的参考答案过程中,我们采用了 “2+1+1” 的工作流程。首先,我们采用了2个当下最先进的大模型 GPT4 和 Claude2 根据问题和金融文档的原始内容,分别编写两个答案。接下来,会有一名人类专家根据原始文档对于两个答案进行逐一检查确认,并融合成一个完整、连贯的答案。最终,另有一名人类专家根据金融文档的原始内容对于这一答案进行复核和优化,并以此作为最终的参考答案。
采用这一流程的原因在于,本次评测集的问题 80% 为主观类问题且文本长度在几万字量级,如果直接由人工编写非常耗费时间,同时我们也发现当下最先进的AI系统通过适当人力协助,已经能够编写接近人类水平的答案,因此我们最终决定采用这种人机结合的方式。
金融长文档处理能力的评估办法
01 评估维度
为了对于大模型生成的答案进行细颗粒度的评价,参考通行的方案,我们选择了 6 个评估维度来对各个大模型所生成的答案进行评估,分别是相关性、有用性、流畅性、连贯性、一致性和忠实度,各维度的详细介绍如下:
02 评估流程
在本评测集中,除了少量的关键词、陷阱问题类任务,大部分问题是开放式问题,因此整体评分采用人机配合,并由人类专家完成最终打分。
对于封闭式问题,可以使用诸如 ROUGE(Recall-Oriented Understudy for Gisting Evaluation)之类的自动评估方法,因为这些问题通常具有明确且确定的答案。ROUGE 是一种基于 n-gram 重叠的评估方法,通过计算生成的回答与参考答案之间的共享词汇和短语来评估回答的质量。这种方法在封闭式问题上表现良好,因为它可以直接比较生成的回答与正确答案之间的相似度。
然而,对于开放式问题,答案可能具有多样性、主观性以及高层次的语义性,这使得自动评估方法(如 ROUGE)难以准确评估生成回答的质量。在这种情况下,人类评估是更可靠的方法,因为人类专家可以自己的专业背景,根据问题的背景和上下文,以及答案的相关性、准确性和充分性来对生成的回答进行综合评价。同时,人类评估能够捕捉到自动评估方法可能忽略的细节和细微差别,从而更好地反映回答的质量。
结合本评测集的实际情况,我们先用 GPT-4 结合参考答案,从6个维度对于大模型生成的回答进行分别打分,然后每一个答案由多名人类专家参考机器打分独立进行独立打分,最终再汇总得到最终分数。
评测结果
01 评估对象
本次的评测选择了8款基于大模型的长文档辅助阅读的产品,涵盖海外头部工具 Claude2、ChatGPT4、ChatPDF、以及国内五款工具,包括两家金融行业内产品和三家通用领域产品,此8款产品是我们调研下来金融行业内使用较为广泛的产品。为避免潜在的商业纠纷,国内五款产品在下面的评估结果中分别代称为 Tool_A,Tool_B,Tool_C,Tool_D,Tool_E。如果有进一步学术研究需求,可联系项目组获取完整的评测报告。
02 整体评估分析
从以上结果中,可以得出以下结论:
• 即使在金融场景下,面向长文档处理问题,Claude2 和 ChatGPT4 依然是综合表现最好的两款工具,属于第一梯队,而国内的几款工具表现波动较大,部分工具表现已经接近第一梯队。令人意外的是,采用 GPT-3.5 的 ChatPDF 在本次评测中得分最低,这也充分说明了在长文档场景中,大模型的本身能力只是一部分,文档切割、文本召回等同样是很重要的模块;
• 在细项维度上,除个别工具外,几乎所有工具在相关性和流畅性上面均表现很好,这说明基于大模型的系统能够较为准确地理解金融场景下的问题,并生成流畅的回答,这两点在大模型时代基本已经不再是问题;
• 连贯性和有用性这两点是区别工具在金融长文档场景上的主要差异点,前者反映了生成回答内在逻辑一致性,后者反应了回答的信息量,一般连贯性在 1.7 以上,有用性在 3.6 以上是业务部分可用的分数,可以看出部分国产工具已经达到这个标准;
• 一致性和忠实度综合反映了工具在回答问题时的提取关键信息的准确性以及幻觉程度,可以看到即使是 Claude2 在一致性上距离满分4仍然有一定距离,因此对于数据精确极高的场景目前的工具可能都无法完全满足。
03 分文档类型评测
从以上的结果中,可以得出以下结论:
• 在公司重大事项、政策文件两类材料上,几款工具整体表现较为均衡,均能达到业务可用的要求,这主要是因为这两类材料中的评测问题集中在信息提取和阅读理解这两类问题上,对于工具能力要求相对适中;
• 在财经资讯、会议路演这两类材料上,几款工具表现差异较大,Claude2、ChatGPT4 及部分国产工具能够有效处理相关问题,但包括 ChatPDF 在内的其他一部分工具则基本无法处理相关问题。仔细分析会发现,这主要是因为这两类材料包含的主要问题为事件分析、逻辑推理、长上下文下的说话人关系判断,这都需要大模型具备较强的推理能力,以及较长的长文本处理能力。
04 分问题类型评测
从以上的结果中,可以得出以下结论:
• 在逻辑推理、事件分析上各工具差距明显,这类问题对于大模型的复杂推理和长文档推理能力要求较高,这主要由各工具所采用的底层模型能力决定;
• 各个工具在长文档信息处理上的差距同样明显,这类问题包括对话人分辨、文本摘要等。两个头部工具以及部分国内工具均能达到业务可用,但是也存在一部分工具得分很低的情况。这主要由大模型本身能够理解和处理的上下文窗口长度,以及在检索后给到大模型参考的相关文本片段数量这两个因素共同决定;
• 在信息提取、关键数据提取这两类任务上各工具表现差异较小,这一类任务一般只需要找准特定的文本片段,再结合大模型的短文本理解能力即可较好完成,这说明当前大模型已经能够较好地处理这类问题。
从以上结果可以看出,除了 ChatGPT4 外,其他工具在数据计算类任务上表现都较差。我们仔细分析会发现,Claude2 以及部分国内工具的计算过程是正确的,但是最终的答案部分计算错了。因此,从这一评测来看,对于需要数据计算的金融场景中,建议采用外部工具来处理,如 Code Interpreter,大模型在这类问题中主要担任规划、调用和整合工具输出的作用。
从以上结果可以看出,即使是综合表现最好的工具 Claude2、ChatGPT4 等,在陷阱问题上至少有 40% 情况下无法通过,大部分国内工具有超过 60% 的问题都无法通过。因此,针对金融这类对于真实性和可溯源性要求严格的场景,当前的大模型工具在抑制幻觉问题上仍然任重而道远。
07 文件应答评测
从以上结果可以看出,从工具可用性这个角度出发,国内大部分工具对于金融文档的兼容性都处理较好,但是在实际中我们发现 Claude2 有 40% 的文件无法解析或进行应答。
08 总结
整体而言,从以上的评测结果中,我们可以初步总结如下:
• 在金融场景下的泛文档和泛任务处理上,通用大模型的基础能力仍然是最重要的,这个基础上,通过工具结合、金融场景的强化训练等,部分国产工具在金融长文档上面的理解和推理能力已经接近 ChatGPT4 和 Claude2 ,部分问题类型上能够超过;
• 在金融场景下,理解用户问题、生成流畅的文本在大模型时代是一件相对容易实现的工作;
• 大模型的幻觉短期内无法根本解决,对于真实性和可溯源性要求严格的场景,建议采用产品功能和技术攻坚结合的方式;
• 金融场景下的数值计算的问题不应该寄希望于模型本身来解决,而是采用类似 Code Interpreter 的方式来解决。
更多信息请前往以下地址获取:
https://github.com/valuesimplex/FinLongEval
参考工作:
[1] Fin-Eva 金融领域中文语言专业数据评测集:
https://github.com/alipay/financial_evaluation_dataset
[2] L-Eval: Instituting Standardized Evaluation for Long Context Language Models
[3] FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models