当前位置: 代码网 > 科技>人工智能>动态 > 芝大论文证明 GPT-4 选股准确率高达 60%,人类股票分析师要下岗?AI 大牛质疑数据污染

芝大论文证明 GPT-4 选股准确率高达 60%,人类股票分析师要下岗?AI 大牛质疑数据污染

2024年05月27日 动态 我要评论
GPT-4 在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有 AI 大牛指出研究中的 bug:之所以会这样,很可能是训练数据被污染了。

【新智元导读】gpt-4 在为人类选股时,表现竟然超越了大部分人类分析师,和针对金融训练的专业模型?在没有任何上下文的情况下,它们直接就成功分析了财务报表,这一发现让许多业内大咖震惊了。然而好景不长,有 ai 大牛指出研究中的 bug:之所以会这样,很可能是训练数据被污染了。

最近,各位业内大咖都被芝大的一篇论文震惊了。

研究者发现,由 gpt-4 帮忙选择的股票,直接击败了人类!同时也 pk 掉了许多其他针对金融训练的机器学习模型。

最让他们震惊的是,llm 可以在没有任何叙述上下文的情况下,就成功分析财务报表中的数字

论文地址:https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

具体来说,在预测收益的变化上,llm 比经验丰富的金融分析师都更出色。尤其是在选股时,人类分析师会面临一些难以应对的场景,导致预测结果存在偏见、效率低下,这时 llm 就表现出了巨大的优势。

并且,llm 做出的预测,不仅仅是回忆训练数据,比如 gpt-4 提供的有洞察力的分析,甚至能揭示一家公司未来潜在的表现。

gpt-4 的表现一骑绝尘,直接比其他模型实现了更高的夏普比率(sharpe ratio)和阿尔法(alpha)。

沃顿商学院教授 ethan mollick 盛赞:这是一篇众人翘首以盼的论文。

也有网友感慨道:以后在股市中操盘的,是人还是 ai 都不好说了……

然而,就在大家激动之时,有细心的研究人员给这项研究泼了冷水:之所以能取得这个结果,很可能是由于训练数据的污染造成的

ai 大牛田渊栋也表示,gpt-4 的优异表现,不排除是训练数据集中包括了未来的股票价格,因此 gpt-4 直接开了挂,据此对 2021 年起的股票样本进行了选择。

至于测试 gpt-4 是否开了挂,理论上并不复杂:只要获取股票的历史记录,将其重命名为某个新代码,将其输入来测试就可以了。

研究内容

怎样衡量 llm 在未来决策中的作用?在这项研究中,研究者衡量的标准,就是让 llm 进行财务报表分析(fsa)。

之所以进行 fsa,主要是为了了解公司的财务健康状况,并确定其业绩是否可持续。

fsa 并不简单,它是一个定量任务,需要大量分析趋势和比率,还涉及批判性思维、推理能力和复杂判断。通常,这个任务是由金融分析师和投资专业人士来完成的。

在研究中,研究者会将两份标准的财务报表 —— 资产负债表和损益表扔给 gpt-4 turbo,它的任务是:分析公司接下来的收益是会增长还是下降

注意,这项研究中有一个关键的设计,就是绝不向 llm 提供任何文本信息,llm 能参考的,只有纯粹的报表。

研究者预测,llm 的表现,大概率会比专业的人类分析师差。

原因在于,分析财务报表这项任务,非常复杂,涉及许多模糊性的东西,需要很大常识、直觉和人类思维的灵活性。

而且,llm 目前的推理和判断能力还很不足,并且也缺乏对于行业和宏观经济的理解。

另外,研究者还预测 llm 的表现也会弱于专用的机器学习应用,比如为收益预测的人工神经网络(ann)。

因为,ann 允许模型学习深层次的交互,这些交互中包含了重要线索,通用模型是很难获取这些线索的。除非,通用模型能基于不完整的信息,或从未见过的情景,进行直觉推理、形成假设。

实验结果却令他们大吃一惊:llm 竟然 pk 掉了许多人类分析师和专用的神经网络,表现出了更优异的成绩!

实验步骤

评测 llm 的具体表现如何,需要从以下两个步骤展开。

首先,研究人员对公司的财务报表进行匿名化和标准化处理,防止 llm 记住公司的潜在可能。

特别是,他们从资产负债表和损益表中,省去了公司的名称,并用标签(如 t 和 t-1)替换年份。

此外,研究者还按照 compustat 的平衡模型,标准化资产负债表和损益表的格式。

这种方法,可以确保财务报表的格式,在所有公司年度统计中都是相同的,因此 llm 也不知道其分析对应的是哪家公司或哪个时间段。

在第二阶段中,研究人员设计了一个指令,指导 llm 进行财务报表分析,并确定未来收益方向。

除了简单的指令外,他们还开发了一个 cot 指令,实际上是「教」llm 以人类金融分析师的思维过程进行分析。

具体来说,金融分析师在分析中会识别财务报表中显著的趋势,计算关键财务比率(如经营效率、流动性和杠杆比率),综合这些信息,并形成对未来收益的预期。

研究人员创建的 cot 指令,便是通过一系列步骤,来实现这个思维过程。

在数据集选用上,研究人员使用 compustat 数据库来测试模型的表现,并在必要时与 ibes 数据库交叉使用。

样本涵盖了从 1968-2021 年之间,15401 家公司的 150678 个公司的年度数据。

分析师的样本涵盖了 1983-2021 年期间,包含 3152 家公司的 39533 个观察数据。

llm 为何如此成功

对于这个结果,研究者提出了两种假设。

第一种假设是,gpt 的表现完全是由近乎完美的记忆驱动的。

gpt 很可能是从数据中推断出了公司的身份和年份,然后将这些信息与新闻中学到的关于该公司的情感相匹配。

为此,研究者试图排除这种可能。并且,也使用了 gpt-4 训练期以外的全新数据,复制了结果。

第二种假设是,gpt 之所以能推断出未来收益的方向,是因为生成了有用的见解模型。

比如,模型经常会计算金融分析师计算的标注比率,然后根据 cot 提示生成分析这些比率的叙述。

为此,研究者将模型为给定公司年度生成的所有叙述汇总,并使用 bert 将它们编码成 768 维向量(嵌入),然后将这些向量输入到 ann 中,并训练它预测未来收益的方向。

结果,基于 gpt 叙述见解训练的 ann 达到了 59% 的准确率,这几乎与 gpt 的预测准确率(60%)一样高

这一结果直接证明,模型生成的叙述见解对未来表现具有信息性。

另外可以观察到,gpt 的预测与基于 gpt 叙述的 ann 预测之间,有 94% 的相关性,这就表明,这些叙述编码的信息是 gpt 预测的基础。而在解释未来收益方向上,与比率分析相关的叙述最为重要。

总之,模型之所以表现优越,原因就是基于 cot 推理生成的叙述。

实验结果

最新研究中的实验评估结果,可以总结为以下三大亮点。

gpt 胜过人类金融分析师

为了评估分析师的预测准确性,研究者计算了「共识预测」(即财务报表发布后一个月内各个分析师预测的中位数),并将其作为下一年收益的预期。

这确保了分析师预测和模型预测结果的可比性。

此外,作者还使用了使用未来三个月和六个月的「共识预测」作为可替代的预期基准。

这些基准对 llm 不利,因为它们整合了一年中所获得的信息。不过,考虑到分析师可能在将新信息纳入预测时较为迟缓,研究者选择报告这些基准以供比较。

研究人员首先对 gpt 在预测未来「收益方向」方面的表现进行了分析,并将其与证券分析师的表现进行了比较。

他们注意到预测每股收益(eps)变化是一项高度复杂的任务,因为 eps 时间序列近似于「random walk」(随机游走)并且包含大量不可预测的成分。

随机游走反映了,仅根据当前收益与之前收益相比的变化的预测。

下图展示的是 gpt 和人类金融分析师的预测性能对比结果。

结果显示,第一个月分析师的预测,在预测未来收益方向方面的准确率为 53%,这超过了简单模型(将前一年的变化外推)的 49% 准确率。

而分析师三个月和六个月后的预测准确率,分别为 56% 和 57%,这是合理的,因其包含了更及时的信息。

基于「简单」非 cot 提示的 gpt 预测表现为 52%,低于人类分析师基准,这与研究者预期一致。

然而,当使用 cot 模拟人类推理时,他们发现 gpt 的准确率达到了 60%,显著高于分析师的表现。

如果再去核查 f1-score(f1 评分),这是一种评估模型预测能力的替代指标(基于其精确度和召回率的组合),也会得出类似的结论。

这表明,在分析财务报表以确定公司发展 方向方面,gpt 明显击败了中位数金融分析师的表现。

坦白讲,人类分析师可能依赖于模型无法获得的软信息或更广泛的背景,从而增加了价值。

确实,研究人员还发现分析师的预测包含了 gpt 未捕捉到的,关于未来表现的有用见解。

此外,研究显示,当人类难以做出未来预测时,gpt 的见解更有价值。

同样,在人类预测容易出现偏见或效率低(即未合理纳入信息)的情况下,gpt 的预测在预测未来收益方向方面更有用。

gpt 与专用神经网络不相上下

研究人员还比较了 gpt 和各种 ml 模型的预测精度。

他们选用了三种预测模型。

  • 第一个模型「stepwise logistic」(逐步回归),遵循 ou and penman 框架,使用了 59 个财务指标预测变量。

  • 第二个模型是,使用相同 59 个预测变量的 ann 但也利用了它们之间的非线性和交互。

  • 第三,为了确保 gpt 和 ann 之间的一致性,研究人员还使用了,基于提供给 gpt 的相同信息集(损益表和资产负债表)训练的 ann 模型。

重要的是,研究者基于每五年的历史数据使用 compustat 的观察数据来训练这些模型。所有预测都是样本外的(out of sample)。

使用整个 compustat 样本,研究发现「逐步回归」的准确率(f1 评分)为 52.94%(57.23%),这与人类分析师的表现相当,并且与之前的研究一致。

相比之下,使用相同数据训练的 ann 达到了更高的准确率 60.45%(f1 评分 61.62%),这处于最先进的收益预测模型的范围。

当使用 gpt(with cot)预测时,发现模型在整个样本上的准确率为 60.31%,这与 ann 的准确率非常接近。

事实上,gpt 的 f1 评分显著高于 ann(63.45% vs. 61.6%)。

此外,当研究人员仅使用两份财务报表的数据(输入到 gpt 中)训练 ann 时,发现 ann 的预测能力略低,准确率(f1 评分)为 59.02%(60.66%)。

总体而言,这些结果表明 gpt 的准确率与最先进的专用机器学习模型的准确率相当(甚至略高)。

ann 和 gpt 预测互补

研究人员进一步观察到,ann 和 gpt 的预测具有互补性,因为它们都包含有用的增量信息。

并且有迹象表明,当 ann 表现不佳时,gpt 往往表现良好。

特别是,ann 基于其在过去数据中看到的训练示例来预测收益。并且,鉴于许多示例非常复杂且高度多维,其学习能力可能受到限制。

相比之下,gpt 在预测小型或亏损公司的盈利时,犯的错误相对较少,可能得益于其类似人类的推理和广泛的知识。

除此以外,研究者还进行了几项额外的实验,基于 gpt 对其答案的置信度对样本进行分区,并使用了不同的 llm 家族。

当 gpt 以更高的置信度回答时,预测往往比置信度较低的预测更准确。

与此同时,研究证明了这一结果可以推广到其他大模型上。特别是,谷歌最近发布的 gemini pro,其准确率与 gpt-4 不相上下。

预测来源:增长和营业利润率

下图显示了,gpt 响应中,双词(bigram)和单词(monogram)的频率统计。

这里,双词指的是由两个连续的单词组成,在文本中一起使用;单词指的是一个单词。

图左展现的是「双词」的结果,gpt 关于财务比率分析的答案中发现的十个最常见的「双词」。

图右列出的是,gpt 对二元盈利预测(binary earnings predictions)中,出现频率最高的十个单词。

之所以做这项分析,是为了确定 gpt 在不同财务分析环境中,使用最常见的术语和短语。

有趣的是,「营业利润率」(operating margin)和「增长」(growth)这两个词的预测力最高。

看来,gpt 似乎已经内化了「40 法则」。

总之,所有结果表明,ai 加速发展,金融分析师的角色将会改变。

不可否认,人类专业知识和判断力不太可能在短期内被完全取代。

但像 gpt-4 这样强大的 ai 工具可能会极大地增强和简化分析师的工作,甚至可能在未来几年里,重塑财务报表分析这一领域。

参考资料:

  • https://www.newsletter.datadrivenvc.io/p/financial-statement-analysis-with

  • https://x.com/tydsh/status/1794137012532081112

  • https://x.com/emollick/status/1794056462349861273

  • https://papers.ssrn.com/sol3/papers.cfm?abstract_id=4835311

(0)

相关文章:

版权声明:本文内容由互联网用户贡献,该文观点仅代表作者本人。本站仅提供信息存储服务,不拥有所有权,不承担相关法律责任。 如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 2386932994@qq.com 举报,一经查实将立刻删除。

发表评论

验证码:
Copyright © 2017-2025  代码网 保留所有权利. 粤ICP备2024248653号
站长QQ:2386932994 | 联系邮箱:2386932994@qq.com