type
status
date
slug
summary
tags
category
icon
password
这里写文章的前言:
2024计算机专业导论期末作业
自然语言处理在金融领域的应用分析
朱思思
(计算机科学与技术学院 技科2405班 24281153)
摘要:本文简单介绍了自然语言处理技术的发展阶段,从金融领域的应用分析入手,介绍了自然语言处理相关技术在金融领域的应用场景,分为金融舆情分析、金融文本分析和金融命名实体关系分析三个场景,并在每个场景中每个场景中结合相关文献介绍现阶段的研究现状。接下来,本文对金融中常用的自然语言处理技术做了系统性的概述,特别介绍了金融领域的BERT模型FinBERT模型。最后,本文结合最近十分火热的ChatGPT,探讨了金融领域自然语言处理技术发展的前景。
关键词:自然语言处理;金融;深度学习;机器学习
一、引言
自然语言处理(Natural Language Processing,NLP)是人工智能和计算机科学领域中的一个分支,它研究如何让计算机能够理解、处理和生成人类语言。文献[1]指出,近代的自然语言处理技术的发展可以总结为四种范式,分别为:非神经网络时代的完全监督学习(Fully Supervised Learning, Non-Neural Network)、基于神经网络的完全监督学习(Fully Supervised Learning, Neural Network)、预训练+精调范式(Pre-train, Fine-tune)、预训练+提示+预测范式(Pre-train, Prompt, Predict)。
图1 NLP的发展
非神经网络时代的全监督学习,即仅在目标任务的输入输出样本数据集上训练特定任务模型,如传统的支持向量机等方法。基于神经网络的完全监督学习即通过设计一个网络架构能够学习数据特征,还是属于监督学习的范畴。从 2017-2019 年开始,NLP 模型发生了翻天覆地的变化,这种全监督范式发挥的作用越来越小。具体而言,研究重点开始转向预训练+微调范式。在这一范式下,一个具有固定架构的模型通过预训练作为语言模型(LM),用来预测观测到的文本数据的概率。之后,通过引入额外的参数,并使用特定任务的目标函数对模型进行微调,将预训练 LM 适应于不同的下游任务。BERT模型就属于这种范畴。预训练+提示+预测范式相比于之前的“预训练+精调”,更多的会使得各种下游任务“迁就”预训练语言模型,而后者则是典型的模型“迁就”任务。这种方法的优点是给定一组合适的 prompt,以完全无监督的方式训练的单个 LM 就能够用于解决大量任务。最近十分流行的ChatGPT就属于这种范式。
本文将注重于自然语言处理技术在金融领域的应用,结合相关文献,探讨自然语言处理在金融领域的应用场景、金融中常用的自然语言处理技术与金融领域自然语言处理技术的发展前景。
二、自然语言处理在金融领域的应用场景
本节将总结分析自然语言处理相关技术在金融领域的主要应用场景,分为金融舆情分析、金融文本分析和金融命名实体关系分析场景。我将在每个场景中结合相关文献介绍现阶段的研究现状。
2.1 金融舆情分析
随着各种新媒体形式的出现,舆论信息传播的范围和速度日益增大,对经济运营和企业经营的影响也日益受到关注。而由于金融业的特点是基于预期和信用,因此更容易受到舆情的影响。金融舆情分析属于金融文本分析的范畴,其价值在于帮助监管、决策和投研等方面。
金融舆情分析的一般形式是在情绪标注的基础上,如对某股票财经文本进行情绪极性标注,即“积极”、“消极”和“中性”,分别代表金融文本中隐含的对该股票的看涨、看跌和看涨的态度,然后再采用各种算法进行拟合,以达到预测市场的目的。文献[2]基于使用谷歌开发的著名的预训练模型BERT构建了一个基于文本的情感指数,数据爬取于香港市场上交易活跃的三只股票的相关微博的帖子。作者证明了BERT在金融情感分析中的应用对比起过去的深度学习算法有明显的提升并研究了金融情绪指数对于股票回报的可预测性。文献[3]爬取了金融研究评论、百度指数和wind交易数据等,通过将建立的基于投资者情绪交易策略与买入并持有一年策略、传统技术指标策略进行对比后发现,基于投资者情绪的交易策略最终获得了29.84%的收益,明显高于买入并持有策略的11.35%和双均线策略的17.01%。文献[4]则针对证券市场,以网络上关于上市公司的原始新闻资讯作为样本,以真实的股价涨跌情况作为标签,搭建基于深度学习模型BERT的金融情感预测系统(BERT-FS),经过训练和评估之后,判断股票涨跌的AUC值最高可达79.48%。文献[5]则引入注意力机制,提出了一种基于注意力机制和深度学习的金融文本情感分类模型,该模型在由新闻标题、公告标题组成的数据集上具有很强的拟合能力。
上述文献是以情绪作为标签,以真实市场股票涨跌情况作为预测对象,并都取得了比传统方法更好的结果,说明金融舆情分析可以帮助投资者判断真实市场的变化方向。目前金融舆情分析的研究现状主要侧重情感分析,包括基于aspect的情感分析 (ABSA)、多语种情感分析、多模态情感分析与实时情感分析等,细粒度情感分析则是金融领域研究者的一个研究重点。
2.2金融文本分析
金融文本分析是指对金融领域的文本数据进行分析的过程。这种分析可以帮助金融机构和其他相关组织更好地理解金融市场的动态,并做出更明智的决策。除了2.1节描述的金融舆情分析以外,金融文本分析还可以用来分析公司的财务报告和新闻稿,以便更好地了解公司的财务状况和前景。另外,金融文本分析也可以用来分析金融政策文件,以便更好地了解监管机构的规定和指导方针,并帮助金融机构遵守法规。
方法上而言,传统的金融新闻文本分类方法需要大量的已知类别文本来训练分类器,然而标注金融新闻文本标签不仅需要专业的金融背景知识,而且耗时耗力。文献[6]提出了一个基于半监督学习的金融文本分类算法,该算法采用有监督学习和无监督学习的一致性训练方式,以更好地利用未知类别的文本数据;针对金融领域文本引入无监督数据增强方法,即对特定任务使用特定目标的数据增强方法,以产生更有效的数据。该文献的实验结果表明,这种分类方法相比主流文本分类算法在有效性上有明显提升而在机器阅读理解领域,文献[7]认为,如何通过机器学习的方法使得机器能够智能的阅读理解金融文本从而为投资者提供便利是一个重要的研究方向。针对该研究方向,该文献摒弃了RNN、CNN等传统网络结构,采用可并行化的注意力机制,提出了基于LDA和BERT的金融文本机器阅读理解模型,为金融领域多文档长文本的机器阅读理解任务提供了新思路。文献[8]则系统性地研究了金融文本数据标注的方法,金融文本分类的新模型以及设计了面向长文本的自动摘要模型,设计并实现了金融文本分析系统。
在实际应用中,文献[9]基于1995-2021年间质押相关政策文本进行文本分析,得出股权质押相关政策经历了探索、鼓励、促进和规范的发展历程的结论。文献[10]则通过对上市公司历史报告文本进行学习挖掘,建立以文本挖掘为辅助作用的LSTM股票预测模型,实现股票分析预测系统。
2.3.金融命名实体关系分析
金融命名实体关系分析是指对文本中提到的金融相关的命名实体(如公司名称、金融产品名称、金融机构名称等)之间的关系进行分析的过程。命名实体关系分析通常建立在命名实体识别的基础之上。命名实体识别是指对文本中提到的金融相关的命名实体进行识别和标记的过程。而知识图谱则是一种用来表示金融领域的知识的数据结构,通常使用图的形式来表示金融领域中的实体以及实体之间的关系。在金融领域,金融命名实体关系分析可以用来帮助金融机构和其他相关组织更好地理解文本中提到的金融相关信息的关系。
文献[11]总结了金融领域中文命名实体识别研究进展,并指出在金融领域中文命名实体识别技术的应用主要在金融事件抽取、金融知识图谱与金融文本分类三个方向。文献[12]则针对产业上下游关系,使用自然语言处理技术对公告中可能表达产业上下游关系的语句进行初筛,然后结合词嵌入和长短期记忆网络模型(LSTM)对句子进行分类,对于含有上下游关系的正例句子再使用模板识别等方法进行关系文本提取。文献[13]则从产业链应用角度出发,对产业链知识图谱的构建方法进行研究。首先提出了产业链知识图谱的构建流程和本体库,再基于领域语言模型,实现知识分类、抽取、融合等金融领域文本处理方法,对海量的领域文本进行知识抽取和融合,最终成功构建产业链知识图谱。此外,文献[14]对知识图谱进行了更广泛的综述分析,揭示了其在多个领域中的应用和技术挑战。知识图谱作为一种能够组织和表示复杂知识的数据结构,近年在人工智能和大数据领域得到了广泛关注。知识图谱在金融领域的应用,不仅能有效增强金融命名实体关系分析的深度和准确性,还可以拓展其在其他任务中的应用潜力,如金融推荐系统、风险控制等。文献[14]指出,知识图谱的构建过程涉及多项核心技术,例如知识嵌入、知识获取、图谱补全、知识融合和知识推理。以金融命名实体关系分析为例,知识获取技术可帮助从金融文档中自动提取相关信息,而知识推理技术则可以进一步挖掘金融实体之间的潜在联系和隐含信息。这些技术不仅为金融领域的文本分析提供了丰富的工具,还使得知识图谱在复杂数据分析和信息管理中表现出色,为金融机构带来了新的发展机会和应用场景。
三、金融中常用的自然语言处理技术
金融领域的自然语言处理技术目前仍处于探索阶段,金融本身是一个专业性很高的领域,很多词汇在金融语境下会产生特殊含义,所有的子问题都会有一个独特的理解方式,而且金融领域衡量处理结果的方式也与其他领域不同。随着深度学习的发展,算法的不断进步,NLP将向着深度学习的方向继续发展,随着数据集越来越丰富,针对复杂语义上的关系抽取将会更准确、针对情感识别也将逐渐进步。本节将简单总结一下在金融领域常用的自然语言处理技术。
自然语言处理技术有词法分析、语法分析、语义分析和语用分析四个范畴。中文分词、词性标注与命名实体识别属于词法分析的范畴;句法结构分析、依存关系分析与文档结构分析属于语法分析的范畴;情感分析、文本分类/聚类、主题抽取等技术属于语义分析的范畴;机器翻译、文本生成等技术则属于语用分析的范畴。金融行业的自然语言处理问题主要集中于实体抽取及情感分析,并以这二者为基础向其他业务扩散。其中实体抽取方面主要涉及事件抽取的应用,知识图谱、图谱对应的报告语料在这之中尤为重要,但是相关数据较难获取。情感分析主要关注股民及公司年报的情感分析,其中涉及词向量编码及隐语识别等问题,少数会进行偏计量的因果分析。
在金融领域的中文自然语言处理工程应用中,首先要进行语料清洗、分词、词性标注、去停用词等预处理工作。接下来,需要考虑如何使用词袋或词向量等方式将处理过的语料表示成计算机能够处理的类型。接着,需要选择表达能力较强的文本特征,但这会导致部分语义信息的丢失。常用的特征选择方法有DF、 MI、 IG、 CHI、WLLR和WFO等。最后,根据应用需求,可以使用传统的机器学习模型(如KNN、SVM、NB、GBDT、K-means)或深度学习模型(如CNN、RNN、Transformer、FastText)进行训练。
特别地,针对模型训练部分,我以BERT为例,简单介绍一下金融领域的BERT模型FinBERT。BERT(Bidirectional Encoder Representations from Transformers)是一种自然语言处理模型,它使用了双向的 Transformer 来预测下一个词的概率分布,并且可以在多种自然语言任务中取得出色的结果。BERT 的输入是一个包含句子的序列,并将这个序列进行编码,以便于计算出下一个词的概率分布。与其他自然语言处理模型不同的是,BERT 在训练过程中使用了双向的 Transformer 来编码序列。这意味着它能够同时利用序列中前面和后面的信息来进行预测,从而可以更好地捕捉到句子的上下文信息。BERT 可以用于多种自然语言处理任务,包括文本分类、句子相似度计算、词语标注和问答等。它已经成为了自然语言处理界的一个重要基准,并在许多任务中取得了最先进的结果。FinBERT[15]是一种用于金融领域的自然语言处理模型。它是基于著名的BERT模型构建的,并经过针对金融文本的特定训练。FinBERT能够解决许多自然语言处理任务,包括文本分类,情感分析和命名实体识别。它在处理金融文本方面表现出色,因为它能够理解金融术语和概念,并能够捕捉金融文本中的上下文关系。FinBERT在许多金融领域的应用中都表现出色,如金融新闻分析,股票市场预测和金融报告摘要生成。它的优势在于,它能够在处理金融文本时保留上下文信息,并且能够捕捉金融文本中的细微差别。
四、金融领域自然语言处理技术发展的前景
截至2024年,OpenAI的ChatGPT技术在自然语言处理领域(NLP)持续取得突破性进展。自2022年12月1日OpenAI推出ChatGPT以来,用户数量迅速增长,短短一周便突破100万。这一技术基于GPT 3.5,并结合了“基于人类反馈的强化学习”(RLHF, Reinforcement Learning from Human Feedback)进行持续微调,使得模型能够更好地理解和执行多种用户指令。自此,OpenAI已推出更先进的GPT-4,GPT-4 Turbo和 o1-preview,进一步提高了理解精度和内容生成质量。
随着ChatGPT及其更新版本在自然语言生成和理解方面的表现提升,人工智能自动生成内容(AIGC)在全球范围内受到高度关注,并促使人们更加关注自然语言处理技术在金融智能问答和交互领域的应用。ChatGPT在金融智能问答方面的应用愈加成熟,显著提高了智能客服的响应速度和用户满意度。具体应用包括短文本相似度计算、意图分类、问题聚类、上下文对话管理、多轮对话等。然而,金融智能问答在深层次问题理解、意图识别、知识库构建与推理生成方面仍有改进空间,尤其是在金融知识更新和复杂问题回答准确性方面。
除了智能问答,NLP技术在证券投资、大数据风控、投研等金融领域中的应用也日益广泛。例如,在证券投资中,自然语言处理技术通过分析市场情绪和事件因素,为量化投资提供更多维度的因子支持。在大数据风控方面,NLP支持用户画像和企业画像的构建,辅助风险控制的细化管理。此外,在投研领域,自然语言处理技术应用于资讯分类、新闻摘要、资讯情感分析等场景,为投研人员提供高效的信息支持。近年来,知识图谱与自然语言处理的结合也在企业链、产业链分析中取得成效,帮助传导事件和情感信息,为量化投资和风险管理提供新的数据支持。
展望未来,随着更强大的自然语言模型的推出和不断优化,NLP技术将在问答系统、文本生成和多语言支持等方面继续赋能金融行业。更深度的技术结合将进一步提升金融行业的信息处理水平和决策效率,为金融科技的发展注入新的活力。
参考文献:
[1] Liu, P., Yuan, W., Fu, J., Jiang, Z., Hayashi, H., & Neubig, G. (2021). Pre-train, prompt, and predict: A systematic survey of prompting methods in natural language processing.
[2] Hiew, J. Z. G., Huang, X., Mou, H., Li, D., Wu, Q., & Xu, Y. (2019). BERT-based financial sentiment index and LSTM-based stock return predictability.
[3] 王子敏,周杰,梁佳雯 & 何加豪.(2020).基于NLP和深度森林的金融舆情抓取与分析. 电子商务(08),53-54.
[4] 于赐龙,史振宇,谢允昊 & 黄军宏.(2021).基于自然语言处理的舆情分析和股价涨跌预测系统. 系统工程(05),114-123.
[5] 陈天翔.(2020).基于注意力机制的金融文本情感分析研究. 信息技术与信息化(01),175-177.
[6] 张晓龙,支龙,高剑,苗仲辰,林越峰,项雅丽 & 熊贇.(2022).一种半监督学习的金融新闻文本分类算法. 大数据(02),134-144.
[7] 陈薇羽.(2021).基于LDA和BERT的金融文本阅读理解.
[8] 张勇.(2021).面向金融的文本分析及摘要生成技术研究与实现.
[9] 靳晓东,闵俊棚 & 剧锦文.(2022).中国股权质押政策演进——基于政策文本分析. 社会科学家(07),79-88.
[10] 彭玉红.(2020).基于公司报告文本挖掘的股价辅助预测系统设计与实现
[11] 徐秋荣,朱鹏,罗轶凤 & 董启文.(2021).金融领域中文命名实体识别研究进展. 华东师范大学学报(自然科学版)(05),1-13.
[12] 胡婷,宝君维 & 韩波.(2020).基于自然语言处理及LSTM模型的产业上下游关系识别. 统计与决策(14),161-165.
[13] 毛瑞彬,朱菁,李爱文,周倚文,潘斌强 & 岳琳.(2022).基于自然语言处理的产业链知识图谱构建. 情报学报(03),287-299.
[14] Peng, C., Xia, F., Naseriparsa, M., & Osborne, F. (2023). Knowledge graphs: Opportunities and challenges. Artificial Intelligence Review, 56(11), 13071-13102.
[15] Hiew, J. Z. G., Huang, X., Mou, H., Li, D., Wu, Q., & Xu, Y. (2019). BERT-based financial sentiment index and LSTM-based stock return predictability.
附录
- 作者:Sissi
- 链接:https://notion-next-fsof.vercel.app//article/paper
- 声明:本文采用 CC BY-NC-SA 4.0 许可协议,转载请注明出处。