期刊文献+
共找到1篇文章
< 1 >
每页显示 20 50 100
基于自编码器的LoRa微调方法--以金融新闻大模型为例
1
作者 戴雪忠 熊崐宇 《中国科技信息》 2025年第21期60-63,共4页
金融领域相关新闻报道存在专业性强、数据量大等特点,在一定程度上存在记者“难写”,读者“难懂”的问题。近年来,预训练大语言模型(PLMs)在业界引起了极大的关注,尤其是2022年GPT-3.5和GPT-4的公开发,布标志着一个重要的起点。这些大... 金融领域相关新闻报道存在专业性强、数据量大等特点,在一定程度上存在记者“难写”,读者“难懂”的问题。近年来,预训练大语言模型(PLMs)在业界引起了极大的关注,尤其是2022年GPT-3.5和GPT-4的公开发,布标志着一个重要的起点。这些大型语言模型(LLMs)在从阅读理解到开放式问答再到代码生成等一系列任务中展示了强大的性能。值得注意的是,这些LLMs在自然语言理解(NLU)方面展现出了深厚的能力,并且能够通过遵循自然语言指令执行多种任务,无需训练数据实现零样本学习。尽管在传统自然语言理解领域取得了这些成功,但在金融新闻领域,其文本的复杂性提出了挑战,需要特定领域的背景和知识来有效理解复杂的金融语言和概念。为此,多位研究者对金融大型语言模型(FinLLMs)展开了研究,并取得了一定的成果,包括FinGPT和BloombergGPT。尤其是在中文金融大型语言模型方面,BBT-FinT5使用掩蔽语言模型任务(MLM)和知识增强三重掩蔽任务(KETM)对T5进行了微调,XuanYuan2.0有效地使用通用和金融领域的数据集对BLOOM176B进行了微调,Touvron通过监督微调LLaMA。上述方法增强了模型在中文金融领域的推理能力,并且在通用和金融问答任务中展现了强大的金融领域相关知识的理解能力。训练或微调上述金融大模型所需要的数据集准备较为困难,训练或微调的工程化方法复杂,并且对算力要求较高,因此,上述模型并未在金融领域被广泛使用,尤其是在中文金融新闻报道中尚未得到充分应用和研究。 展开更多
关键词 知识增强三重掩蔽任务 MLM bloomberggpt GPT-3.5
在线阅读 下载PDF
上一页 1 下一页 到第
使用帮助 返回顶部