金融圈的GPT来了
1. BloombergGPT的核心突破在于构建超3,000亿词例的金融训练数据集
2. BloombergGPT的开发对于所有垂直领域都有重要意义
文:白话华尔街丨ID:WallstreetTalk
(资料图片)
字数:1268字,阅读时长:3分钟
近日,由ChatGPT引发的生成式AI热潮也蔓延到了金融行业。3月30日,全球商业、金融信息和财经资讯领域的供应商彭博(Bloomberg)发布了一篇关于BloombergGPT发开情况的研究论文,详细介绍了这一专注于金融领域的大规模生成式人工智能模型。
和OpenAI的ChatGPT将从根本上颠覆书面交流一样,BloombergGPT也将彻底改变金融行业。
“核心突破在于构建了超3,000亿词例的金融训练数据集”
根据Bloomberg的公告,BloombergGPT大语言模型(LLM)专门针对各类金融数据进行训练,从而全方位地支持金融领域的各种自然语言处理(NLP)任务。这些任务可能包括但不限于快速地分析财务数据、协助进行风险评估,以及自动执行会计和审计任务等。
该模型将帮助彭博改进现有的金融NLP任务,如市场情绪分析、实名实体识别、新闻分类和问题回答等。除此之外,BloombergGPT还可以调动彭博终端(Bloomberg Terminal)上的海量数据,将人工智能的全部潜力应用到金融领域。
BloombergGPT基于彭博研究人员开创的混合训练法,通过将金融数据与通用数据集结合起来训练模型,既可以在金融基准上取得最佳结果,同时也可以在通用LLM基准上保持足够的竞争力。
坐拥彭博在数据创建、收集和整理方面的资源,BloombergGPT是迄今为止规模最大的专业领域数据集之一。
在过去的40多年里,彭博积累了充斥大量金融用语的文档,其开发团队从这个由大量英文金融文档组成的数据库中提取并创建了一个包含3,630亿词例(token)的金融数据集。该数据集又与另外一个包含3,450亿词例的公共数据集叠加,形成一个包含超7,000亿词例的大型训练语料库。
彭博的研究团队利用该语料库的一部分内容训练了纯解码器(decoder-only)因果语言模型,包含500亿个参数,并对训练出的模型进行了基准测试。
金融领域的NLP任务采用了彭博的自有基准,各类通用NLP任务则采用了市面上流行的基准,如BIG-bench Hard、 Knowledge Assessments、Reading Comprehension以及Linguistic Tasks。
测试结果显示,BloombergGPT在金融任务上的表现远超类似规模的开发模型,而在一般NLP基准上的表现也达到甚至超过了平均水平。
“所有垂直领域都将受益”
彭博在公告中表示,基于LLM的人工智能在许多领域都已经展示出了应用潜力,然而金融领域的复杂性和独特的术语意味着需要有一个专攻金融专业的模型。BloombergGPT的推出意味着,金融行业在基于LLM的人工智能开发和应用方面已经迈出了第一步。
彭博首席技术官Shawn Edwards表示,小样本学习、文本生成和对话系统等,都是生成式LLM模型如此迷人的原因,而首个专注于金融领域的LLM模型将具有巨大价值。BloombergGPT能帮助人们处理许多新型的应用,不仅比定制化模型的表现好,而且即开即用,能够大大缩短上线时间。
关于BloombergGPT的发布,彭博研究团队在论文中表示,虽然业内无法对未公开的模型进行全面评估,但发布模型很可能会导致不良用途。特别是像BloombergGPT这样的接受了大量新闻稿、媒体报道和其他文件训练的模型,发布以后将面临很高的被模仿滥用的风险,而且很容易受到数据泄漏攻击。出于这些原因,彭博研究团队宁可谨慎行事,并遵循其他一些LLM开发人员的做法,不发布BloombergGPT。
尽管如此,彭博在训练和评估BloombergGPT方面的见解和经验将有助于加深人们对LLM模型的理解,对那些希望构建某一领域特定模型的从业者起到借鉴作用。
参考资料
1.Bloomberg, Introducing BloombergGPT, Bloomberg’s 50-billion parameter large language model, purpose-built from scratch for finance
2.Bloomberg, BloombergGPT: A Large Language Model for Finance
3.Fox Business, Bloomberg unveils finance-focused AI model Bloomberg GPT
BloombergGPT论文阅读原文 https://arxiv.org/pdf/2303.17564.pdf
【免责声明】
海投全球及旗下各自媒体账号对所分享内容观点保持中立,不对其准确性提供任何明示或暗示的保证,仅供读者学习参考之用,禁止用于商业用途,且无投资指导意义。本声明适用于海投全球全部原创与转载文章,声明的最终解释权归海投全球所有。谢谢!
关键词:
责任编辑:宋璟
-
金融圈的GPT来了
-
世界报道:2023第二季度天津津南区公租房接受登记项目房源情况
-
环球消息!4月3日聊城华通盐酸价格暂稳
-
2022年“最美高校辅导员”先进事迹发布:做好学生成长的引路人|环球快播报
-
临盆产妇就医途中产下婴儿!浦东交警争分夺秒开辟“生命通道” 实时焦点
-
环球快报:最经典的MINI要停产?“夜店男”终结版登场,分体式尾门将成为永恒!
-
省直事业单位公开招聘870名工作人员-天天新要闻
-
湖人剩余赛程:大概率4胜1负,对决太阳和快船,湖人可以全胜!
-
点赞!蜀山区这项工作再获表彰
-
农产品样品免费快检 集美区开展“你送我检”活动 每日消息
-
百万亩设施农业投入紧张生产:大棚育好秧 田里多产菜
-
全球观天下!智通港股股东权益披露|4月3日
-
新疆5位林果专家登上“国家林草科技大讲堂” 每日头条
-
焦点报道:健康扶贫政策的主要内容是什么?(健康扶贫政策内容)
-
全球视点!江南造船交付国内首艘中型全冷式液化气船,打破韩国垄断
-
当前观察:我国自主研制速度可达600km/h的高温超导电动悬浮交通系统实现首次悬浮运行
-
简讯:山东4地纪委监委通报,2人被查1人被开除党籍以及2起典型问题
-
阿水克服厄斐琉斯心魔!TES战胜WE晋级-今日要闻
-
焦点关注:包含罕见的"幸运的你"贴纸密封的初代iPhone以40000美元售出
-
约定的梦幻岛诺曼雷_约定的梦幻岛诺曼-快看
-
为什么有的酒喝了会“上头”,有的酒喝了不会?|世界快播报
-
重庆百货3月31日收盘报27.12元上涨2.34% 全球最新
-
星纪魅族集团与爱施德签署战略合作协议
-
全球新动态:遵义市林业局倡导文明祭祀 消除火险隐患
-
丹寨县龙泉镇:“三个到位”抓好乱占耕地违法建房问题整治工作
-
快看点丨涨停复盘:A股一季度大涨收官 ChatGPT概念午后再度爆发
-
知识博主助力网络学习:有趣的内容,“硬核”的知识
-
以闪亮之名玩呐挑战第五章通关攻略
-
青海玉树州治多县发生3.4级地震,震源深度9公里
-
焦点速看:震惊!TeD海选一轮游,正赛16强竟有8个暗夜?
-
日照香炉生紫烟遥看瀑布挂前川下一句(日照香炉生紫烟遥看瀑布挂前川的意思)
-
HyperWorks虚拟风洞:快速、准确、可靠的空气动力学仿真工具
-
异动快报:新五丰(600975)3月31日9点46分触及涨停板-快播报
-
流利说少儿英语官网(流利说少儿英语)|环球热点评
-
国内新能源运营商首套气象图谱投用