您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 创业/孵化 > 科技行业:AI大模型需要什么样的数据-华泰证券-2023.5.11-44页
免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。1证券研究报告科技AI大模型需要什么样的数据华泰研究电子增持(维持)通信增持(维持)研究员黄乐平,PhDSACNo.S0570521050001SFCNo.AUZ066leping.huang@htsc.com+(852)36586000研究员余熠SACNo.S0570520090002SFCNo.BNC535yuyi@htsc.com+(86)75582492388联系人权鹤阳SACNo.S0570122070045quanheyang@htsc.com+(86)2128972228联系人王珂SACNo.S0570122080148wangke020520@htsc.com+(86)2128972228行业走势图资料来源:Wind,华泰研究2023年5月11日│中国内地专题研究数据是大模型竞争关键要素之一,关注中国AI大模型数据发展AI的突破得益于高质量数据,我们认为数据是大模型竞争关键要素之一:1)训练大模型需要高质量、大规模、多样性的数据集;2)优质中文数据集稀缺,数字中国战略将促进数据要素市场完善,助力数据集发展。近期欧洲议会议员《人工智能法案》提案、网信办《生成式人工智能服务管理办法(征求意见稿)》对大模型训练数据的版权披露、合法性提出要求,对于数据产业链的投资机会,我们认为:1)数据资产储备公司的商业化进程值得关注;2)行业数据价值高,具有优质数据和一定大模型能力的公司或通过行业大模型赋能业务;3)关注卡位优质客户、技术降低人力成本的数据服务企业。海外开源数据集积累丰富,合成数据或将缓解高质量数据耗尽隐忧我们梳理了海外主要的开源语言和多模态数据集,主要的发布方包括高校、互联网巨头研究部门、非盈利研究组织以及政府机构。我们认为海外积累丰富的开源高质量数据集得益于:1)相对较好的开源互联网生态;2)免费线上书籍、期刊的长期资源积累;3)学术界、互联网巨头研究部门、非盈利研究组织及其背后的赞助基金形成了开放数据集、发表论文-被引用的开源氛围。然而,高质量语言数据或于2026年耗尽,AI合成数据有望缓解数据耗尽的隐忧,Gartner预测2030年大模型使用的绝大部分数据或由AI合成。中文开源数据集数量少、规模小,看好数字中国战略激活数据要素产业链与国外类似,国内大模型的训练数据包括互联网爬取数据、书籍期刊、公司自有数据以及开源数据集等。就开源数据集而言,国内外的发布方都涵盖高校、互联网巨头、非盈利机构等组织。但国内开源数据集数量少、规模小,因此国内大模型训练往往使用多个海外开源数据集。国内缺乏高质量数据集的原因在于:1)高质量数据集需要高资金投入;2)相关公司开源意识较低;3)学术领域中文数据集受重视程度低。看好数字中国战略助力国内数据集发展:1)各地数据交易所设立运营提升数据资源流通;2)数据服务商链接数据要素产业链上下游,激活数据交易流通市场,提供更多样化的数据产品。数据产业链投资机会:关注数据生产与处理环节数据产业链包括生产、处理等环节。我们认为数据生产可以分为通用数据和行业数据:1)海外主要数据集的通用数据来自维基、书籍期刊、高质量论坛,国内相关公司包括文本领域的百度百科、中文在线、中国科传、知乎等,以及视觉领域的视觉中国等。2)数据是垂直行业企业的护城河之一,相关公司包括城市治理和ToB行业应用领域的中国电信、中国移动、中国联通,CV领域的海康、大华等。数据处理环节,模型研发企业的外包需求强烈,利好卡位优质客户、技术赋能降低人力成本的数据服务企业,如Appen、TelusInternational、ScaleAI。隐私保护:监管与技术手段并举个人数据的采集、存储和处理引发了对于AI时代数据隐私保护的关注。隐私保护可从监管、技术角度着手:1)监管:全球各地区出台相关法律法规,例如《中华人民共和国个人信息保护法》、欧盟《通用数据保护条例》等。2)技术:隐私保护计算在不泄露原始数据的前提下,对数据进行处理和使用。风险提示:AI及技术落地不及预期;本研报中涉及到未上市公司或未覆盖个股内容,均系对其客观公开信息的整理,并不代表本研究团队对该公司、该股票的推荐或覆盖。(13)5224057May-22Sep-22Jan-23May-23(%)电子通信沪深300免责声明和披露以及分析师声明是报告的一部分,请务必一起阅读。2科技正文目录AI大模型需要什么样的数据集......................................................................................................................................5数据将是未来AI大模型竞争的关键要素...............................................................................................................5数据集如何产生.....................................................................................................................................................7他山之石#1:海外主要大语言模型数据集............................................................................................................9数据集#1:维基百科.....................................................................................................................................9数据集#2:书籍..........................................................................................................................................10数据集#3:期刊..........................................................................................................................................10数据集#4:WebText(来自Reddit链接)..................................................................................................11数据集#5:Commoncrawl/C4....................................................................................................................13其他数据集..................................................................................................................................................13他山之石#2:海外主要多模态数据集..................................................................................................................14类别#1:语音+文本.....................................................................................................................................14类别#2:图像+文本.....................................................................................................................................15类别#3:视频+图像+文本...........................................................................................................................16类别#4:图像+语音+文本...........................................................................................................................17类别#5:视频+语音+文本...........................................................................................................................17他山之石#3:海外主要大模型数据集由何方发布................................................................................................18高质量语言数据和图像数据或将耗尽,合成数据有望生成大模型数据...............................................................19数字中国战略助力中国AI大模型数据基础发展.........................................................................................................22中国AI大模型数据集从哪里来...........................................................................................................................22中国大模型如何构建数据集#1:LLM..........................................................................................................24中国大模型如何构建数据集#2:多模态大模型...........................................................................................25中国开源数据集#1:大语言模型数据集......................................................................................................26中国开源数据集#2:多模态模型数据集...................................................
本文标题:科技行业:AI大模型需要什么样的数据-华泰证券-2023.5.11-44页
链接地址:https://www.777doc.com/doc-11282206 .html