中信证券研报指出,参考好意思国产业发展训戒,领先千里淀出平台智力的数据公司有望把执先发上风,构建长久壁垒,提倡眷注国内关连映射看法标的。国内现时以AI为对象的数据产业发展尚在早期。关于国内数据产业而言,关连公司将逐渐从集成制、形势制的公司向垂类领域进发色情西瓜影音,领先锁定垂类领域的关连大家、客户,并简略通过垂类形势训戒千里淀出平台智力的公司将连续受益。提倡眷注国产数据治理看法及数据平台型公司。
全文如下东说念主工智能|Scale AI:从数据标注,到AI期骗落地
▍讲演缘起:为什么咱们觉得Scale AI值得青睐?
1)Scale AI早期主要业务系为自动驾驶公司提供数据标注外包作事,在2022年后与OpenAI等配合,逐渐转型为以数据标注和治理为中枢的AI基础设施公司,从数据标注逐渐拓展至以其企业级数据平台为基础为政企客户提供从AI数据治理到生成式AI期骗的落地部署和生意闭环的全经由作事,这一生意模式匡助客户责罚了在垂类细分场景下数据质料差、AI期骗难以落地的问题,合座进步了卑鄙AI期骗的落地速率和迭代节拍。
2)笔据The information报说念, Scale AI的年化收入从2018年的1700万好意思元快速高潮至2023年的约7.6亿好意思元,5年CAGR达到113%。至2024年5月,公司的ARR(年化收入)照旧蹧蹋10亿好意思元,且简直都备开端于AI关连的数据业务。公司估值相似快速高潮,由2021年的73亿好意思元高潮至2024年5月F轮融资时的138亿好意思元,增长朝上89%。在民众AI关连公司中,除算力产业链以及基座模子关连公司(如Open AI、Anthropic等),Scale AI的营收和市值范围首屈一指。
3)咱们觉得,公司营收和市值范围在往时三年内快速增长,体现出在AI产业链门径中,数据产业关于AI期骗大范围落地的要紧性正逐渐被行业和市形势剖析。
▍公司生意模式剖析:从数据标注外包商向数据集成商改换。公司以高质料数据标注为中枢,并以此为基础为B端和G端客户提供一站式的AI期骗落地部署作事。
1)公司早期业务系为自动驾驶企业提供数据标注外包作事,从2020年起,跟着Scaling Law下大模子参数范围的快速扩张及所需历练数据量的高潮色情西瓜影音,Scale运转与OpenAI进行配合,为其提供大范围数据标注作事。在该过程中,公司将我方在数据标注业务中的know-how千里淀于其数据引擎平台上,辘集AI标注智力,更高效地为客户完成其业务数据的分类、标注和轨范化治理。
2)公司从数据标注外包作事商拓展为企业级数据集成商,通过企业级AI数据平台为客户买通AI数据全链路作事,加快客户AI期骗建设和部署节拍。Scale并不提供大模子家具,但在标注处理完客户的专荒谬据后,Scale AI不错为客户相比和测试第三方公司提供的主流大模子(如Google、Anthropic、OpenAI),并通过客户数据对大模子进行微调,最终辘集客户的具体使用场景将大模子进行落地部署。公司的AI平台不错匡助莫得智力接纳关连时代供应商的客户完成AI期骗落地所需的时代责任及关连供应商的接纳。
3)数据质料对AI在垂类场景落地要紧度进步,绑定中枢标注东说念主员构筑公司竞争壁垒。关于专考场景而言,通过RAG门径对模子进行微调需要高质料垂类数据,而垂类数据的标注关于精确度和专科性有一定条目。Scale雇佣了数十名关连领域的博士进行数据标注,并借此契机与领有专科数据标注智力的关连东说念主员进行了绑定,通过和要紧行业客户的配合完成了行业常识的蕴蓄。
4)公司业务由B端向G端养殖,G端落地速率快。公司积极与好意思国多个政府部门进行配合,2022年,公司与好意思国国防部刚毅订单,单笔金额达到2.5亿好意思元,公司为好意思国政府与军方提供了大模子测试与评估、多诺万AI平台、开源数据集评估等多项作事。公司的多诺万AI平台接入了好意思国军方的数据源,并通过该平台对军方网罗的战场图像进行标注。在获得数据后,公司在该平台上通过调用并微调第三方模子完成专荒谬据集上的大模子历练,进而通过微调模子对军方及时提供的战场图片进行判读、损伤评估和态势感知,大幅提高了军方对战场谍报的分析杀青和反应速率。
▍公司现时情况:资历7轮融资,头部大厂进行背书。
1)公司当今经过7轮融资,历史总融资额超16亿好意思元。公司E轮及之前融资主要以Y Combinator为代表的财务投资者为主。公司最近一轮融资为2024年5月份的F轮融资,包括Meta、英伟达在内的头部科技公司合计为Scale AI注资达10亿好意思元。
2)除融资外,公司相似在业务上与头部大厂达成了深度配合关系。Scale AI自2019年运转与Open AI进行配合,并深度参与了GPT-2及以后GPT模子的数据标注责任。Open AI同期将Scale视为优先配结伙伴,优先推选企业客户使用Scale提供的微调作事。咱们觉得,头部科技公司主导的产业成本对Scale AI的投资与Scale AI估值水平的快速高潮或响应出AI数据基础设施产业或成为AI行业下一阶段的要紧发展标的。
▍Scale AI的训戒与鉴戒:数据标注业务产业链价值进步,北好意思数据产业和会发展趋势显着。
1)在Scaling Law的行业趋势下,大模子迭代所需的算力以及对期骗于历练的数据均呈现指数级增长。以Open AI为例,从GPT1-GPT3,其模子参数范围在2018-2020年由1.17亿个增长至1750亿个,历练数据集由4.5GB指数级增长至570GB,GPT4约为1PB。笔据Epoch AI的预测,民众的公开高质料文本数据将在2027年破费。特定企业里面则领有开阔的专荒谬据集,以金融业为例,笔据SaaStr网站主理东说念主Harry Stebbings对Scale AI首创东说念主 Alex Wang的访谈,摩根大通里面领有约150PB的专荒谬据集,但数据因未经清洗和加工,较难为大模子使用。同期,在特定任务领域,举例医疗、金融风控等场景,经过专科东说念主员逻辑性标注的专科数据可裁减模子出现幻觉的概率和提高模子准确度。在该种趋势下,咱们看到用于AI历练和推理的垂类数据标注的难度和产业价值均在进步。
2)从数据产业链的角度来看,北好意思数据产业链正从高度单干的业态趋于和会发展。数据软件自身的功能鸿沟趋于迷糊,同期各赛说念龙头公司通过内生发展或并购模式向产业链各门径进行养殖,以Palantir为代表的数据集成商公司成长权臣。咱们觉得这一产业趋势的背后是B端客户关于以AI为中枢的数智化转型存在明确诉求,而该种转型需要企业完成我方里面的数据治理、数据分析平台、数据湖仓等门径的构建,但单一企业很难领有该种时代智力。因此,从数据自身的数目、质料和不停等方面考量,专注于匡助企业完成AI从数据到期骗落地的数据产业集成商的出现是中短期内的产业发展趋势。
▍投资政策:
色哥网参考好意思国产业发展训戒,咱们觉得领先千里淀出平台智力的数据公司有望把执先发上风,构建长久壁垒,提倡眷注国内关连映射看法标的。国内现时以AI为对象的数据产业发展尚在早期。关于国内数据产业而言,咱们觉得关连公司将逐渐从集成制、形势制的公司向垂类领域进发,领先锁定垂类领域的关连大家、客户,并简略通过垂类形势训戒千里淀出平台智力的公司将连续受益。提倡眷注国产数据治理看法及数据平台型公司。
▍风险身分:
民众地缘政事冲突的风险;细分市集需求走弱的风险;数据平台建设进程不达预期的风险;行业竞争加重的风险;AI卑鄙发展不足预期的风险;云厂商Capex插足不足预期风险;中枢客户流失风险;中枢不停东说念主员流失风险;推选公司功绩不达预期的风险;推选公司家具研发进程不足预期的风险;推选公司的客户AI关连IT开支意愿波动的风险色情西瓜影音。