AI大模型火遍全球,中国产业也激发了对人工智能应用的新热情。
【资料图】
随着各大厂商参与竞逐,市场正在分化为通用与垂直两大路径,两者在参数级别、应用场景、商业模式等方面差异已逐步显现。
01
企业涌入垂直大模型赛道
通用AI大模型像ChatGPT,能够处理各种领域和场景的自然语言,但由于需要巨大的计算资源和数据量,已经成为国内外大厂的重点项目。
这类企业往往有着强大的技术团队和资金支持,且有着自己的场景和流量优势。比如百度、阿里、腾讯、字节、华为等,在搜索、社交、电商、办公等领域都有着自己的通用AI大模型。
相较之下,创业公司、细分领域企业很难在这样的竞争中获得先发优势或者差异化优势。
而垂直AI大模型只关注某个特定的领域或者场景,它能够利用行业的数据和知识,提供更精准和高效的解决方案,更好地满足用户在某个领域或者场景下的需求和期待,如:医疗、金融、教育等。
同时,它可以利用一些开源或者闭源的通用AI大模型作为基础,然后在其上进行指令微调(instruction tuning),来适应自己的目标领域或者场景。
因此,它的参数规模比通用大模型低一个量级,如果让数据飞轮和模型训练能够很好结合,在某些特定领域甚至比通用大模型的效果更好、成本更低。
在这样的背景下,越来越多的企业加入了垂直大模型的赛道。
5月18日,深信服发布国内首个自研安全大模型,成为安全领域GPT技术应用首秀;
5月5日,学而思宣布正在进行自研数学大模型的研发,命名为MathGPT,面向全球数学爱好者和科研机构;
3月,达观数据公布正在开发曹植系统,专注于金融、政务、制造等垂直领域的大语言模型。
明确的商业化落地场景和更低的算力成本,为各类企业打开了进军垂直大模型的大门。
02
垂直大模型的考验
垂直大模型的优势在于不够大:算力不够大、算法难度低,但并不代表垂直大模型谁都能做。
众所周知,AI大模型三要素:算力、算法、数据,都是喂养AI的“饲料”。
先说算力。
大模型之所以“大”,就是因为参数众多和数据量庞大。AI大模型所需要的计算量,大致上相当于参数量与数据量的乘积。
过去5年,AI大模型的参数量几乎每年提升一个数量级,例如GPT-4参数量是GPT-3的16倍,达到1.6万亿个。
随着图像、音视频等多模态数据的引入,大模型的数据量也在飞速膨胀。这意味着想要玩转大模型,必须拥有大算力。
而一套垂直大模型的训练和推理成本,做个参考,在数字人垂类技术场景中,可以做到比Open AI同参数规模的模型低一个量级,像启元世界的战略总监王思捷就曾提到:先构建更小的垂类模型(比如百亿参数、十亿参数),让数据飞轮和模型训练能够很好结合,垂类模型在某些领域可能比Open AI的效果更好成本更低。
即便垂直大模型在算力要求上已远远低于通用大模型,但对算力基础设施的投入依然会阻挡部分小公司的入局。
再说算法。
在三要素中,算法的研发难度相对较低,每家公司都有自己实现大模型的路径算法,且有众多开源项目可作为参考,中国公司最容易缩短甚至抹平差距。
最后说数据。
高质量的数据是助力AI训练与调优的关键,足够多、足够丰富的数据,是AI大模型的根基。
OpenAI此前披露,为了AI像人类那样流畅交谈,研发人员给GPT-3.5提供多达45TB的文本语料,相当于472万套中国“四大名著”。这些语料的来源包括维基百科、网络文章、书籍期刊等,甚至还将代码开源平台Github纳入其中。
但是聚焦到细分行业,数据的获取就没那么容易了。
兴业证券公开表示,要训练专业的行业大模型,优质的行业数据、公共数据至关重要。
就国内数据市场而言,据发改委官方批露,我国政府数据资源占全国数据资源的比重超过3/4,但开放规模不足美国的10%,个人和企业可以利用的规模更是不及美国的7%。
而行业数据更是非常核心的私域数据,私域数据量越大,质量越高,就越有价值。
比如,一个医疗公司拥有大量医疗数据、病例数据,那么它就能开发出医疗垂直大模型类的产品。同理,建筑行业的项目数据、金融行业的用户画像数据、海运行业的船位数据等,都是赋能垂直大模型的关键。
但是这些私域数据都攥在企业自己手中,而且为了数据安全和合规,绝大部分机构是要本地化部署才会尝试大模型训练,很难想象企业会把自己的核心数据拿给别人去训练。
此外,如何合理地给数据打上分级标签、做好标注也非常重要。数据分级分类能够帮助产品提效,而高精度的标注数据能够进一步提升大模型的专业表现。
但现阶段垂直行业想要获取高精度标注数据的成本较高,而在公开数据库中,行业专业数据也较少,因此对垂直大模型的建构提出了很高的要求。
总体而言,想要做好垂直大模型,数据的重要性,远超过算力和算法。
数据,已成为企业突破垂直大模型的“卡点”。
03
手握行业数据领先一步
垂类大模型讲求应用与场景先行的逻辑,而在国内更是强调产业侧的价值。
一方面,在当前中国的智能化浪潮下,产业侧数字化革新本就有广阔的市场需求;另一方面,在toB生态下,基于垂直应用的实践也有利于形成数据飞轮与场景飞轮。
而这一切的前提,是推出垂类大模型的公司在该行业已建立技术壁垒与护城河,即“人无我有”的竞争优势。
如此看来,在垂直行业深耕多年的企业或将有更大的赢面。
这类企业在数据层面、大模型以及知识图谱方面都有较为深厚的积累,对于大模型的优化更具优势。同时,它们对于to B客户需求和落地场景有很深的理解,能够更好地保证垂直大模型产品的可信和可靠,满足企业级对于安全可控合规的需求。
目前,已有一些垂类大模型在金融、教育、医药、营销等场景中得到试炼。
例如,彭博社利用自身丰富的金融数据源,基于开源的GPT-3框架再训练,开发出了金融专属大模型BloombergGPT;
网易有道则面向教育场景,推出自研的类ChatGPT模型“子曰”;
在ChatGPT发布后仅几周,谷歌公布了一个专门用于回答医疗保健相关问题的大型医用语言模型Med-PaLM......
相信随着越来越多企业入局,垂直大模型在各个行业和细分领域中将大量涌现。而那些能将一个垂直领域做专、做透,用高质量的数据持续优化模型,跑通商业闭环,构建起产业生态的企业,最终将把价值链做到足够长。
【科技云报道原创】
转载请注明“科技云报道”并附本文链接
原文标题 : 垂直大模型竞争,能突破数据“卡点”吗?
标签:
上一篇 : 《我的信息素好吃吗》作者:白破 (ABO/破镜重圆)
下一篇 : 最后一页
AI大模型火遍全球,中国产业也激发了对人工智能应用的新热情。随着各大厂商参与竞逐,市场正在分化为通用与
05-19 19:02:11
沉稳固执反差萌攻&自卑怯懦小可爱受【文案】刚上大学的小甜O俞星,因为香甜的提拉米苏味信息素而受到全...
05-19 17:57:51
第一时间提供各大券商研究所报告,最大程度减少个人投资者与机构之间信息上的差异,使个人投资者更早的了解
05-19 17:30:09
其中,低电压CRM器械和高电压CRM器械这两个大业务是微创心律的主要营收来源,2022年该两大业务合计收入占总
05-19 17:12:33
抄写作文网小编为大家提供火灾的古诗有哪些古人关于防火的诗句来供大家参考,欢迎阅读。2 关于防火的诗句有
05-19 16:23:24
快手小店钱币类目怎么报白?钱币、古钱币、纪念币怎么开通上架?快手小店钱币类目报白找公众号----小店报白
05-19 15:59:34
5月19日,据九派新闻视频报道,5月18日,在河南漯河,有网友发布视频称,在漯河食品博览会现场,展台商品遭
05-19 15:37:53
1、人生就像一场戏;因为有缘才相聚;相扶到老不容易;是否更该去珍惜;为了小事发脾气;回头想想又何必;别人生气
05-19 15:02:09
2023年银川中小学暑假放假时间:义务教育阶段学校和幼儿园:2023年7月3日(星期一)至2023年8月20日(星期
05-19 14:04:03
为促进和规范中医养生保健服务发展,保护人民健康,国家中医药管理局近日印发《中医养生保健服务规范(试行
05-19 13:45:17
线上买重疾险可靠,一个是线上投保平台是有资质的,比如保险经纪公司或保险公司;另外一个线上投保的重疾险
05-19 12:42:41
跨境电商网购保税进口香水业务成功落地长沙黄花综保区。
05-19 12:17:36
前4月全国铁路完成固定资产投资1674亿元同比增长6 3%-从中国国家铁路集团有限公司(以下简称国铁集团)获
05-19 11:56:39
直播吧5月19日讯 NBA西部决赛G2,掘金主场对阵湖人。截至发稿,约基奇18投9中得到23分16篮板12助攻2抢断。
05-19 11:26:35
同花顺数据中心显示,青岛银行5月18日获融资买入178 65万元,占当日买入金额的4 93%,当前融资余额5382 19
05-19 10:52:56
光大证券发布研究报告称,维持腾讯控股(00700)“买入”评级,目标价430港元。公司各业务线潜力可观:...
05-19 10:14:59
近来,不少地方的文旅局长都格外忙。除了做好日常的管理工作,还要从幕后走到台前。在皑皑雪原、大漠古城、
05-19 10:03:26
“2023”兴亿国际影城与您共度欢乐时光兴亿会员,尊贵更实惠特别企划1 会员充值送更多 充值200元赠送2...
05-19 09:09:37
今年以来,洪江市多措并举,线上线下齐发动,掀起全市“学习袁隆平做粒好种子”高潮,也助力擦亮“一粒...
05-19 09:00:22
天津北方网讯:天津地铁4号线北段白庙站-北洋桥站区间左线津轨18号盾构机于5月18日顺利始发,标志着4号线北
05-19 08:03:54
支付宝五福活动有一个比较有新意的添加五福红包的玩法,那么支付宝如何添加五福红包呢?打开支付宝,进入五
05-19 07:30:14
他在比赛中的一些决策和解释,尤其是他对于Faker的言论,引起了中国网友的广泛关注和讨论。他解释说,在第
05-19 06:42:58
今天来聊聊关于郑州到新乡火车时刻表及价格,郑州到新乡火车时刻表的文章,现在就为大家来简单介绍下郑州到
05-19 05:08:19
不把鄢手骐当回事?郭艾伦:你打得过手帝我给你跪下,杨鸣,郭艾伦,鄢手骐,赵继伟,周俊成,胡金秋,辽宁飞豹,中
05-19 03:02:05
1、估计300左右针对沪上某报猜测上海迪士尼门票初步定价为650元,沪上旅行社人士昨天表示,综合国内收入和
05-18 22:46:44
中新网5月18日电(中新财经吴家驹)5月18日,中新财经通过线上订票系统查询发现,笑果文化、单立人等多场脱口
05-18 21:56:01
2023解放者杯32强32星之F组博卡青年:4号尼古拉斯-费加尔,1994年,中后卫,阿根廷前国脚(0场)科洛科洛:
05-18 20:12:48
而且除了在球队风格上被国际米兰克制之外,曼城还需要面对足坛最大的魔咒,那就是大热必死,蓝月军团近几个
05-18 19:40:20
2023年沃尔沃全国青少年挑战赛第二站第二轮遭遇大雨,黄山松柏高尔夫乡村俱乐部难度增加,然而刘宗翰、任怡
05-18 18:07:51
太阳的能量是怎样传递给植物的?
05-18 17:58:09
智通财经APP讯润达医疗603108603108SH发布公告公司于2023年5月17日收到股东朱文怡出具的《告知函》自2023年
05-18 17:18:21
出海四小龙,谁会笑到最后?|跨境电商专题,中国电商放不下出海。
05-18 16:44:02
1、那个女fan爱男明星,ms精神方面有点问题。2、她爱到会做bt的事情,不过好像想做什么却失败了。3、太爱那
05-18 16:18:22
木子也是稍微找了一下菊斗罗月光的图片,然后把奥斯卡新模型和菊斗罗进行了对比,最后发现两人确实有着非
05-18 15:55:31
鹤壁公布最新购房补贴,买商业房和商品住宅都可享受,二手房,商业房,住博会,鹤壁站,商品住宅,购房补贴
05-18 15:12:07
日前,在希莫标准年度大会上,滴滴出行体验服务发展平台服务体系总经理王健透露,去年全年滴滴共协助用户找
05-18 13:47:15
位于普陀真如城市副中心的中海真如境将迎来首家主力店——山姆会员商店今天开业,这是山姆全国第43家门...
05-18 12:51:29
5·15全国投资者保护宣传日为深入做好全面注册制知识普及和风险揭示,加大防范非法证券期货宣传力度,华...
05-18 12:10:32
搜狐娱乐讯近日,周也在直播时因一时激动,把“忏(chan)悔”说成了“qian悔”,引起争议。随后,周也...
05-18 11:59:37
先将凤爪使用0 5%的泡多源腌制,腌制2-5小时,再炸就会比较膨松。1、凤爪又称鸡掌,鸡爪,凤足等。是一道经
05-18 11:27:09
这里是刘小顺的旅行和生活研究所。前段时间,我和几个朋友一起到武汉去旅游,武汉当地的朋友推荐我们去看看
05-18 10:34:29
读特客户端·深圳新闻网2023年5月18日讯(深圳晚报记者张璇通讯员翁露丹)为提高辖区残障人士身体疾病预防
05-18 09:20:34
对于什么是玄学这个问题感兴趣的朋友应该很多,这个也是目前大家比较关注的问题,那么下面小好小编就收集了
05-18 09:07:16
5月17日,金迪克(688670)融资买入651 87万元,融资偿还800 07万元,融资净卖出148 19万元,融资余额9847 87万元。
05-18 07:34:28
平时使用移动硬盘时,不少朋友有时会遇上插上电脑之后不显示的情况,这时候我们会怎么做呢?笔者主要以windo
05-18 06:32:32
1、中国作家牛佬作品《古惑仔》系列漫画以及电影中的人物。2、原名:梁二(古惑仔中谢天华饰)花名:大天二
05-18 05:56:50
1、推荐楼主这几个方法试试:要插入方框:方法1视图→工具栏→窗体→复选框选中菜单栏“视图”依次点“工...
05-18 04:01:52
网贷逾期一般会上征信,有些借贷机构在用户逾期后一天后就会上报给征信机构,而有些借贷机构则是会在几天后
05-18 00:47:05
5月17日,哈萨克斯坦总统托卡耶夫,塔吉克斯坦总统拉赫蒙,吉尔吉斯斯坦总统扎帕罗夫陆续抵达西安咸阳国际
05-17 22:44:12
潮新闻讯2003年,浙江省启动“千村示范、万村整治”工程。从美丽乡村到美丽浙江,再到为美丽中国建设探...
05-17 21:41:49
AI大模型火遍全球,中国产业也激发了对人工智能应用的新热情。随着各大厂商参与竞逐,市场正在分化为通用与
2023-05-19
沉稳固执反差萌攻&自卑怯懦小可爱受【文案】刚上大学的小甜O俞星,因为香甜的提拉米苏味信息素而受到全...
2023-05-19
第一时间提供各大券商研究所报告,最大程度减少个人投资者与机构之间信息上的差异,使个人投资者更早的了解
2023-05-19
其中,低电压CRM器械和高电压CRM器械这两个大业务是微创心律的主要营收来源,2022年该两大业务合计收入占总
2023-05-19
抄写作文网小编为大家提供火灾的古诗有哪些古人关于防火的诗句来供大家参考,欢迎阅读。2 关于防火的诗句有
2023-05-19
8月28日,记者了解到,为保障市场物价平稳运行,根据近期疫情防控形势,沈阳市市场监管局密切关注市场价...
近日,从海带中制造环保纱线的材料创新者AlgiKnit宣布获得1300万美元(8735 6万元)的A轮融资,以通过加...
概念特点1、 定义:纤维是天然或人工合成的细丝状物质,纺织纤维则是指用来纺织布的纤维。2、 纺织纤...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
Copyright © 2015-2022 时代纤维网版权所有 备案号: 联系邮箱: 514 676 113@qq.com