对这个票的感情挺深,一方面是因为自己的首个百万阅读帖子受益于它,另一方面拓尔思是贯穿整个人工智能板块发展的标的,今年1月31日人工智能正式启动的那天,涨停的16只个股里已经新高或即将新高的,惟有科大讯飞、鸿博股份和拓尔思了。
相比其他的汉王科技、海天瑞声、云从科技等耀眼一时却逐渐掉队的明星股,拓尔思不显山不露水,在人工智能第二波里最高调整接近40个点的幅度,却仍又顽强追赶上来,距离新高近在咫尺,那一定是有真东西、好东西的。
如果说之前表现不尽人意,是由于投资者的审美疲劳以及缺乏事件驱动外,那么拓尔思的蝶变时刻即将来临
6月21日盘中拓尔思微信公众号宣布
比较下来,总的看拓尔思目前仍然具备比较吸引人的特质:
1.垂类模型的竞争性
自2022年11月ChatGPT发布以来,截止至2023年5月29日,国内至少有55个类GPT大模型已经推出或马上面世。互联网/云服务大厂、AI企业、传统行业公司、大数据公司以及算法公司几乎全部入局,形成了“百模大战”的战局。
而拓天大模型的主要优势是具有海量全域的实时数据能力,多模态大模型的联调能力,拓天在基座数据扩充、增量预训练、指令微调、插件增强 等方面都做了大量的研发工作,形成了面向政务的拓天G、面向媒体的拓天M和面向金融的拓天F三大专业模型。
可以看出,拓天大模型不是类似昆仑万维的天工、百度的文心一言、科大讯飞的星火这样To C的对话式机器人,而是面向政务、媒体、金融用户To B的大模型,是从“通用”迈入“垂类”的代表。
垂类模型是在通用大模型基础上训练而来的。垂类模型强调垂直领域的Know-How,需要增强该领域的知识数据以及针对特定任务的微调。行业不同,场景不同,指令微调的区别也极大。比如传媒更关注新闻生产的真实性、实时性及知识服务的内容安全、主流意识形态;金融领域更关注风控、可信以及研报生成的效果等。因此,垂类大模型对数据的权威性、质量、规模、多样性、及时性、安全性等要求提出了更高的挑战。
例如,要求领域知识具有权威性;在质量方面,要求能够提高模型精度与可解释性,帮助减少收敛到最优解的时间,即减少训练时长;在规模方面,要求保证质量的前提下,训练数据量越大,大模型的推理能力就越强;在多样性方面,要求训练数据集尽可能丰富、全面,能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据;在及时性方面,要求实时更新的数据尽快得到利用;在安全性方面,绝大部分机构是要本地化部署,以避免类似三星使用ChatGPT遭遇商业泄密事件的再次发生,同时还要考虑数据分级与合规。
在大模型“百花齐放”的背景下,民生证券在研报中指出,“单纯发布一个大模型的门槛没有市场想象中的那么高”,“有大模型不难,难的是有一个能持续迭代,性能不断提升的优质大模型”。
之前就写过,拓尔思的主要客户是ZF机构和8000多家企业,覆盖ZF、金融、能源、传媒等多个领域,均为行业头部机构,如中Y办公厅、gwy办公厅、F改委、GJ市场监管总局、知识产权局、海关总署、南方电网、GJ开发银行、中国银行、平安集团、人民R报、新H社、科技日报等。
公司在数字政府和公共服务领域的“产品+云服务+解决方案”已经覆盖80%的中央和GWY机构、60%的省级ZF和50%的地市ZF。公司以内容智能为核心的融媒体行业服务已经覆盖72%的中Y媒体、61%的省级媒体和40%的行业媒体机构用户。
而公司的重要产品,搜索性数据库“海贝”,已经服务于安全大数据、媒体大数据、政府大数据以及军队大数据等众多细分行业,拥有公A部、新H社、市场监督管理总局、海关总署、专利局、商标局等一系列客户。
也就是说拓尔思在客户端已经建立了非常深的护城河,清楚体制内运转规则的都应该非常清楚,当使用某家公司的产品非常之久时,是基本不可能再去更换的,更毋论这家公司还在不断更新打磨产品。
包括之前写拓尔思在网安领域的发展时,有股友就留言:
从公司调研纪要看,在维护客户和打造壁垒上非常轻松,处于绝对头部位置。
比如前段时间,拓尔思与传播大脑公司签署了关于共同打造领先媒体行业大模型及应用生态的战略合作协议。
这家公司是浙江省委宣传部指导筹建,由浙江日报报业集团、浙江广电集团、浙江出版集团、浙江省文投集团四大省属文化国企共同发起成立的“市场机制+国有控股+资本加持”的科技型产业公司,承担浙江省媒体技术统一支撑平台建设和媒体技术统一对外出口使命。
而拓尔思与浙江日报报业集团从2015年就开始深度技术合作,在会上双方一致认为:“基于前期富有成果的合作历史,一定会在AI时代共同打造领先的媒体行业大模型及应用生态,把合作水平提升到新的高度。”
3.优质数据的稀缺性
1)全
● 数据规模大:数据总量超1500亿。
● 采集范围全:覆盖1100+家数字报,40万+境内网站采集点,3000+APP客户端,涵盖微信公众号、微博账号、头条号、百家号、企鹅号、抖音号、快手号、视频号、梨视频等数十个第三方平台,采集渠道覆盖网站、微信、微博、头条、抖音、快手、小红书等主流信息发布与传播渠道。
● 数据类型多:采集类型包含文字、图片、音视频等多种模态数据。
● 数据积累期长:重点数据可回溯达10年以上。
2)准
● 信源权威可靠:重点数据主要采集主流官方机构可公开访问的数据,涵盖各级政府部门、主流媒体、出版社等,这些机构所有对外公开的信息均严格履行“三审三校”制度。所有采集源由人工整理配置,保证了数据源头的“纯净”和完整性。
● 内容价值观对齐:采用专家规范化标引+机器自动标引相结合的方式,对采集的内容资讯进行“精加工”,包括低噪、去重、数据结构化、数据归一化、内容标签化、属性知识化、安全合规核查等,实现数据与主流价值观对齐。
● 专业领域知识:配备了专家级的知识标引团队,对行业知识进行梳理。积累了30+领域知识库、31000+知识标引规则,保证数据标签的多维度和精准度,更适配高信源数据在各行业领域的应用场景。利用NLP技术实现内容智能化标引的核心功能,保证数据全部具备智能化知识属性,为行业应用夯实基础数据。
3)新
● 重点数据源分钟级更新数据,日均采集增长过亿条。
● 千亿规模的高质量数据可帮助垂类大模型实现中文特性增强,也可显著提升在媒体、政务、金融、舆情等专业领域方面的上下文和生成连续文本的能力。不仅可用于拓尔思自研的拓天大模型在媒体、政务、金融三个领域的基础知识注入,也可为其他广大的MaaS服务商提供训练数据集服务。
● 所有公开采集的数据经过加工处理后,被推送到三大数据资产平台(数家-媒体资讯、网察-舆情、数星-产业大脑),通过不同专业模型转化成不同领域的知识数据,实现数据从资源性到经营性的数据资产变现。
以拓尔思专注深耕的新闻单位、传媒出版业为例:
对于媒体领域的编辑、记者来说,一篇好文章是需要通过深入调研、持续求证才能获得的,而媒体自身的新闻数据库和历史资料库就是其中可求证的重要途径之一。实际工作中,由于一个主题的内容可能分布在不同系统,且以文字、语音、视频等不同的内容形式呈现,资料收集过程需要耗费大量时间。拓尔思可基于自身的网络媒体资讯数据能力、垂类大模型能力与媒体用户合作,将媒体的新闻数据库和历史资料录入大模型做预训练,基于高针对性交互,形成权威且高效的内容输出,打造供媒体内部使用的知识型搜索引擎,实现对媒体资料库的高维搜索,承担采访助手、辅助创作的角色。
如找出与习总书记谈读书相关的报道或者总书记讲话、文稿资料,并把相关句子段落整理到一个文档里,知识搜索引擎可自动整理相关内容给予完整呈现,为编辑人员提供充分的信息输入。
不久前拓尔思与人民R报社已经深入探索了共创人民专属大模型落地应用的有关问题。
再举个例子:
在传媒出版领域,拓尔思长期服务了人民出版社、人民教育出版社、知识产权出版社、化学工业出版社等23家出版单位,主要为传媒出版用户提供大数据资源管理、知识图谱等技术服务。
各家出版社主攻的内容细分赛道不一样,但都积累了很多各自领域的优质稀缺资产。大多数出版社不具备自己训练垂类大模型的技术与资源,若把这些信息数据交给MaaS服务商去训练,又担心这些数据被获取后,因数据泄露,削弱了出版公司的核心内容价值。
拓尔思正是出版业理想的合作伙伴,一是信赖,双方建立了长期友好的伙伴关系,项目成功,合作愉快;二是熟悉,拓尔思承建的大数据资源管理、知识图谱等平台正是出版业运行优质稀缺数据资产的主要系统,熟悉出版业IT环境与数据特点;三是安全,拓尔思有自主研发的拓天专业大模型,支持私有化部署,并且支持信创,做了中文特性加强、内容安全、价值观对齐等训练;四是互补,出版业拥有各自内容细分的独特领域数据,拓尔思拥有媒体资讯数据、产业数据、政策数据、企业数据、舆情数据、风控数据等全域另类数据,这两类数据按不同专业维度进行融合训练就可以打造出不同专业领域的垂直类知识助手;五是共赢,为保护双方各自利益,并发挥各自所长,双方共同打造的垂类知识助手以合作分成的方式进行联合共创运营,可面向不同行业的从业人员、高校师生、研究机构、产业链企业等提供专业的付费知识服务。
公司自己透露,目前正在和数家合作出版用户积极推进联合共创垂类知识大模型的事宜。
4.未来盈利的“钱景”性
其实能不能赚钱,前面三条就说清楚了。
不客气地讲,拓尔思是人工智能里少数能赚到真金白银的公司。这个不是我说的,看看公司财报和机构研报都能了解到。
这也正是为什么拓尔思作为AI里初代炒作的一批“老东西”,还能活跃到现在、还向新高冲击的主要原因之一,因为确实能赚钱。
特别是公司To B端的天然属性,虽然不可能像To C的爆款应用那样大赚一笔,但是讲究的细水长流、日进斗金。看看国内最务实的华为搞的盘古大模型就知道,也是走的To B这条路,除了社会贡献效应这方面的考虑,最根本的还是容易落地,能够和产业快速结合,好赚钱。
因为能赚钱,所以才能活的够久,可以预见未来一段时间,一定是拓尔思的业绩爆发期。
最后用一句话收尾——
我不知道人工智能未来的十倍股会是谁,我只知道拓尔思一定是熬到最后的那批。