国内外巨头纷纷披露AI大模型,在AI领域3大核心是数据、算力、算法,该行认为,数据将成为如ChatGPT等AI大模型的核心竞争力,高质量的数据资源可让数据变成资产、变成核心生产力,AI模型的生产内容高度依赖源头数据。
ChatGPT的中文答案不准确主要在于目前中文语料学习库少,ChatGPT中文资料比重还不足千分之一,为0.09905%,而英文为92.64708%。
中文公开语料远不足英文,这也成为“中国版ChatGPT”的痛点。
支持中文在线短期翻倍的重要原因之一!
汉仪股份 301270 真正的中文数据卖水人!
早在2018年,汉仪股份就已经牵手阿里切入AI字体产品.
在对语言文字的计算过程中,语料的价值等级排名第一的是字:构建语言大模型,首先要为每个字赋予独特且足够多的向量参数(理解向量参数,可以颜色为例:字本身是没有颜色的,但它对应的客体在特定状态下都是有颜色的,所以需要以特定的向量数值去标记不同颜色的深浅程度)
汉仪股份有充分的字库支持(文字数据库)。国产GPT是必然的,中文语料的价值或许能获得重估。所有的词组都建立在字的基础上,字体的变化等,都是以后GPT4的趋势。