闲聊
同ChatGPT/New Bing交流多日,深感数据源头的重要性。特别是偏好专业的领域,没有好的数据源,和ChatGPT沟通的过程往往是它一本正经的瞎说,然后被纠错,紧接着道歉。可信数据提供商(往往兼具或外包数据训练的角色)的价值将提升。结合比较容易落地的领域:新闻采编、医疗数据、教育数据、科研数据。
新闻采编,可信数据在国字头里,某某日报和某某社。我上次写百度的时候提了,无奈之后就被狠狠砸了,换了小票带队后才新高。
医疗数据,价值更高的数据,也比较容易商业化。民企布局早,日前百度直接收购了另一家头部的医疗商业解决方案服务商GBI,文心大模型和医疗大数据结合想象力较大。
教育数据,教辅类版权集中在出版社。
科研数据,同方的知网、万方数据等。不要被学术GPTZero运动给忽悠了。学术界反对的是用ChatGPT来替写论文。用AI高效查询整理学术论文数据库可以大大解放科研生产力。
优质通用问答数据:知乎。
还有哪些,大家想到可以补充。
短期来看,在数据训练商海天酱油冲击三倍股的过程中,有望延展出新的AI+风格的炒作,本质就是下游应用层炒作。上次我写过,数据训练是个纯粹的人头生意,有报道为了训练ChatGPT,OpenAI雇佣了时薪不到2美元的肯尼亚外包劳工,他们所负责的工作就是对庞大的数据库手动进行数据标注。完全没有任何的行业壁垒,是个辛苦钱。但是人家做的早,卡点准确这波给了高溢价。或早或晚的,数据的价值早晚要体现出来。
长远来看,可信数据有望优化中文互联网优质的数据偏好,改变以往的单一的文字流量逻辑,纠偏劣币驱良币。对于构建科技强国意义重大。
趣图
上图展示了标准普尔500强企业产生百万美元收入所需雇员数目随时间的关系图。浅蓝色线条normalize了通胀率。可以看到06年互联网成熟后,发达国家的人均生产力效率未能明显提升。移动互联网的那一波浪潮并没有提高人均生产力(iPhone 3G发布于2008)。近些年的新能源浪潮也是能源置换,关注可持续发展,而非生产力。目前这波AI浪潮理论上会对生产力产生巨大的推动作用。
----
有缘得间的新老朋友们,因为私信广告较多,我也基本没有能力回复私信的各种代码问题,希望没有冒犯到各位。也只能在闲暇时,提供一些前瞻资讯和见仁见智的市场观察。所以大家有问题建议直接文章下面留言交流,也可以获得其他老师的指正,彼此受益。