大数据是屎,大模型是宝。
有了大模型,从汇编到c再到rust的编程语言自举,会变得非常容易。
研究人员使用 PyTorch 和 Jax 进行算法验证和模型训练,而工程团队则使用 Candle 将训练好的模型转换为高性能、安全的 Rust 代码进行部署。
大语言模型LLM,本质是概率预测。它没有思想,只是通过海量数据计算出“下一个词最可能是什么”,它更像是一个超级强大的自动补全工具。
不要使用 AI 这个词,容易引人误会,而应该使用 大语言模型 这个词,这个词更能体现本质。
大数据已死
今年是2025年,我觉得目前的环境,传统意义上的大数据,说已经死了,一点都不为过。
第一,大数据不是大部分企业的刚需。
大数据行业刚开始的时候,先行者比如谷歌,有一个大饼,说我们以后数据会不断的随着业务规模和分析使用年限的增加而增长。
但现实而言,现在的企业里面,只要不涉及视频什么的,纯文本意义上的大数据,绝大部分企业,都没那么大的增长。而且,人们很少去看很久很久以前的数据集。
所以,大部分企业,其实从来都不需要大数据。
第二,大数据生态圈丢了很多领地。
大数据刚诞生的时候,存储是大数据里面很重要的一部分,GFS是谷歌三驾马车之一。但是现在呢?GFS这个存储层,今天早就被公有云更廉价更好用的对象存储替代了。对象存储就和大数据没半毛钱关系。
至于Bigtable作为三驾马车之一,现在看,最多算NoSQL。MapReduce勉强算大数据阵营,虽然它被更先进的技术取代了,比如分布式流批处理技术。
分布式流批处理为何被诟病:自动分片,自动聚合,就是个天坑。
所以以前大家说的谷歌三驾马车奠定大数据基础,今天回头看,没有剩下一驾马车。
同样的,YARN作为资源调度管理器,一开始就是在大数据背景下诞生的。但是今天呢?K8S本身和在K8S上的各种资源管理调度框架,和大数据有半毛钱的关系吗?
第三,这10多年硬件的发展,也改变了生态。
2008年的单机,和2025年的单机,性能完全不一样。现在,100多GB的内存,1TB的SSD,不是梦。网络的发展,也同理。
这就意味着原来可能需要上千台机器写磁盘的操作,今天只需要几十台机器就可以了。
所以传统意义上的大数据,为什么死得差不多了。无非,客户数据的规模和预测的画饼天差地别,原本属于大数据的领地不断丢失,而新技术尤其新硬件的发展,又使得单机性能规格各方面都比15年前领先了不知道几个量级。
所以,大数据自然是死了。
本文发表于 0001-01-01,最后修改于 0001-01-01。
本站永久域名「 jiavvc.top 」,也可搜索「 极客油画 」找到我。

