LLM与我缘起

“总结我与LLM发展故事,回顾,思考,再出发!

2025年6月20日

经历

ChatGPT问世

2022年11月30年,openai推出了Chatgpt,谁能知道掀起了巨大浪潮。彼时的我还在读研二,爱关注一些科技频道,第二天尝试在官网注册使用,谁知道还需要国外手机号,爱捣鼓的我另辟蹊径,最终如愿以偿的体验上了。
实验室大家围坐在我电脑面前,细细观察“它”。最早的gpt3.5其实在很多事情表现一般,尝试了帮我做leetcode题目,时常出错;问了一些基本知识性问题,也偶然出错。但是对我来说的震撼,真真切切接触到ai就在身边,触手可及。sam 也第一次进入我视野中。
在产品上,开始出现了层出不穷的套壳产品(只是让访问不到的人能便利使用),最早出现了很多国内搬运服务,开通国内会员就能使用GPT;随后出现了各种各样的app。果然资源的限制,也会带来新的盈利渠道,个人觉得也算是黄牛。
最早诞生的职业是prompt engineer,调试prompt变成了一项工作。同时网络上开始讨论ai是否到来,我好奇的研究其本质原理,那时看完论文之后,单纯觉得只是数据压缩后的概率模型。对我最大的帮助,是帮我改写和润色论文。
面对如此巨大的浪潮,我该参与其中;因此在学术想法暂时搁置了,决定去工业界看看ai的落地。

涌入浪潮

为了能参与其中,给自己定下目标是找大模型相关的实习。机缘巧合下去了阿里云,做大模型推理优化,这是完全新的领域,且是比较复杂的领域。面对多卡集群,进行推理优化,通信、子图优化都是十分底层。
在早期发展中,llm推理如此缓慢,甚至需要等待很久,甚至是经常卡顿;直到pagedattention出现,也是vllm工作重点,将推理速度提升了好几倍。我那时工作主要研究vllm的推理,现在vllm已经成为了主流的框架,是靠着一帮大学生的热情支撑,甚是佩服。但觉得在实习中,似乎总是做了些许搬运,没有接触核心的工作内容,这让我再思考是否是自己想要?在一份相对不忙,到点下班的工作中,似乎没有感受到自己发挥的价值,我想要抓住更多,生怕错过了这个时代。

全心投入

机缘巧合下,遇到了创业公司,是做大模型方向,非常初创,团队在开始组建。对我来说,我是一个热爱冒险与探索的人,一直有创业想法;创始人有着google的履历,更加吸引我。
公司规模,人员、产品 3, 技术 6人。
真正做大模型算法工作,你能体验到,自己从0设计产品,从0开始用代码实现,落地,上线;正在做ai native产品,一切都在自己。出现了很多aha moment!第一次产品上线,用户对于产品评价,让我觉得收获很多,真真切切是给他们提供了价值。觉得正是迈入如此的浪潮之中。
对待代码的严格要求,是需要一直贯彻的,每一个PR都要严格审核,是对自己和同事的负责。
  • 实现产品是一件事,让别人看到你们产品是另一件事,面对庞大的流量漏斗,最终进入人们视线需要经过层层筛选;有时候产品设计很差,但流量做的很大也是能击垮别人。
  • 没有技术壁垒的产品,最终会输在流量上;大家都会相互抄,最终拥有流量的产品一定会把你吞下。
  • 足够热情,好奇才能做好一些事情。在创业公司的好处是你能随时随地提出想法,同时得到足够的反馈,因此是一个很好的良性循环,面对大厂,很多方式没有反馈,最终底下员工不一定会有足够热情去做一些事情。
在公司里,技术得到飞一般的成长,同时培养了产品思维,那是一份我热爱热情的工作,也开始把我正式踏入到大模型行业中。很遗憾最终公司的业务没有走很远,由于一些内部变动和转型,让我不得不出去重新寻找机会,看看世界其他运转机制。

走向成熟

在选择下一份工作的时候,正好是openai推出推理模型,以往述说的模型规模的scaling law;现在正叙说的inference scaling law。随着推理时间增加,模型给出结果越精确。新的一波市场又回到推理上,所以我也想进去看看是怎么样市场。
现在回首2024-2025年的发展,在推理优化和算力市场发展非常迅速,国内外加速组建算力中心,出现了新的提供算力服务公司。推向巅峰还是DeepSeek发布,其核心逻辑是开源模型和闭源模型之间差距变小,越来越多本地化部署和推理需求诞生,能让机器运行起来。
在期间负责算力平台搭建和推理优化的性能,主要还是集中在 deepseek r1 的推理优化。
  • 做推理优化需要依赖 gpu 机器,而且大量机器成本非常之高
  • 算力服务的用户迁移成本太低,只要单价很低,用户就能随时迁移到其他平台,光做推理难以拉紧用户粘性

再度思考

技术发展

2023年的技术更迭: 图像领域技术发展遥遥领先,各种基座模型开源出来;国内一直追赶国外的发展。
  • 新事物不停发展:23 年的时候,国外开 mistral和 llama 独占鳌头;国内买源国产大模型基差距很大,qwen 发布的模型各种吐槽,讨论差距多大;从现在看国产模型已经在榜首,看到国人发展速度,不断有更多创新
  • 对人认识探索:llm 的发展和方法是在对人认识世界和总结的压缩,深度思考,强化学习在本质上抽象人认知世界过程,用形式化语言定义了这个问题。
初创公司:在初创公司中需要路线清晰,每个人知道要做什么,大目标是什么?随后需要有热情,愿意探索,去努力实现。
为什么伟大不能被计划?任何事物发展中,作为人类难以预测最终发生什么,只能短期对未来有一个判断;
23年到25年之间,从一个使用产品的学生,到开始用技术实现产品,设计产品;最终在思考底层人性变化,是一步步不断向前,提升自己认知。在其间发现自己是热爱的,喜欢了解人性,喜欢让用户使用自己产品,未来的我坚定要用大模型技术改善用户,让世界变得更好。