算法工程师视角的AI相关的问题思考

25年的近期，AI泡沫破裂这个话题的热度又烧了起来。回过头来看，这张图似乎适合各种新技术的发展趋势，同时AI的发展史就是一路伴随兴起-破裂的节奏，但是每次破裂都能让下一次兴起的起点更高。此外，本轮兴起的标志性事件是22年11月30日的ChatGPT的发布，但是破裂的标志似乎并不容易形成共识。既然如此，享受当下大抵是一个正确的选择。

ai native v.s. agent

对于这两个概念的理解，大抵分为技术视角和非技术视角，以至于agent是什么，agent和workflow的区别在过去几个月都经历过较长时间的讨论。笔者认同的一个观点是一个事情如果没有ai，那么这个事情不成立，由此可以说这个事情是ai native的。

从笔者个人比较关心的产品类型上看，真正意义上比较棒的产品不多。分别如下:

LLM驱动的对话入口级应用。代表性样本包括ChatGPT，豆包等。其中并非以单纯LLM作为服务能力，而是整合了多模态，search等组件
AI Coding。代表性产品包括Cursor/Claude Code/Gemini2.5/3 Pro等
Nano Banana Pro。通过整合google search，gemini3 pro等的基础能力，使得nano banana pro的生图能力取得了显著的提升

nano banana pro是近期笔者基于做计算机视觉那几年的技术认知新增的一类产品，至于3d视频类，audio类等的产品，没有关心很多也不予置评。manus，lovable等可能有较好的arr，但是可能还需要时间来观察。

在《财税版DeepResearch的构建实践》中讨论了agent的架构设计，在技术上关于agent还是能够形成多数的共识。如果非说自己基于workflow的产品也是agent，那么祝您马到成功～

从技术实现角度，对于workflow，不同query享用同样的处理步骤；但是不同query是否存在不同的处理步骤？通过agent的灵活编排能力可实现。二者是不同的出发点，同时存在范式级的不同。从学术角度，agent是一等公民，但是从实际落地角度，workflow和agent既然是不同的范式，自然有其各自的优缺点。从笔者最近在做的agent的memory模块设计来看，做一个实际能用的agent产品也并不是很容易。但是agent充满了想象力，故事性很足。比如multi-agent，比如agent去train一个agent，比如直接结果交付而非决策信息交付等叙事逻辑。在技术上，融合了算法，工程和数据，需要良好的架构设计，总之这是一个无比性感且同时极具挑战性的方向。

个人内容创作

ai写的文章，从笔者之前能够一眼看出来到现在有时读到最后才发现署名是ai，也就几个月的时间而已，当然今天ai做的页面，还是能够一眼看出，但是距离看不出来的时刻，相信没有多久了。

笔者的《AI记忆系统的技术演进与设计哲学》中，前半部分是ai辅助完成的，后半部分是笔者自己码字的，区别其实很明显。

这样的话，个人内容创作的意义在哪里？没有ai写的快，更没有ai写的好。但是可以比ai更有温度。

这件事要回归到一个基本的问题：你为什么还在写文字？笔者自身写blog的过程，其实是一种辅助思考的过程，一种学习的过程，一种传达个人观点的过程。收益主体首先是写作者自身，其次才是他人。因此可能ai写的比笔者要好，但是没了目的本身，手段是没有任何意义的。同时自己去码字，可以回归到人之所以为人这个问题。人机协作中，要看谁的weight更大。

在今天打开电商应用，电商平台的宝贝图片，小红书的笔记，公众号的文章等可能已经充斥了大量的ai创作的内容。从供需视角来看，这种范式还是旧有模式，知识分为离线生产和在线消费。实际上ai作为生产力工具，生产和消费的距离被大大地缩短了，可以实现内容的个性化即时生产和消费。这种改变不仅会影响seo到geo的变化，同时在其他方面有影响，带来各种“生成式XXX”。

从内容创新到使用创新工具带来内容生产，从直接生产到间接生产，用户付费的是内容，并不为生产工具付费，这个基本面并没有发生改变。笔者有些许担忧，但是新的内容生产闭环并没有大规模跑通，利弊尚不清晰。电脑写出来的诗是不是并不如毛笔写的千古绝唱？

科技自媒体

本轮ai的潮流中，科技自媒体，KOL等对于信息的分发发挥着重要的作用。linkloud沙龙中提到科技自媒体的报价都是平常的3倍之多。在上一波ai潮流中，机器之心/量子位/新智元作为三位头部，在本轮中依然保持这个态势，不过本轮的竞争者显然更多，B站/公众号/X/小红书上活跃着太多的科技自媒体。

一会儿这个产品牛逼，一会儿那个模型火了。KOL的传播似乎对于产品的影响力扩展越来越重要，什么是流行，什么是火？如果某个火的KOL带了这个货，那么这个就是火的。冷启动有各种方式，但是最终行不行还是要回归到留存上。2025年的今天，不要arr，要留存。

供给&需求的天平倾斜

因为相信，所以看见。这句话在构建基于LLM能力的产品时的含金量还在上升。如果足够的相信LLM的能力，那么就会在构建过程中持续迭代，否则可能就浅尝辄止。写提示词并不是一件很容易的事情，除非要解决的问题本身就很简单，如果要解决的问题本身就很简单，不需要LLM大概率也能搞定。笔者在过去几个月的实践中，无数次被证明“不是模型不行，是我不行”的事实。

nano banana pro的推出进一步证明大模型生图能力的显著提升。

所以，无论是sonnet 4.5/deepseek-v3.2等，还是其他基础模型，笔者认为已经到了真正ready的状态，也就是说供给侧已经足够给力，锤子足够的好用。接下来的问题是如何更好地使用锤子解决真实的需求？

经济下行趋势下，新的突破口在哪里？哪里有真实的需求？这些问题的求解似乎也正在变得更加困难。生成白板图，写一个还算好笑的笑话，自动做一些小的app等，还不足以发挥锤子更大的严肃价值。医生问诊，财税咨询这些严肃场景下的需求是真实存在的，但是还需要一段时间的死磕。在追求PMF的同时，技术和需求的匹配也是一个重要的问题。否则容易陷入一种什么都可以做的想象中，或者做一些并不需要的app，写一些并没有什么意义的文字，画一些并不有趣的图等。

知识工作者的下一步

ai似乎做了并不是人类最开始想让他们做的事情，反而在创意，知识密集型方向做的越来越好～税务咨询师，码农，设计师等是否没有未来了？这个问题太复杂了，以至于只能给一个直觉性的问答，也许并不是。

ai是生产力工具，提升的是生产效率，包括速度和质量。从为结果付费的角度，只有速度只会加剧对效率的追求，也就是更卷而已。如果同时能够兼具质量，如果质量等同人类，那么会依然朝着卷的方向去。如果质量优于人类，只会更卷。

职能的边界会越来越模糊。产品能够从PRD到demo开发一条龙完成，算法也能够去开发前后端，胆战心惊的前端并不需要担忧gemini超牛的前端开发能力，因为你可以利用gemini做后端的工作了。这个时候真正的挑战是，能否从职能受限的视角跳出来，做一些不一样的事情。

低端的设计开发工作，确实已经通过ai coding类的工具很好的完成，对于这部分职能的需求是肉眼可见的减少。由于ai coding类工具的乘法效应，导致研发职能两端的两极分化会越来越严重。