由“词元”引发的对龙虾的思考
序言
近期发生了一系列关于人工智能的大讨论,大部分人是看不懂其中的逻辑关系的,正好借着token的正式中文译名和Sora的下线,来简单讨论一下。
什么是大语言模型
人工智能是个很大的范畴,在人工智能下面还有机器学习、神经网络等子集。基于神经网络目前衍生出了两个主要分支,一个是计算机视觉,另一个是自然语言处理。 在自然语言处理(NLP)领域有一个必须面对的问题就是分词,无论是把英文分成一个个独立的单词,还是把中文分成一个个词组,都是分词,只有分词之后才能将其转化为数字来处理。
这个过程和中文电报很相似,中文电报的编码方式并不是以独立的汉字为单元,而是以常用汉字和常用词组为单元,可以大大提高压缩率。这个概念在电报行业叫底码。
在搜索引擎领域也要对先对数据进行分词,从而统计词频建立索引,然后再与关键词进行匹配。
以上这些分词、底码的概念都可称为token,现在把它翻译为词元也没问题。总之它是终于有了正式名称了。
还有哪些重要概念没翻译?
目前在人工智能领域,token翻译完了以后,就还剩下transformer没被翻译了,因为不好翻译,它是和自注意力机制有关的概念,既有变形金刚的意思,又有变压器(转换器)的意思,暂时没有固定翻译。 transformer首次出现在论文《Attention is all you need》中,著名AI产品ChatGPT中的GPT的T就是transformer,全称叫Generative Pre-trained Transformer,即生成式预训练transformer。
生成式人工智能
人工智能在现在的主要应用可以分为两类,一类是预测,比如图像识别等;另一类是生成,可以以文生文、以文生图、以图生文甚至以图生图、以文生视频等,如果某个人工智能算法可以同时处理多种形式的生成,那就叫多模态了,意思是多个模态都能处理的意思。 如今以ChatGPT为代表的大语言模型都是生成式人工智能。
大语言模型的能力边界
大语言模型有两个含义,一是语言模型,也就是传统的自然语言处理中的核心概念;二是大,因为它非常大,比传统的语言模型大了很多个数量级,从而才能把大量知识压入其中。
既然它的本质是自然语言处理,那么它的核心任务就是在人类的自然语言与计算机语言之间建立一个沟通的桥梁,这也是NLP这个学科诞生之初的目标。所以,可以看到ChatGPT刚出现的时候,只能用来聊天和对话,都是对文字本身的处理。 由于训练它所用的预料中包含了大量真实世界的知识,所以他回答的水平很高,可以当成一个智能专家来解答人类用户的提问,这使它突然有了智能的感觉和科学价值。把它用来跨语言翻译正是它的设计目标之一,也就是在两种语言之间转换, 把它用来编写程序本质上也是在做翻译,因为这是从人类自然语言与机器程序语言之间的转换。
一个奇葩的应用打开了新的奇葩世界
让大语言模型出现本质性突破的做法就是把它用来自己控制自己,也就是既然它有了一定的智能度,那么让它根据用户的要求自己生成解决方案,并且给它授权运行自己写的代码,然后再根据代码运行结果自我修正,最后再把结果总结后返还给用户,这就是初代的智能体。 在2023和2024年两年时间里,市面上有很多第三方开发的类似智能体,功能非常不稳定,可谓群魔乱舞,直到后来OpenAI亲自下场做了这个功能以后,这个功能才被大多数用户接受。不仅可以让它编程控制自己,还可以搜索大量资料并自动分析和总结,也就是AI搜索。 总之,给大语言模型添加了程序接口以后,它的能力边界就大大拓展了,不仅可以聊天,还能去触及互联网世界。
大力出奇迹的重复循环推理带来了深度思考
大语言模型刚出现的时候,人们很快就发现它的回答有幻觉,这是由底层算法决定的,因为需要它产生随机数来决定输出的内容。但是如果给它提供一些参考模板,那么它的回答质量就会靠谱很多,于是RAG出现了,就是先用搜索引擎把相关内容作为参考资料提供给他, 让它在此基础上进行回答,这个RAG既可以本地资料库,也可以现场搜索出来的网络资料。于是有个人突然想到,能不能把AI生成的回答内容返还给他再回答一次呢?
答案是可以的,于是深度推理加思维链的方式出现了。也就是对问题优化了提示词以后,让AI反复自问自答的讨论同一个问题,反复修正以后往往能得到更好的结果。这个循环过程就是思维链,当然思维链也是需要微调和优化的,这个过程用到了强化学习的算法。
有了这个基础以后,AI的能力边界确实增强了很多,这就是目前AI的能力边界了。
将所有功能封装到本地运行的风险
以上说到的AI进化史都是在云端运行的,去年有人突然把它搬到了本地运行,可以让AI帮助用户操作本地电脑中的文件和软件,比如浏览网页、发送邮件等,而且还能用社交软件远程下达指令,这就是最近最被人关心的龙虾事件。 其实OpenClaw这个项目已经被改了好几次名字了,本来只是叫ClaudeBot,是基于claude的底层模型做的二次开发,算是个第三方套壳应用,因为发音和claude相同,被要求改名,改了好几次以后才定下来openclaw。claw是爪子的意思,也有钳子的意思, 不知道哪个人把它和龙虾的钳子联系到了一块,后来就都叫龙虾了。
为什么OpenClaw不是AI的最终形态?它的局限性在哪?
OpenClaw的本质是什么?
本质上OpenClaw只是借助大语言模型的语言转换能力和推理能力,把人类所需要完成的操作翻译成计算机语言,让程序完成了以后再反馈回结果。所以它的能力边界就是大语言模型的边界,大语言模型完成不了的事情它也做不成,而且还有很大的风险。 因为必须给它开放本地最高权限,而一旦出现幻觉,就有可能被本地系统彻底搞坏。
龙虾如何被大模型局限?
大模型虽然已经取得了很大的成功,但是它无法避免幻觉这个致命缺陷,一旦把幻觉积累到一定程度,那就是很大的风险。
其次,大模型也会遗忘。这个遗忘效应非常明显,无论怎么优化都解决不了。你只需要跟任何一个AI说让它写一个小说,然后经过几轮循环就会发现它已经忘记了很多基础设定了。 那么既然它连基础设定都记不住,如果你让他来开发和修改长达几千上万行的程序代码,那就更不可能完成了。
有很多人说不喜欢使用gpt而使用gemini或者claude的原因就是gpt的上下文太短,只有10几万token,而另外两家都已支持100万甚至200万token的上下文长度。 但是问题就在于此,无论支持多少万的上下文长度,ai压根记不住前面的内容,这就是个明显的能力边界。它处理不了太长的代码和文字,也就不可能完美处理好其他的工作需求。
最后,深度推理能力也有上限,并不是反复循环推理就能真的提高智力水平和思考深度。 自从gpt-o1推出以后,大家都认为ai的智力水平得到了本质的提升,而且推理时间越长,往往结果质量越高,于是o1-pro这个模型就以200美元一个月的高价被卖了出去。 但是,实际使用过就会发现,20美元一个月的gpt plus账号能深度推理最多十几分钟,仅过了几分钟以后就已经达到上限,此后再去推理更长时间都是原地打转,根本没有本质提高。 那么200美元的会员套餐的价值除了可以多用几次深度推理功能以外,并不会给用户带来十倍的价值。
结论
这也就是说,从幻觉、遗忘率和推理死循环三个角度,都可以把AI智能体OpenClaw的能力上限紧紧锁死在一个很低的智能水平上,根本不可能达到替代人类的程度,尤其不可能替代经验丰富的人类的程度。
更何况还有安全性风险。
国产和国际AI模型的区别
国产大语言模型除了便宜以外基本没有任何优点,便宜带来的代价首先是能力有限,且不说用openclaw这种本地部署的智能体带来的性能损耗,就算是在官方平台的聊天窗口里,让它完整处理一个稍微复杂的程序的成功率都不高。 原因就是国产大模型是先天残疾的,因为他们在训练模型的时候就已经根据相关法律法规阉割掉了很多数据和语料。大语言模型就像一个真人一样,一个思想成熟的成年人自然知道什么是真善美什么是假恶丑,他可以从不输出违法违规的内容, 但这并不代表他从来都不知道社会阴暗面。如果一个人从出生开始就从来没有见识过世界的黑暗面,那么他的人格和思想一定是不健全的,这就是国产大模型的先天缺陷。
其次是不同大模型有自己的特性,针对它们的提示词优化也需要量身定做,不仅是国产大模型,就算是gemini和gpt之间,往往同一套提示词得到的效果也完全不同。所以主流的提示词模板都是针对gpt进行设计的,直接把api接口换成其他模型,那么效果将大打折扣。
后记
现在已经出现了很多类openclaw产品,并且全都有极高的安全隐患,而且用过之后都会发现价值不大。所以正确的对待策略就是静观其变,尤其是openclaw的创始人现在已经正式入职openai了,如果这些功能真的好用的话, 相信在不久的将来就会被ChatGPT正式集成进去,这样更安全而且体验更好。