438. 思维链路(1/2)
准确地说,eeeek并不是第一次发布模型了。
在孟繁岐的视角来看,eeeek所公布的技术,一直以来都有不错的创意。
loseai与也是有一些技术交流的,只不过两者合作并不紧密,孟繁岐也没有太将这个做量化的跨界公司放在眼中。
他认为,所做的稀疏没有高壁垒,仍旧受制于英伟达显卡。
换言之,孟繁岐虽然惊讶与eeeek-v3竟然弯道超车,提前完成了他在两个技术方向上的设想,但这件事情总体来说还是在意料之中的。
孟繁岐早就想过可能会有其他公司抢先做到,也做好了心理准备
对比之下,eeeek-1系列模型,则完全超乎孟繁岐的意料。
尤其是1-ero这一技术,可以说是完全在孟繁岐的理解之外。
在发展到第四代之后,让大模型对问题进行分析推理成为了提升模型性能的一个重要技术。
早期,有学者发现了一个非常微妙的事情,在与大模型进行交流对话的时候,如果你对它说,“请一步一步好好思索分析这个问题”,仅仅只是添加了一句话,却起到了明显的作用。
经过学者们的测试,完全相同的模型,加上这句话作为提示词后,在各个数据集和指标上的验证结果都有了显著的提高。
在有些地方上,这么一句话带来的显著的效果甚至超过将模型扩大几倍规模。
这个发现让人们开始关注大模型的推理能力。
由于大模型生成每一个字的时候,都会将此前的所有文字考虑进去,这就导致了逐步分析问题的生成方式,其输出的稳定性和逻辑性,都要比直接生成一个结论要强不少。
在直接将-4级别的模型训练得更高这件事情碰壁之后,让模型形成思维链便成了一大研究重心。
而今真正将o(chain of thts)思维链落实到大模型并公开使用的,只有4-o1。
推理系列的模型,会先针对提问进行一长串的分析和思考,逐一考虑各种可能性,最后才会开始尝试回答问题。
这种回答方式虽然慢了一些,但质量显然有了显著提升。
o1系列的思考过程是不公开的,或者说,只会展现给用户一小部分摘要。
这么做的原因,是为了增加其他公司的模仿成本。
最先进的大模型是如何思考问题的,这个思索推理的过程是非常珍贵的信息。
因为此前,让大模型具有推理分析能力需要大量高质量的o思维链数据。
许多难题应该如何逐步推理,不仅要准备每一步的分析,还要交叉确认这些内容步骤正确。这比起大模型早期时代在互联网上到处摘抄文字,获取的难度和成本不可同日而语。
饶是孟繁岐坐拥最大的相关知识交互社区,想要梳理出高质量的思维链文本也并不容易。
通过大量类似的高质量数据监督大模型学习推理的过程,这才有了第一个强智能的推理模型o1。
在这样的领先优势之下,自然不可能详细开放o1的推理过程给用户。
若是如此,其他公司获取思维链路数据以蒸馏自己模型的成本就会远低于自己,孟繁岐不可能做这样的傻事。
坐拥这样的先发优势,孟繁岐又可以借助用户的反馈,来获取和调整新的思维链路数据。
因此在他看来,自己在大模型思维推理这方面的优势是巨大的,拥有坚不可摧牢不可破的壁垒。
然而,eeeek-1-zero狠狠地击碎了他自说自话的梦想。
“1-zero可以直接在eeeek-3的版本上做强化学习,不需要大量高质量监督数据就能够探索出比较好的思维推理,增强了模型回复的长度、逻辑性和准确度。唯一的问题是这种方式获取的模型思维对于人类来说可读性不强。”孟繁岐继续阅读着1-zero和1的相关报告。
与各种自媒体所宣传的不需要思维链数据不同,1系列显然还是需要这些高质量数据的,这让孟繁岐内心稍稍安宁了一些,只要这部分数据还有价值,他总不至于沦落到过去一年多的投入变为一场空。
真正的1还是需要优质思维链路数据来冷启动的,虽然从结果上看,1并没有比1-ero准确很多,不过它的思维逻辑和方式人类更加容易读懂了。
可以说,比起现在人人都抢着试用的1,1-ero版本给孟繁岐的震撼要大很多。
1-ero成为了一种合成高质量思维链数据的方式,比起孟繁岐刀耕火种的标注和确认,大模型合成的规模和效率显然存在千万倍的潜力。
“有1-ero获取大规模的链路数据,针对思维链的每一个步骤再去分析计算,也就不大必要了。”孟繁岐终于理解了,为什么eeeek的成本低到令人发指。
孟繁岐一直以为,eeeek对外开放的调用价格这么低,只是因为母公司不差钱,没准备用这个
本章未完,请翻下一页继续阅读.........