ChatGPT现在向您展示它的思维过程
OpenAI最新的生成式人工智能模型01已经到来。该公司周四宣布了01 -预览版和01 -mini,标志着与GPT命名方案的背离。这是有充分理由的:OpenAI表示,与其他模型不同,o1的设计是在返回结果之前花更多时间“思考”问题,它还会向您展示它是如何解决您的问题的。
在OpenAI的声明中,该公司表示,这种新的“思维过程”有助于其模型尝试新的策略,并反思自己的错误。据该公司称,o1在生物学、化学和物理学方面的表现“与博士生类似”。据报道,gpt - 40解决了国际数学奥林匹克竞赛中13%的问题,而2001解决了83%的问题。该公司还强调了这些模型如何更有效地进行编码和编程。这种“思考”意味着o1比以前的模型需要更长的时间做出反应。
OpenAI研究负责人Jerry Tworek告诉The Verge, o1是通过强化学习进行训练的。o1不是从训练集中寻找模式,而是通过“奖励和惩罚”来学习。OpenAI没有透露具体的方法,但表示这种新的思维模型比以前的模型更少产生幻觉——尽管它仍然会产生幻觉。
o1有两个版本:o1-preview和o1-mini,前者是该模型的全功能版本,后者是在类似框架上训练的较轻版本。据报道,该公司在开发初期就推出了这些机型,并表示这就是为什么它们不包括网络访问、文件和图像上传等标准GPT功能的原因。
我承认,我不是一个程序员,我也没有很多高级数学问题需要每天解决。这使得对OpenAI最新模型的优势和用例进行适当测试变得困难。作为一个非技术人员,我能欣赏的是01 -preview的思维过程:当你提示新模型时,它会在解决问题的过程中显示一条反馈信息。(如。“Thinking…”)完成后,它会像您期望的那样显示结果,但是上面有一个下拉菜单。
我使用了OpenAI建议的“热狗是三明治吗”的提示,它的答案前面有一条信息,上面写着“思考了4秒钟”。(顺便说一句,它的回答是三段“视情况而定”。)
无论如何,当我点击“思考4秒”下拉框时,我看到了模型的推理:对于这个提示,它将其过程分为两个部分。第一个是“分析问题”:“好的,让我看看。关于热狗是不是三明治的问题需要理解语义,考虑OpenAI的政策,关注准确性,避免个人观点或不被允许的内容。”第二篇是“检查定义”,上面写道:“我正在通过查看定义和文化观点来思考热狗是否是三明治。这显示了讨论的空间。”我想这就是回答这个问题所需要的全部思考。
我还请o1对另一个与食物有关的有争议的问题发表看法:墨西哥卷饼是三明治吗?这个模型有很多话要说。在思考了整整五秒钟后,人工智能回复了一个364个单词的回复。它的思考过程包括专注于定义,澄清定义(“我正在根据玉米饼、馅料和酱汁的主要成分来定义一个墨西哥卷饼。这有助于理解它是否符合三明治的定义。”),并检查观点(“我正在研究玉米饼和三明治的分类,强调它们在烹饪上的区别:玉米饼用玉米饼,三明治用面包;墨西哥卷饼的文化根源来自墨西哥美食,而三明治则受到欧洲的影响。”)
承认这是一个“有争议的话题”,它认为答案取决于烹饪传统,文化背景甚至法律解释的定义,“权衡”了“关键差异”(具体来说,墨西哥卷饼中没有面包,而三明治需要将食材放在面包片之间,而墨西哥卷饼需要将食材放在玉米饼上)。
根据“大多数烹饪专家和食物爱好者”的说法,综合考虑所有因素,我得出结论,墨西哥卷饼不是三明治——甚至引用了一个法官裁定墨西哥卷饼不是三明治的法律案例。(如果你感兴趣,这里是背景。)
接着,我问01它是否会把墨西哥卷饼归类为热狗。9秒后,它给出了一个明确的答案:“虽然玉米饼和热狗都是把馅料放在面包或类似面包的底部,但它们不一样,属于不同的烹饪类别。”这就是互联网。你可以停止争论了。
我们再试一个。我选择了第二个openai建议的提示:“生成一个6x6的非图形谜题让我解决,其中解决的网格看起来像字母q。”
正如您对要求更高的请求所期望的那样,01 -preview需要更长的时间来处理这个任务——准确地说是84秒。它提供了这样一个谜题,并附有如何解决它的说明。点击下拉菜单,在完成提示时需要36个单独的思考过程。在“制定谜题”中,机器人说:“我正在考虑创建一个6x6的非图形的过程,其中的解决方案显示字母q。我们需要设计网格,获得线索,并呈现谜题。”然后,它继续尝试找出如何将Q的“尾巴”合并到图像中。它决定必须调整布局的底部一行,以便添加尾巴,然后再继续弄清楚如何设置谜题。
浏览1-预览所采取的每个步骤绝对是有趣的。OpenAI显然已经训练模型在“思考”时使用“OK”、“嗯”和“我很好奇”这样的单词和短语,也许是为了让模型听起来更人性化。(这真的是我们想从人工智能中得到的吗?)但是,如果请求太简单,并且模型只需要几秒钟就可以解决,那么它就不会显示它的工作。
现在还为时尚早,所以很难知道01是否代表着对以前的人工智能模型的重大飞跃。我们需要看看这种新的“思维”是否真的改善了通常的怪癖,让你知道一段文本是否是由AI生成的。
这些新型号现已上市,但您必须是合格的用户才能试用。这意味着拥有ChatGPT Plus或ChatGPT Team订阅。如果您是ChatGPT Enterprise或ChatGPT Ed用户,这些模型应该会在下周出现。ChatGPT免费用户将在未来的某个时候获得01 -mini。
如果你有这些订阅,你可以在开始聊天时从模型下拉菜单中选择01 -preview和01 -mini。OpenAI表示,在发布时,o1预览版的每周流量限制为30条,o1迷你版为50条。如果您计划经常测试这些模型,请在第一天浪费所有消息之前记住这一点。
相关文章
最新评论