2022年,前谷歌大脑华人科学家Jason Wei在一篇思维链的开山之作中首次提出,CoT可以增强LLM的推理能力。
但即便有了思维链,LLM有时也会在非常简单的问题上犯错。
【资料图】
最近,来自普林斯顿大学和Google DeepMind研究人员提出了一种全新的语言模型推理框架——「思维树」(ToT)。
ToT将当前流行的「思维链」方法泛化到引导语言模型,并通过探索文本(思维)的连贯单元来解决问题的中间步骤。
论文地址:https://arxiv.org/abs/2305.10601
项目地址:https://github.com/kyegomez/tree-of-thoughts
简单来说,「思维树」可以让LLM:
· 自己给出多条不同的推理路径
· 分别进行评估后,决定下一步的行动方案
· 在必要时向前或向后追溯,以便实现进行全局的决策
论文实验结果显示,ToT显著提高了LLM在三个新任务(24点游戏,创意写作,迷你填字游戏)中的问题解决能力。
比如,在24点游戏中,GPT-4只解决了4%的任务,但ToT方法的成功率达到了74%。
让LLM「反复思考」用于生成文本的大语言模型GPT、PaLM,现已经证明能够执行各种广泛的任务。
所有这些模型取得进步的基础仍是最初用于生成文本的「自回归机制」,以从左到右的方式一个接一个地进行token级的决策。
那么,这样一个简单的机制能否足以建立一个通向「解决通用问题的语言模型」?如果不是,哪些问题会挑战当前的范式,真正的替代机制应该是什么?
恰恰关于「人类认知」的文献为这个问题提供了一些线索。
「双重过程」模型的研究表明,人类有两种决策模式:快速、自动、无意识模式——「系统1」和缓慢、深思熟虑、有意识模式——「系统2」。
语言模型简单关联token级选择可以让人联想到「系统1」,因此这种能力可能会从「系统2」规划过程中增强。
「系统1」可以让LLM保持和探索当前选择的多种替代方案,而不仅仅是选择一个,而「系统2」评估其当前状态,并积极地预见、回溯以做出更全局的决策。
为了设计这样一个规划过程,研究者便追溯到人工智能和认知科学的起源,从科学家Newell、Shaw和Simon在20世纪50年代开始探索的规划过程中汲取灵感。
Newell及其同事将问题解决描述为「通过组合问题空间进行搜索」,表示为一棵树。
一个真正的问题解决过程包括重复使用现有信息来探索,反过来,这将发现更多的信息,直到最终找到解决方法。
这个观点突出了现有使用LLM解决通用问题方法的2个主要缺点:
1. 局部来看,LLM没有探索思维过程中的不同延续——树的分支。
2. 总的来看,LLM不包含任何类型的计划、前瞻或回溯,来帮助评估这些不同的选择。
为了解决这些问题,研究者提出了用语言模型解决通用问题的思维树框架(ToT),让LLM可以探索多种思维推理路径。
ToT四步法当前,现有的方法,如IO、CoT、CoT-SC,通过采样连续的语言序列进行问题解决。
而ToT主动维护了一个「思维树」。每个矩形框代表一个思维,并且每个思维都是一个连贯的语言序列,作为解决问题的中间步骤。
ToT将任何问题定义为在树上进行搜索,其中每个节点都是一个状态,表示到目前为止输入和思维序列的部分解。
ToT执行一个具体任务时需要回答4个问题:
如何将中间过程分解为思维步骤;如何从每个状态生成潜在的想法;如何启发性地评估状态;使用什么搜索算法。
1. 思维分解
CoT在没有明确分解的情况下连贯抽样思维,而ToT利用问题的属性来设计和分解中间的思维步骤。
根据不同的问题,一个想法可以是几个单词(填字游戏) ,一条方程式(24点) ,或者一整段写作计划(创意写作)。
一般来说,一个想法应该足够「小」,以便LLM能够产生有意义、多样化的样本。比如,生成一本完整的书通常太「大」而无法连贯 。
但一个想法也应该「大」,足以让LLM能够评估其解决问题的前景。例如,生成一个token通常太「小」而无法评估。
2.思维生成器
给定树状态,通过2种策略来为下一个思维步骤生成k个候选者。
(a)从一个CoT提示采样思维:
在思维空间丰富(比如每个想法都是一个段落),并且导致多样性时,效果更好。
(b)使用「proposal prompt」按顺序提出想法:
。这在思维空间受限制(比如每个思维只是一个词或一行)时效果更好,因此在同一上下文中提出不同的想法可以避免重复。
3.状态求值器
给定不同状态的前沿,状态评估器评估它们解决问题的进展,作为搜索算法的启发式算法,以确定哪些状态需要继续探索,以及以何种顺序探索。
虽然启发式算法是解决搜索问题的标准方法,但它们通常是编程的(DeepBlue)或学习的(AlphaGo)。这里,研究者提出了第三种选择,通过LLM有意识地推理状态。
在适用的情况下,这种深思熟虑的启发式方法可以比程序规则更灵活,比学习模型更有效率。与思维生成器,研究人员也考虑2种策略来独立或一起评估状态:对每个状态独立赋值;跨状态投票。
4.搜索算法
最后,在ToT框架中,人们可以根据树的结构,即插即用不同的搜索算法。
研究人员在此探索了2个相对简单的搜索算法:
算法1——广度优先搜索(BFS),每一步维护一组b最有希望的状态。
算法2——深度优先搜索(DFS),首先探索最有希望的状态,直到达到最终的输出,或者状态评估器认为不可能从当前的为阈值解决问题。在这两种情况下,DFS都会回溯到s的父状态以继续探索。
由上,LLM通过自我评估和有意识的决策,来实现启发式搜索的方法是新颖的。
实验为此,团队提出了三个任务用于测试——即使是最先进的语言模型GPT-4,在标准的IO提示或思维链(CoT)提示下,都是非常富有挑战的。
24点(Game of 24)24点是一个数学推理游戏,目标是使用4个数字和基本算术运算(+-*/)来得到24。
例如,给定输入「4 9 10 13」,答案的输出可能是「(10-4)*(13-9)=24」。
ToT设置
团队将模型的思维过程分解为3个步骤,每个步骤都是一个中间方程。
如图2(a)所示,在每个节点上,提取「左边」的数字并提示LLM生成可能的下一步。(每一步给出的「提议提示」都相同)
其中,团队在ToT中进行宽度优先搜索(BFS),并在每一步都保留最好的b=5个候选项。
如图2(b)所示,提示LLM评估每个思维候选项是「肯定/可能/不可能」达到24。基于「过大/过小」的常识消除不可能的部分解决方案,保留剩下的「可能」项。
结果
如表2所示,IO,CoT和CoT-SC提示方法在任务上的表现不佳,成功率仅为7.3%,4.0%和9.0%。相比之下,ToT在广度为b=1时已经达到了45%的成功率,而在b=5时达到了74%。
团队还考虑了IO/CoT的预测设置,通过使用最佳的k个样本(1≤k≤100)来计算成功率,并在图3(a)中绘出5个成功率。
不出所料,CoT比IO扩展得更好,最佳的100个CoT样本达到了49%的成功率,但仍然比在ToT中探索更多节点(b>1)要差。
错误分析
图3(b)分析了CoT和ToT样本在哪一步失败了任务,即思维(在CoT中)或所有b个思维(在ToT中)都是无效的或无法达到24。
值得注意的是,大约60%的CoT样本在第一步就已经失败了,或者说,是前三个词(例如「4+9」)。
创意写作接下来,团队设计了一个创意写作任务。
其中,输入是四个随机句子,输出应该是一个连贯的段落,每段都以四个输入句子分别结束。这样的任务开放且富有探索性,挑战创造性思维以及高级规划。
值得注意的是,团队还在每个任务的随机IO样本上使用迭代-优化(k≤5)方法,其中LLM基于输入限制和最后生成的段落来判断段落是否已经「完全连贯」,如果不是,就生成一个优化后的。
ToT设置
团队构建了一个深度为2(只有1个中间思维步骤)的ToT。
LLM首先生成k=5的计划并投票选择最佳的一个(图4),然后根据最佳计划生成k=5的段落,然后投票选择最佳的一个。
一个简单的zero-shot投票提示(「分析以下选择,然后得出哪个最有可能实现指令」)被用来在两个步骤中抽取5票。
结果
图5(a)显示了100个任务中的GPT-4平均分数,其中ToT(7.56)被认为比IO(6.19)和CoT(6.93)平均生成更连贯的段落。
虽然这样的自动评测可能会有噪音,但图5(b)通过显示人类在100个段落对中有41个更喜欢ToT而只有21个更喜欢CoT(其他38对被认为「同样连贯」)来确认这一发现。
最后,迭代优化在这个自然语言任务上更有效——将IO连贯性分数从6.19提高到7.67,将ToT连贯性分数从7.56提高到7.91。
团队认为它可以被看作是在ToT框架下生成思维的第三种方法,新的思维可以通过优化旧的思维而产生,而不是i.i.d.或顺序生成。
迷你填字游戏在24点游戏和创意写作中,ToT相对较浅——最多需要3个思维步骤就能完成输出。
最后,团队决定通过5×5的迷你填字游戏,来设置一个更难的问题。
同样,目标不仅仅是解决任务,而是研究LLM作为一个通用问题解决者的极限。通过窥视自己的思维,以有目的性的推理作为启发,来指导自己的探索。
ToT设置
团队利用深度优先搜索保持探索最有可能成功的后续单词线索,直到状态不再有希望,然后回溯到父状态以探索替代的思维。
为了使搜索可行,后续的思维被限制不改变任何已填写的单词或字母,这样ToT最多有10个中间步骤。
对于思维生成,团队在每个状态下将所有现有的思维(例如,「h2.motor; h1.tasks」对于图6(a)中的状态)转换为剩余线索的字母限制(例如,「v1.To heap: tm___;...」),从而得到下一个单词填写位置和内容的候选。
重要的是,团队也提示LLM给出不同思维的置信度,并在提案中汇总这些以获得下一个要探索的思维的排序列表(图6(a))。
对于状态评估,团队类似地将每个状态转换为剩余线索的字母限制,然后评估每个线索是否可能在给定限制下填写。
如果任何剩余的线索被认为是「不可能」的(例如,「v1. To heap: tm_s_」),那么该状态的子树的探索就被剪枝,并且DFS回溯到其父节点来探索下一个可能的候选。
结果
如表3所示,IO和CoT的提示方法在单词级成功率上表现不佳,低于16%,而ToT显著改善了所有指标,实现了60%的单词级成功率,并解决了20个游戏中的4个。
鉴于IO和CoT缺乏尝试不同线索、改变决策或回溯的机制,这种改善并不令人惊讶。
局限性与结论ToT是一个让LLM可以更自主、更智能地做决策和解决问题的框架。
它提高了模型决策的可解释性以及与人类对齐的机会,因为ToT所生成的表征表形式是可读的、高级的语言推理,而不是隐式的、低级的token值。
对于那些GPT-4已经十分擅长的任务来说,ToT可能并是不必要的。
此外,像ToT这样的搜索方法需要更多的资源(如GPT-4 API成本)来提高任务性能,但ToT的模块化灵活性让用户可以自定义这种性能-成本平衡。
不过,随着LLM被用于更多真实世界的决策应用(如编程、数据分析、机器人技术等),ToT可以为研究那些即将出现的更为复杂的任务,提供新的机会。
作者介绍
Shunyu Yao(姚顺雨)
论文一作Shunyu Yao是普林斯顿大学的四年级博士生,此前毕业于清华大学的姚班。
他的研究方向是在语言智能体与世界之间建立互动,例如玩文字游戏(CALM),网上购物(WebShop),浏览维基百科进行推理(ReAct),或者,基于同样的想法,用任何工具来完成任何任务。
在生活中,他喜欢阅读、篮球、台球、旅行和说唱。
Dian Yu
Dian Yu是Google DeepMind的一名研究科学家。此前,他在加州大学戴维斯分校获得了博士学位,并在纽约大学获得了学士学位,双主修计算机科学和金融(还有一点表演)。
他的研究兴趣是语言的属性表征,以及多语言和多模态的理解,主要专注于对话研究(包括开放领域和任务导向)。
Yuan Cao
Yuan Cao也是Google DeepMind的一名研究科学家。此前,他在上海交通大学获得了学士和硕士学位,并在约翰斯·霍普金斯大学获得了博士学位。还曾担任过百度的首席架构师。
Jeffrey Zhao
Jeffrey Zhao是Google DeepMind的软件工程师。此前,他在卡内基梅隆大学获得了学士和硕士学位。
标签:
上一篇 : dz练级天赋加点顺序_dz天赋加点-每日快讯
下一篇 : 最后一页
2022年,前谷歌大脑华人科学家JasonWei在一篇思维链的开山之作中首次提出,CoT可以增强LLM的推理能力。但即
05-22 15:16:04
1、希望下面的能给你帮助盗贼想升级就是先用战斗系没错看我告诉你怎么从10级开始加吧10级强化邪恶攻击2 2
05-22 14:45:29
中工网讯5月20日,在海陵劳模工匠主题日暨“劳模工匠林”揭牌仪式上,劳模工匠代表栽种的百棵樱花树风光...
05-22 14:10:20
原标题:海南周刊|北宋宰相后人落籍海南:青草芬芳文教风流文 本刊特约撰稿王学军张雨编者按海南王氏迁琼
05-22 13:21:55
➤➤天津蓟州区新生儿出生一件事办理机构地址+电话助产机构名称:天津市蓟州区人民医院地址:天津市蓟州区
05-22 12:54:42
格雷格奥登介绍了更多的格雷格奥登,1988年1月22日出生于美国纽约州布法罗。他是美国前职业篮球运动员,是
05-22 12:07:54
海口椰城男科医院,为医健服务中心在海南省的定点补贴单位,原价三百多的男性功能全套检查,补贴后19元(共1
05-22 11:31:43
有人说“转基因食品一代人吃是看不出问题的,要吃三代甚至更多代看看”。任何食物包括转基因食品中含有...
05-22 11:02:58
南昌市东湖区扬农管理处紧扣“两个健康”即非公有制经济健康发展和非公有制经济人士健康成长主题,围绕...
05-22 10:26:53
安徽长丰这两所新建学校规划图来了!
05-22 09:52:49
网友纷纷喊话:还我“东北宋仲基”!
05-22 09:33:14
豆类宏观情绪扰动美豆继续下挫周五CBOT大豆期货市场收盘下跌,其中基准期约收低2 10%,因为联邦政府债务上
05-22 08:47:42
身体趴在球体上,如图所示移动。保持背部挺直或自然弯曲,双腿伸直。自然呼吸,控制球体上的腹肌,保持这个
05-22 08:00:17
在北京时间21日晚结束的2023年国际篮联三人篮球女子系列赛阿斯塔拉站上,中国三人女篮以21:15战胜埃及队获
05-22 07:15:45
导语:“小满两忌,一年顺利”,今日小满,“两忌”指的是什么?今天下午3点08分59秒,太阳位置刚好到达...
05-22 05:58:36
本文内容是由小编为大家搜集关于车贷利率,以及车贷利率是年利率还是月利率的资料,整理后发布的内容,让我
05-22 04:16:26
1、虽然也有很多人习惯性地把这些厂商称呼为OEM,但实际上它应该被称呼为ODM,因为它们还有其它重要的区别
05-22 00:40:59
苹果发布了iOS16 5更新,声称修复了超过14个漏洞。但该更新很快被用户发现存在一个烦人的BUG,即Lightning
05-21 22:08:44
入夏当然要穿亮色或暖色系啦,今天就来为大家分享橙色调的5套穿搭灵感,穿出元气活力感吧。普通西装换成暖
05-21 21:08:10
1、《民办高校发展与应用型人才培养》主要介绍了:民办高校既是教育机构,也是经济实体;要保持其健康发展
05-21 19:50:44
辞职报生育津贴还能领取吗?要在什么时候办理?申请生育津贴后离职,劳动者能正常领取,只要符合生育保险相
05-21 18:49:37
1、家有儿女小雪不吃猪肉豆芽是第一部第23集第23集第一名的诱惑刘梅答应刘星只要他拿个第一名,就奖励他一
05-21 17:44:25
5月21日,在万众瞩目中,总奖金20万元的2023年环四川穿越大凉山会理山地自行车公开赛,在凉山彝族自治州会
05-21 17:01:27
1、收集健康、饱满的山楂籽,将其用水清洗干净,然后放在清水中浸泡,每两天换一次水,十天之后将山楂籽去
05-21 16:03:53
原标题:爱喝茶的人不能错过!来看一片茶叶的文化“旅程”今天(21日)是第四个“国际茶日”,文化和旅...
05-21 15:02:07
1、出空单也叫做空,意味着使股票跌的操作。2、做空,是一个投资术语,是金融资产的一种操作模式。3、与做
05-21 13:56:03
世界级考古发现!南海发现两处古代沉船文物超十万件
05-21 12:30:50
1、首先打开手机支付宝,在首页点击更多进入;2、然后在申请中心界面点击彩票进入;3、最后在详情界面,根
05-21 11:18:44
最近,在筼筜湖边,一处特别的温泉口袋公园吸引了不少市民前去体验。跟着记者,我们一起去感受一下在公园里
05-21 10:23:20
近日,第56颗北斗导航卫星成功发射,这是继2020年完成北斗三号全球星座部署后,北斗卫星家族时隔千日再...
05-21 09:16:55
城固县气象台2023年05月21日04时21分发布暴雨黄色预警信号:预计下述地区未来6小时内降雨量将达50毫米以上
05-21 08:28:06
1 每天坚持爬楼梯;2 每周散步三次,每次半小时;3 随着舞曲跳跃;4 每周骑车3-4次;5 每天广播体操20分钟
05-21 07:27:08
职业技能评价认定工作计划第1篇审报材料审核通过、缴费成功后方视为报名通过。报名材料缺项、未通过审核、
05-21 05:59:10
1、不行的,靠自己有用,不过要靠自己每个人情况都不一样(感情经历、学历、思维模式、家庭环境、生活环境
05-21 03:58:57
齐鲁网·闪电新闻5月20日讯 山东电视体育频道消息,2023年山东省优秀运动员退役仪式将于5月22日在临沂举办
05-21 00:12:32
新野县气象台2023年5月20日21时5分发布大风蓝色预警信号:预计未来24小时内,新野县所辖乡镇和街道将受大风
05-20 22:00:29
今天,由于新款即将发布,vivoX90在520这一天开启降价促销,8GB+256GB到手3799元,比首发价便宜200元,12GB
05-20 21:04:57
中国网财经中国网财经5月20日讯今日,“2023清华五道口全球金融论坛”在京举行。中国农业银行首席经济学...
05-20 19:47:40
App5月20日消息,复旦、同济等上海多所高校陆续恢复对公众开放。目前,复旦大学的4个校区均可通过扫码登记
05-20 19:08:22
Sk机油是韩国润滑油的知名品牌。它是sk集团的分支机构之一,也是最早进入中国的韩国企业之一。它在中国发展
05-20 17:45:52
闲鱼优品是真是假?闲鱼优品的货品主要来自品牌商的“官方闲置”和样品旧款,以及回收商、渠道商拿到的品...
05-20 16:46:40
直播吧5月20日讯前国米后卫马特拉齐今天接受IlMattino采访,除了谈到国米的欧冠决赛,他还谈到了斯帕莱蒂的
05-20 15:44:51
1、广州的区号:020广州,简称穗,别称羊城、花城。2、古称任嚣城、楚庭、番禺,广东省省会,位于广东省中
05-20 14:57:16
说到彩票,大多数人都不陌生,一部分人认为它是一种白日做梦的游戏,也有一部分人认为它是寄托梦想的地方。
05-20 13:43:03
爸爸扮奥特曼送惊喜3岁娃被吓懵妈妈:嘴都吓白了
05-20 12:25:09
北京时间5月20日凌晨2:45,本次2022-2023赛季意甲联赛第36轮比赛上演了一场十分精彩的焦点之战。萨索洛队
05-20 11:45:07
今天(5月20日),我国首座深远海浮式风电平台“海油观澜号”成功并入文昌油田群电网,正式为海上油气田...
05-20 10:54:19
1、柳州市社保局官网显示的地址:柳州市高新一路北一巷7号。2、泛员网,首家第三方全国人力资源共享服务中
05-20 09:42:22
银行存款利率下调,保险产品收益率也将迎调整,摆在不少居民眼前的问题是——要不要将存款拿出来买保险...
05-20 09:03:08
5月19日,华安媒体互联网混合A最新单位净值为3 105元,累计净值为3 105元,较前一交易日下跌0 29%。历史数
05-20 08:14:37
2022年,前谷歌大脑华人科学家JasonWei在一篇思维链的开山之作中首次提出,CoT可以增强LLM的推理能力。但即
2023-05-22
1、希望下面的能给你帮助盗贼想升级就是先用战斗系没错看我告诉你怎么从10级开始加吧10级强化邪恶攻击2 2
2023-05-22
中工网讯5月20日,在海陵劳模工匠主题日暨“劳模工匠林”揭牌仪式上,劳模工匠代表栽种的百棵樱花树风光...
2023-05-22
原标题:海南周刊|北宋宰相后人落籍海南:青草芬芳文教风流文 本刊特约撰稿王学军张雨编者按海南王氏迁琼
2023-05-22
➤➤天津蓟州区新生儿出生一件事办理机构地址+电话助产机构名称:天津市蓟州区人民医院地址:天津市蓟州区
2023-05-22
8月28日,记者了解到,为保障市场物价平稳运行,根据近期疫情防控形势,沈阳市市场监管局密切关注市场价...
近日,从海带中制造环保纱线的材料创新者AlgiKnit宣布获得1300万美元(8735 6万元)的A轮融资,以通过加...
概念特点1、 定义:纤维是天然或人工合成的细丝状物质,纺织纤维则是指用来纺织布的纤维。2、 纺织纤...
中新网西宁11月21日电 题:青海水润高原:从“大动脉”到“毛细血管”的精准管理 作者 谈林明...
中新网西宁11月21日电 (记者 张添福)青海省卫生健康委员会21日消息,该省第3例本土确诊病例经过20...
Copyright © 2015-2022 时代纤维网版权所有 备案号: 联系邮箱: 514 676 113@qq.com