您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > AI人工智能 > 人工智能智商评测方法报告
人工智能系统智商评测方法报告撰写人:刘锋计算机博士《互联网进化论》作者0.背景伴随着2016年AlphaGo战胜人类围棋冠军李世石,世界范围人工智能迅猛发展,人工智能威胁论也因此广泛传播,同时智能产品蓬勃发展,不断涌现。人工智能究竟能不能超越人类?这些智能产品的智能究竟达到什么水平?回答这些问题都需要用定量的方法测试智能系统的发展水平。从1950年图灵测试提出以来,科学家已经为人工智能发展的评价体系做了很多工作。1950年,图灵提出了著名的图灵实验,采用提问和人类裁判的方法,判断一台计算机是否具有同人相当的智力。作为最被广泛应用的人工智能测试方法,但图灵测试并不检验Ai的智能发展水平,只是判断智能系统能否与人类智能相同,而且受人为因素干扰太多,严重依赖于裁判者和被测试者的主观判断,因此往往有人在没有得到严格验证的情况下宣称其程序通过图灵测试,2015年3月24日“美国科学院院刊(PNAS)发表一篇论文,提出一种新的图灵测试方法“VisualTuringtest”,这种测试方法用来对计算机的图像认知能力进行更为深入的评估。2014年美国佐治亚技术学院的瑞德教授(MarkO.Riedl)认为,智能的本质在于创造力。他设计了一个叫做Lovelace2.0版本的测试。Lovelace2.0的测试范围包括:创作有虚拟故事的小说、诗歌创作、油画和音乐等。在解决人工智能定量测试的问题上,包括图灵测试在内的各种方案还存在两个问题:第一,这些测试方法没有形成统一的智能模型,并以此为基础进行分析,区分智能的多个分类。导致无法将不同的智能系统包括人类进行统一的测试;第二是这些测试方法无法定量分析人工智能,或者只定量分析智能的某个方面,但这个系统究竟达到人类智慧的百分之多少,发展速度与人类智慧发展速度比率如何,这些问题在上述研究中没有涉及。针对这些问题,科学院虚拟经济与数据科学研究中心刘锋、石勇研究团队提出:根据评测目的的不同,智能系统的智能水平评估存在三种智商,分别是:智能系统的通用智商,服务智商和价值智商。这三种智商的理论基础,详细定义和评测方法将在以下内容中做详细阐述。1.理论基础:标准智能系统和扩展的冯诺依曼架构对智能系统包括人类和人工智能系统的智力能力进行评测面临两个重要挑战:第一,人工智能系统目前没有形成统一的模型;第二,人工智能系统与以人类为代表的生命体之间的比较目前没有统一的模型。针对这一问题,2014年,中科院虚拟经济与数据科学研究中心研究团队成员,刘锋,石勇,刘颖参考冯·诺伊曼结构、戴维·韦克斯勒人类智力模型、知识管理领域DIKW模型体系等。提出“标准智能模型”,统一描述人工智能系统和人类的特征和属性,将任何一个智能体视为一个具有“知识的获取,掌握,创新和反馈”的系统。其中,冯·诺伊曼结构给我们的启发是:标准智能系统模型应包含输入/输出系统,能够从外界获取信息,能够将内部产生的结果反馈给外部世界。只有这样,标准智能系统才能成为“活”的系统。戴维·韦克斯勒关于人类智能的定义给我们的启发是:智力能力由多个要素组成,而非图灵测试或视觉图灵测试那样只关注智力能力的一个方面。DIKW模型体系给我们的启发是:智慧是一种解决问题、积累知识的能力;而知识是人类不断与外界交互后沉淀下来结构化的数据和信息。一个智能系统不仅仅要掌握知识,更重要的是还要有解决问题的创新能力。这种对知识的掌握能力、解决问题的创新能力与戴维·韦克斯勒理论、冯·诺伊曼架构相结合,就可以形成智能系统智力能力的多层次结构“标准智能模型”。根据上述研究,可提出标准智能系统的判定标准:任何系统(包括人工智能系统、人类等生命系统),如果符合如下特征,就可以认为这个系统属于标准智能系统。●特征1:能通过声音、图像、文字等方式(包括但不限于这三种方式)从外界获取数据、信息和知识的能力。●特征2:能够将从外界获取的数据、信息和知识转化为系统掌握的知识。●特征3:能根据外界数据、信息和知识所产生的需求,通过运用所掌握的知识进行创新的能力。这些能力包括但不限于联想、创作、猜测、发现规律等,这种能力运用的结果可以形成自身掌握的新知识。●特征4:能够通过声音、图像、文字等方式(包括但不仅限于这三种方式)将系统产生的数据、信息和知识反馈给外界或对外界进行改造。二.智能系统三种不同智商的定义2.1AI通用智商的提出基于标准智能模型,研究团队建立AI智商测试量表,分别与2014年和2016年对包括谷歌、Siri、百度、Bing等50多个人工智能系统和6岁,12岁和18岁人群进行AI智商测试。2014年根据智能系统统一模型,我们将从知识的获取能力(观察能力)、知识掌握能力、知识创新能力,知识的反馈能力(表达能力)等四大方面建立人工智能智商评价体系,并从这四个方面建立图像、文字、声音识别、常识、计算、翻译、创作、挑选、猜测、发现等十五个小类分测试,形成人工智能智力量表,通过这个人工智能智力量表建立相关题库,对世界50个搜索引擎和3个不同年龄段的人类进行测试,形成2014版人工智能智商排名列表,如表4.1所示(显示其中的前13个测试结果)。2016年2月,研究团队开展了“2016年人工智能系统的智商测试”,目前已对谷歌、百度、搜狗等人工智能系统以及苹果Siri、微软小冰等进行了测试,工作还在进行中。不过从已完成的工作看,谷歌、百度等人工智能系统的性能比两年前已有大幅提高,但仍与6岁儿童有一定差距。应该说上述AI智商测试是为了解决AI能否超越人类智能这个问题而开展的,这个研究是将每一个智能系统包括机器人,AI软件系统,人类,动物和其他生物当做平等的智能体,观察其与自然界,其他智能体在交互中显示出来的智能水平。AI通用智商的定义如下:基于标准智能模型,为了解决“评价各智能系统发展水平高低”的问题,将各智能系统视为平等的智能体,通过统一的AI智商测试量表形成的智能评测分数,可以称为AI系统的通用智商ArtificialintelligenceGeneralintelligencequotient(AIGIQ)。2.2.AI服务智商的提出在实践中,我们发现除了少数AI系统的产生是出于科学实验目的,不为人类提供辅助性服务,其他大多数AI系统是为了更好的服务于人类而被制造出来,它的智能也主要体现在为人类服务的过程中,智能水平越高,也就能更好的为人类提供服务。这种情况下,如果用AI的通用智商标准进行评测,就明显与产品的最初被制造出来的目的有重大差异。这就需要我们根据此类AI系统的特点,基于标准智能模型,选择与服务相关的指标进行评测,这些指标与AI的通用智商评测指标有相关性,但又有比较大的差异。包括对人工智能的法律,伦理道德等约束条件也应该放在智能系统服务智商中。而不用放在智能系统的通用智商中。AI服务智商的定义:基于标准智能模型,为了回答“智能系统如何才是更好的服务于人类”的问题,对智能产品在服务过程中体现的智能水平进行测试,并形成的智能评测分数,可以称为AI系统的服务智商,Artificialintelligenceseveiceintelligencequotient(AISIQ)。2.3.AI价值智商提出为人类提供服务或支撑性工作的AI系统,往往会由不同的公司和企业提供相应的智能产品,例如智能音箱就有亚马逊、百度等品牌,智能聊天机器人包括科大讯飞、苹果Siri等,由于是由不同企业生产制造,完成相同或相近功能,每个企业的造价或售价也会不同,服务智商与成本或价格关联会对消费者购买智能产品产生重要的影响。AI价值智商的定义:基于标准智能模型,为了帮助使用者判断需要用多大经济代价获得智能系统的智力能力,将智能系统的服务智商除以该系统的出售价格,形成的智能评测分数,可以称为AI系统的价值智商,ArtificialintelligenceValueintelligencequotient(AIVIQ)。三.智能系统通用智商和服务智商的测试量表设计。3.1.智能系统通用智商的测试量表为了解决AI能否超越人类智慧的问题,2014年开始,本文研究者根据标准智能模型把智能分为“知识的获取,掌握,创新和反馈”四类能力,在这四类之下又分成15个小分类能力,从更多维度评测AI,人类的智能。这15个小分类是:图像、文字、声音的识别和输出,常识、计算、翻译、排列,创作、挑选、猜测、发现等能力,每个小分类有不同的权重。2017年,根据人工智能的发展和对智能的最新研究。研究团队将AI通用智商评测量表从测试分类和分类权重进行调整,主要调整的内容增加了:1.识别动态图像的能力,2.情绪的识别与表达能力,3.识别敌我的能力,4.伪装真实意图的能力,5.实现移动定位的能力,6.实现改造世界的能力。除此之外对常识和创作的测试也做了更为细化的工作。令智能系统的通用智商为IQAIG,FGi是二级评价指标项得分,WGi是二级评价指标项的权重,N是评价指标项的个数。因此智能系统的通用智商公式如下:3.2.智能系统的服务智商测试量表目前存在大量智能系统,例如聊天机器人,智能化的搜索引擎,智能音箱,智能手机,智能汽车,智能洗衣机,智能冰箱等,它们大部分是作为商品服务于人类的某一需求,这些智能系统可以称为智能产品。在标准智能系统和扩展的冯诺依曼架构下,提炼他们共同的智能特征,并根据不同的服务需求,形成如下智能系统服务智商的测试量表。在这个服务智商的测试量表中主要突出了以下几个方面.1.感知周围智能系统和使用者身份的能力2.与互联网云端交互的能力。3.将自身内部状况实时显示给使用者,出现故障给予支持的能力4.按符合当地法律和伦理道德服务人类的能力5.危险情况下保护使用者和其他人的能力6.自身能源使用和自动补充的能力智能系统的服务智商为IQAIS,FSi是二级评价指标项得分,WSi是二级评价指标项的权重,N是评价指标项的个数。因此智能系统的服务智商公式如下:作为一个智能产品服务智商的标准量表,为了尽量全面的覆盖不同种类的智能产品,在设计智能产品服务智商测试量表时,在测试量表中从知识的获取,掌握,创新和反馈四个方面为同智能产品留下接口:1)在知识的获取分类中增加了”其他”信息输入方式,用来评估智能产品在知识输入方面的新方式。2)在知识的掌握中,增加了“专业常识”,用来评估不同领域智能产品的专业方面技能,3)在知识的输出能力中,增加其他输出能力,用来评估智能产品在知识输出方面的新方式。3.3AI价值智商的形成方法根据智能系统AI价值智商(AIVIQ)的定义,如果该智能系统通过出售变为产品服务于人类,令智能系统的服务智商为AISIQ,该智能产品的公开售价为P,形成智能系统价值智商的公式如下:IQAIV=(IQAIS/p)*100四.针对小爱音箱、天猫精灵、京东叮咚的AI测试4.1.测试结果4.2。测试说明:1.因为对智能产品的智商测试是一项没有先例的科学实验和研究,会处于不断修正和发展的过程,因此研究团队并不认为这个测试结果是完全成熟和客观的。希望通过这个测试结果的发布,接受更多指正意见,以推动这项研究的深入。2。本次测试由科学院虚拟经济与数据科学研究中心刘锋,石勇,刘颖团队基于团队的AIIQ测试方法对智能音箱进行的AI智商水平测试,人工智能学家未来智能实验室发布。相关研究论文请参考:本次测试为2017年12月20日测试结果,测试产品在测试日和发布日之间的会有智能提升情况,本报告不能进行及时反映。4.为了区分AI通用智商和服务智商,在得分上AI通用智商总分为100分,AI服务智商总分为1万分(实际得分*100),因为本次重点测试智能音箱在服务人类过程中体现的智能,因此本次没有测试AI通用智商。(相关概念请看下文)5.作为智能音箱重要的辅助和控制工具,智能手机智能音箱APP的功能也在考察范围内6.智能音箱专业技能的设置,根据智能音箱的为了实现为人类服务的特定目标,反映智能音箱应该掌握的专业知识的能力,这些能力包括但不仅限于闹钟,故事,提醒,控制设备,天气,新闻,娱乐,游
本文标题:人工智能智商评测方法报告
链接地址:https://www.777doc.com/doc-5752197 .html