您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 资本运营 > 大数据认知-李德毅院士
李德毅lidy@cae.cn2013年12月30日大数据时代的认知计算CognitiveComputinginthePetabyteEra一、人类的认知可以“计算”吗?3认知就是认识智慧逻辑思维和推理依据现有知识,计算、分析、联想、推导或归纳,产生新知。脑智(智商)心智(情商)形象思维和创新通过意象、直觉、想象、情感、顿悟等,进行直观、综合的思考,在创新中起着至关重要的作用。成功=40%IQ&60%EQ一元论?二元论?相互作用论?1956年达特茅斯会议正式使用“人工智能”术语,目标是开发像人那样思维的人工系统。半个世纪以来,人工智能成为认知计算的智力内核,取得的重要成果已经深刻地改变了我们的日常生活。认知是可以“计算”的图灵机是可计算的,任何形式系统可以是图灵机准确刻画的机械程序。认知计算是信息处理的过程,存在有符号主义、联结主义和行为主义等范式,有着强大的生命力,并走向计算主义。认知是可以“计算”的6电脑可以具备人脑的智能吗?半个世纪的人机大战表明,在与国际象棋领域具有类似复杂性的问题上,电脑可具有人脑的智能。50年人机大战实质是“人机-机人”大战,千方百计把人的认知能力放到机器里去和人对抗。从这个意义上,认知是可以计算的。认知不可以“计算”停机问题、程序验证问题等都是不可计算的数学自身是机器程序不可穷尽的人脑是否能被物化为电脑的首要问题在于人脑能不能够被形式化可计算性是不依赖于形式系统的选择的认知科学的困境用什么方法研究思维和意识人的意识和精神活动是由大脑不同区域共同作用产生的吗是由物理和化学规律支配的吗是由神经元细胞的行为和构成方式、以及影响它们的原子、离子和分子性质所决定的吗????有人甚至认为,人是不可能自己把自己搞清楚的!Nature专刊(2008年9月3日)大数据来源:PB时代对科学的挑战也是对认知科学的挑战!自然大数据生命大数据社交大数据11看病那些事儿诊查就是治疗!DNA测序核磁CTX光心电图化验B超内镜医学必须越跑越快才能跟上技术发展的步伐!知道“是什么”,就知道“怎么做”!医学诺贝尔奖给了谁?心电图的发明人:威廉.埃因托芬X射线辐射治疗发明人:赫尔曼.约瑟夫.马勒核磁共振成像发明人:保罗.劳特布尔更多的奖给了器械发明人,以及能够从医疗数据发现价值的人!因果关联先导?是什么?大数据为什么?怎么做?研究对象科学技术形而上?形而下大数据大数据时代认知计算的实践,正在倒逼认知科学前行!对人类认知而言,欧盟的“脑科学十年”和“人类大脑计划”,以及奥巴马的“脑计划”可能错在哪里?大脑细胞类型及统计大脑结构图大规模神经网络技术操作神经回路的工具神经细胞与个体行为关系大脑成像技术神经模型和统计的整合人脑数据搜集知识传播与培训认知科学难道就是研究生物脑的自然属性吗?要研究人类认知的特殊性!文字、文明和传承人类认知的社会属性倒逼什么?把这两点作为人类认知科学的切入点!要研究脑认知的后天属性。认知还是后天学习和积累的结果,是与社会环境、社会实践、群体交互等密切相关的,要建立人类认知的成长机制。倒逼什么?二、大数据时代的自然语言处理技术正在改变我们的生活语言是思想的直接现实,是人类思维的载体,是认知科学和认知计算要应对的首要问题。语言和文字在人类走向文明的四个重大里程碑中,语言和文字占了两个位置语言是外部对象的“声音符号”,传达的是信息文字是信息的编码,有文字才有传承人类运用自然语言进行交流获得的效果中:讲话内容7%强度和语调38%面部表情和肢体动作55%认知心理学告诉我们在半个世纪的自然语言理解的研究中,我们对此关注了多少?自然语言在人类思维中具有不可替代性人们在表达、思考和解决任何问题时,通常是定性的,对量的规定性往往是非数值的科学研究中,即使人们用对象语言(如:物理、数学、C语言等)来表述一个特定的精确学科,解释对象语言的元语言仍然是自然语言自然语言是不可以计算的!自然语言可以计算吗?在特定语境和语用场合,自然语言理解是可以被形式化表达并进行计算的!脑科学认为:计算语言学认为:如果一个问题不能够全部形式化,那么,其中的局部问题可不可以形式化?如何让这个局部问题尽可能地普遍一些?自然语言可以在什么程度上被形式化,取决于能否把不确定性形式化。紧紧抓住自然语言中的概念,研究不确定性。25清华大学·电子工程系,吴及17:24:40语音大数据举例以中国移动一个中等规模省级客服中心客服坐席500个平均日通话30万平均通话时间100秒平均坐席日通话时间16.7小时日通话累计时长约为8333小时月客服数据总量:25万小时年客服数据总量:300万小时4kbps压缩存储:5.4TB一个人不停说话说上1年如采用人工测听需1000人移动客服录音大数据,可实现一秒钟对100万小时音频数据的检索!——引自科大迅飞公司数据是雇用500位客服人员,还是启用一台话音机器人?人类如何理解自然语音的?您好亲情话务员,很高兴为您服务。我问一下我那个包月的上网套餐现在还能恢复吗?先生您好您这个套餐是您目前使用的就是一个神州行。免费的,那是赠送流量吗?免费赠送您三十兆流量的,怎么了您说。我不是把那个GPRS关了嘛。您是说您的功能关闭了是吗?嗯,开通还要不要扣费啊。需要扣费,有密码吗?有密码,我能开通那个GPRS吗?是的,您稍后听到语音提示后输入一下您的密码请稍等。噢行。先生您好您的密码。在半个世纪的自然语言理解的研究中,我们对此关注了多少?人类如何理解自然语言的?研表究明,汉字的序顺并不定一能影响阅读,比如当你看完这句话后,才发这现里的字全是都乱的!再回头仔看细看,真这是样的。在半个世纪的自然语言理解的研究中,我们对此关注了多少?区分计算机和人的全自动公共图灵测试(CAPTCHA)还能维持多久?在半个世纪的语言文本理解的研究中,我们对此关注了多少?全自动区分计算机和人类的图灵测试CompletelyAutomatedPublicTuringtesttotellComputersandHumansApart(CAPTCHA)reCAPTCHA,利用大众对验证码的识别,完成扫描仪、OCR软件,甚至古籍整理者都难以辨识的古老文献中的字符,精度可以超过99%!群体智能:社会计算的精髓!网络应用通讯平台数字媒体机器人能听会说正在改变我们的生活!在线服务机器人智能耳机?语音指纹服务中心政治语言翻译中心中英文翻译服务中心计算用语翻译中心方言服务中心位置服务中心语言翻译服务云支撑各式各样智能语音在线翻译:文字文字语音合成:文字语音话者识别:语音说话人语音识别:语音文字Letdataspeak!listen&answeringcarefully.不知天高地厚的豪言壮语?“先干掉短信,下一个目标是语音通话!”高级认知活动:创作对联唐诗宋词三百首41850首,8万句,近35万字微软对联微软亚洲研究院自然语言计算组研发的计算机自动对联系统。利用从唐诗宋词大数据中学习到的概率模型,当用户给定上联,能自动提供若干下联;当用户确定一副对联,能生成若干四字横批。高级认知活动:写诗人们熟读众多诗词,记住了针对各种意境的大量“字串”。需要时,触景生情,把脑中的“字串”按既定的一些规矩取出来,就成了一首新诗哪种诗容易写?规矩越多越适合计算机写。对四声和押韵有严格要求的五言绝诗,便是一个例子。李白的五言绝诗李白一生写诗1010首,把他所有诗句进行“机械切割”,在“悲情”意境下,分别按照平仄规律⊙仄仄平平平平⊙仄平⊙平平仄仄⊙仄仄平平把这些切割后的字串构成数据集,并要求仄平平、仄平、仄平平这3类串的韵相同。表1:(仄起)五绝(首韵)第一句第二句第三句第四句X1X2X3X4X5X6X7X81羞玉2流泪3窈窕4雪满5月色6愁空7浮云8伤别9哀苦0回首1未曾看2斩楼兰3寄燕然4水生烟5凤楼酣6暗无边7绕林间8竟不还9贵乡还0泪遥传1燕然2芙蓉3鸳鸯4梅花5江南6春风7佳人8斜阳9西湖0微霜1水月牵2寻岳仙3哀苦寒4觉夜寒5嬉笑牵6独去闲7上酒船8流泪泉9不可攀0走百川1凤楼2故情3染香4雾花5水晶6雪恨7落花8卷珠9相思0当年1人不见2留不住3追往事4空怅望5谁念我6肠断处7多少恨8空相忆9凝望久0都莫问1白玉2夜郎3多苦4一笑5憔悴6无限7寂寞8惟有9疑是0远忆1晚妆残2莫留连3憩言欢4望长安5老红颜6醉不眠7见苍山8蔽青天9涕衣沾0齿开难⊙仄仄平平平平⊙仄平⊙平平仄仄(非韵)⊙仄仄平平第一句第二句第三句第四句X1X2X3X4X5X6X7X81羞玉2流泪3窈窕4雪满5月色6愁空7浮云8伤别9哀苦0回首1未曾看2斩楼兰3寄燕然4水生烟5凤楼酣6暗无边7绕林间8竟不还9贵乡还0泪遥传1燕然2芙蓉3鸳鸯4梅花5江南6春风7佳人8斜阳9西湖0微霜1水月牵2寻岳仙3哀苦寒4觉夜寒5嬉笑牵6独去闲7上酒船8流泪泉9不可攀0走百川1凤楼2故情3染香4雾花5水晶6雪恨7落花8卷珠9相思0当年1人不见2留不住3追往事4空怅望5谁念我6肠断处7多少恨8空相忆9凝望久0都莫问1白玉2夜郎3多苦4一笑5憔悴6无限7寂寞8惟有9疑是0远忆1晚妆残2莫留连3憩言欢4望长安5老红颜6醉不眠7见苍山8蔽青天9涕衣沾0齿开难⊙仄仄平平平平⊙仄平⊙平平仄仄(非韵)⊙仄仄平平第一句X1X21羞玉2流泪3窈窕4雪满5月色6愁空7浮云8伤别9哀苦0回首1未曾看2斩楼兰3寄燕然4水生烟5凤楼酣6暗无边7绕林间8竟不还9贵乡还0泪遥传⊙仄仄平平第二句X3X41燕然2芙蓉3鸳鸯4梅花5江南6春风7佳人8斜阳9西湖0微霜1水月牵2寻岳仙3哀苦寒4觉夜寒5嬉笑牵6独去闲7上酒船8流泪泉9不可攀0走百川平平⊙仄平第三句X5X61凤楼2故情3染香4雾花5水晶6雪恨7落花8卷珠9相思0当年1人不见2留不住3追往事4空怅望5谁念我6肠断处7多少恨8空相忆9凝望久0都莫问⊙平平仄仄(非韵)第四句X7X81白玉2夜郎3多苦4一笑5憔悴6无限7寂寞8惟有9疑是0远忆1晚妆残2莫留连3憩言欢4望长安5老红颜6醉不眠7见苍山8蔽青天9涕衣沾0齿开难⊙仄仄平平秀玉竟不还,西湖哀苦寒。凤楼留不住,夜郎醉不眠。如,毛泽东的生日18931226所作的诗是:自然语言理解50年变迁从五笔字型输入到搜狗拼音输入从千人一面的搜索引擎到个性化搜索从规则学习到统计学习从智能计算到情感计算从形式语言学到野蛮翻译从确定性认知到不确定性认知42自然语言理解:期待中的舞台机器人文本、歌曲剧本等形象情感动作语音语调风格.......以大数据形态反映的语言、交互和理解,是带毛的、鲜活的、有情感的原生态数据,体现了认知过程中在语境、语构、语用和语义方面的不确定性,这正是大数据的魅力所在。三、视听觉认知中的大数据:智能驾驶初步实践智能驾驶为什么会火起来?云计算、移动互联网、物联网、大数据和智慧城市建设背景下,人们迫切需要提高移动生活的品质。智能车成为众目睽睽下的交集!《视听觉认知计算》国家自然科学基金委员会十一五重大研究计划《视听觉认知计算》的科学任务在正常的环境下,标准的城市和城际公路上,从北京到天津/深圳,智能车混迹在正常交通流中,表现出驾驶员的驾驶智能——驾驶员的视听觉认知计算能力。国家自然科学基金委员会十一五重大研究计划《视听觉认知计算》(2008—2015)耗资1.9亿元,历时8年,资助近百个培育项目、重点项目、集成项目,在原始创新和任务载体(轮式机器人)上取得重大成果。国家自然科学基金委员会十一五重大研究计划人类的视听觉认知是不可以计算的!人类的视听觉认知可以计算吗?特定情境下,人类的视听觉认知导致特定的行为,是可以被形式化表达并进行计算的!脑科学认为:机器人学认为:智能驾驶试验三步走策略第一步:城际道路低智商试验(—2015年)第二步:市区道路中智商试验(—2020年)第三步:特殊道路高智商试验(—2030年)自主驾驶!360o旋转的传感器扫描百米范围高精度立体景象左后轮上方的传感器检测小位移安装在后视镜部位的摄像头检测交通灯,帮助机载计算机识别自
本文标题:大数据认知-李德毅院士
链接地址:https://www.777doc.com/doc-1354410 .html