您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 项目/工程管理 > 自然语言(思维)的XML架构
自然语言(拟人思维AI)的XML数据架构概述:关键词:自然语言概念XML主体思维意识0.1自然语言与AI:0.1.1自然语言与思维:自然语言即人们交流使用的日常语言,存在于生活的语境背景之中,丰富生动但不精确。自然语言主体由文字符号构成,因此自然语言理解,即拟人AI的实践仅讨论符号、文字环境;对于图像、声音等外部环境信息,也全部从语言,即文字符号的形式进行理解。自然语言和思维关系极其密切,语言的运用,不仅在社会层面上将交流的效率提升了数量级,同样在个人内部同样程度地提升了认知效率。某种程度上(某个角度看,一些门派观点),思维是无声的语言,语言是有声思维,理解了自然语言即成功模拟人类思维。理解人类的语言,模拟人的思维,是一些人的梦想和追求。在以下研究拟人AI的实践中,将自然语言和日常思维近似等同。当前实践:聊天机器人,图灵测试。0.1.2拟人思维AI自然语言理解的现有方向:计算语言学、本体网、语义网…..存在问题:1直接面对人类知识,目标过大;2重知识重形式化,忽视思维过程,忽视使用,忽视知识的更新,目前无法面对动态的认知世界。新思想新思路会引发新的实践:我是从观察孩子(幼儿)开始的:3岁大约是幼儿的语言思维元年,孩子掌握语言极其贫乏,它可怜的几个概念(也许只能成为词汇)也是错误百出,为什么我们从不怀疑孩子的智能?……回答:1、以有限(初始时是及其有限)的知识/结构,映射理解无限未知的世界,这就是智能!(顺便回答中文屋问题:面对包容一切的操作手册,确实毫无智能可言,不过这样的手册仅存在于上帝手中。人类,只有人类,一个个个体组成的人类,由于没有这份万能手册,所以产生了关于智能的讨论和实践)2、孩子无知,却有求知的冲动和欲望。这就是智能!观察孩子,让AI面对个体,面对认知,让它从0开始,让它错漏百出,让它自相矛盾…..因为认知必有过程,个体一定局限。一个拟人思维的自然语言AI系统,不是知识库,不是专家系统…..,更不为完成特定的功能。与任何有输入-输出的系统不同:它会主动提出问题、查找资料,去探索各种文字形式的知识(互联网为它提供无尽的资源);它能区分知识的类型,计入不同的模板;它知道知识的来源和过程,他会记忆、反思也遗忘;它在一定程度上明白“我”的含义,也能较准确地运用;在初始阶段,有人对它的幼稚颇有不屑,但更会对它能体现孩子一般的思路发出惊叹。这个系统也许可以称为主体意识驱动的自然语言引擎:它按照信息的客观规律和自身构造的规则来运行,依靠自身的结构来理解文字符号的世界,它将不断自主学习永无止境。输入与输出,对话聊天的反应,对整个系统而言,只不过是湖中投入石块泛起波澜4而已。它可能会被分割成很多个体在普通PC机等小型终端上,类似QQ软件一样驻留运行。每个个体有自己的兴趣,可能积累出专业领域……….建立这个系统的基础,就是本篇要讨论的的自然语言的XML数据架构。0.2概念与XML思维如何入手?我们需要把握一个“实在”的基础,也就是让程序“看得见、摸得着”的玩意。词语?当然需要……不过还要再进一步,是概念。在信息领域:0.2.0概念!概念是安装语言信息的盒子(package)。首先啥(信息)都可以装;其次,规范后(贴标签)形成法则,这是最重要的。概念的盒子在IT信息域可以类的封装实现。我们首先设计这个盒子的数据结构,来体现以下人类自然语言的特性:1概念可以被复制,那么区分概念和概念的实例(类似具体对象),实例复制于概念,但“具体”部分的信息有所改变。2无论是人的思维还是信息领域,概念都是稳定独立实在的认知基础。3概念指向或表示某个事物(同类事物的抽象)4概念包含很多内容,有的保持稳定,有的增加改变5概念(的内容),有公共的知识-个体的知识-不完整的知识。规范是相对的。然后,我们运行这些盒子1概念是一张网,思维在概念中搜索穿行2概念中有方法,赋予资源就自主运行3意识是以“我”为核心,自主运行的思维域概念-方法集群用XML构建概念体系(数据结构)为什么是XML:1.XML是独立于编程语言的脚本描述,主流编程语言和数据库均有很好的支持。2.XML有简单格式和无限扩展的树状结构,可以得到方便的扩展。3.XML可以对自身进行更深刻的描述定义,如同Xsd文档中定义复杂元素,可对自身进行抽象和反思。自由和随意中蕴含了严谨和深刻。理论不得不谈,但不能空谈。简单讨论基本原理,重点研究应用理论阶段,最后落实到实验设计。第一章XML概念思维体系的整体思路第二章XML名词概念研究第三章XML动词概念与思维动词第四章XML描述情境与感性思维第五章XML理论概念类型:领域、理论、源第六章XML-主体结构与意识第七章自然逻辑-词汇-表达第八章几个实验设计展示第一章XML概念思维体系的整体思路智能在结构中,自然语言结构也是面对人类常识,这个结构怎么也会相当复杂,也许单一学科都未必能够承担。无穷的知识、无数的场景、无尽的表达、无限的(个体)差异,要通过算法表达,当前恐怕是不可完成的任务。以有限的知识,面对无限的世界,这就是自然语言(思维)AI的指导思想。第一节XML概念体系的基本思路1、以可数、半开放的概念类型(主要模板类型100以内),生成有限的概念(K级),产生无限可能性的实例和情境数据(记忆有限,通过遗忘机制保持1M以内吧)。这样将自然语言和常识世界的复杂性都隐射到有限的XML文本(符号)结构中。以上数量级别均指成熟系统(模拟接近成人的智力)为目标,不需要这么大规模的系统也能体现明显的拟人思维逻辑。2、算法上则完全以对模板的搜索读写来实现思维方法,即所有方法的操作都是执行XML文档中文字符号的读写和搜索,所有方法均实施时间控制,确保复杂性以线行叠加。3、算法(方法)简单,主动运行,充分利用资源;正如人的思维生生不息,哪怕睡觉时也未必停止。以时间累积获得深度和广度。第二节概念XML数据结构的设计思路:1、首先,构建最基础的具体名词概念,确定一些基础结构,以物体及其分类为例,如语法上的上下级概念,物理领域的空间结构和形象。2、为支持具体名词概念,构建一些理论、领域等类型的抽象概念,在认知源头定义一些根本的信息和知识的同时,也形成了如空间、形象等结构定义。3、在空间形象等源理论支持下,构建简单动作概念。建立动作概念的结构。如通过抓这个概念的研究,构建动作概念应该包括:动作主体、对象,动作过程等;同时增加或强化时间知识在源理论中的定义。4、情境。情境是时间、空间、主体和运动的集合。在时间空间源理论支持下,概念化情境的建立,是描述人类感性和经验认知和相关思维活动的重大突破。情境由于缺乏公共(客观)认知的内容,难以用于交流,因此它不被认为是概念。但对于个体内部,情境与概念一样有封装保存信息的作用,在思维中与概念一起被交叉联系使用,拟人思维AI,也有必要将情境独立化结构化,做出与概念类似的模板。具体概念描述从日常认知而来的常识,核心是感性认知结构如形象、过程、用途等抽象概念描述宏观的语义,是对具体概念的整合提升,核心结构是理论分析,概念元素的相互关系情境个体描述个体经验,比具体概念更为具体,它的结构核心是时间和空间从概念结构化的情境中,提取一部分简单结构,融合到动名词概念中的《实例与经验》这一部分,有效描述认知过程和个体差异。5、逻辑:XML结构中的节点-子节点、标签-内容、并列的内容之间,清晰地体现出日常思维的自然逻辑。以上仅针对幼儿阶段的认知和理解水平,来建立第一阶段的概念基础框架,这个框架足以很方便地支持AI体现令人惊讶的语言思维和理解,包括自主学习能力。而更深刻的抽象结构,需要在此基础框架建立后,才有条件讨论。第三节概念模板的简单分类:1.3.1分类维度在实践过程中,逐渐从信息认知角度总结出概念模板分类的依据和特性,在XML数据结构中予以体现。概念的分类将从多种维度进行:首先会考虑到词性;然后是抽象-具体;认知程度(又可从整体、理性认知、经验支持等各部分单独看认知程度,信息量规模即字节或串的数量可作为认知程度的参考)也是概念的重要属性;……广义上看,很多认识方法都将对概念产生新的属性,如专业领域、褒贬、词语构成方式(偏正、联合、动宾)等….词性分类在语言中体现最明确,稍稍讨论下。名词概念:结构以空间(一种最基本的多维度的并列结构)为主要线索。动词-形容词概念均可名词化,因为空间的并列结构是最基本普遍的,把动词、形容词的主线索屏蔽掉,或转换为空间线索即可。动词概念:结构以时间(线性单向的有序结构)为主线索形容词概念:结构以属性值(通常是有限枚举的并列结构)为线索具体-抽象的标准:是否能直接产生对象实例,即实例中是否包括具体的时间、空间和具体的对象。1.3.2更详细的分类人们对世界的理解,打上了深刻的语言烙印,自然语言语法很大程度就反应了思维模式,为了与之适应,我们需要建立以下概念模板:模板类型:名词(可以分类为实际的物体,事物,性质)动词(包含谓词,分类为具体动作、运动状态、抽象引申等)特别注意的是思维动词,有真正的操作形容词虚词等(含连词、介词、助词)等常用类型希望控制在20种以内。理论概念属于抽象类型:领域描述,其结构中有主要是名词,主要讨论构成理论的各项元素,如多种分类和作用描述原理描述,侧重相互关系,即动词,如物理原理中,需要以公式体现的元素的关系,需要描述积分、相乘等关系内容类型:意义即使用,使用形式化即连接1.3.3名词概念中内容,以物体为例,应该包括:主概念的形象结构:空间、分类等均可形成结构主概念能够发出的动作或活动:(即类中的方法)主体的特性、参数,这些特性几乎是无限的,需要有一种开放的,能自由添加的模式。区别具体的个体和非特定的泛指。后续章节中,还将对各类概念的XML模板进行详细讨论。第四节概念模板的共性:作为常识的概念至少应包括语法和语义、使用经验等内容:1、概念的(词)语法特征:包含该概念的类型(词性),能代表这个概念的最常见词语标识。2、概念的内容描述:该概念的领域;该概念的上下级;该概念的属性基本含义-引申含义基本意义,主要说明它是那个领域的事物或运动或属性,从基本意义中可以更准确地将其引入知识的树结构。基本意义的文字往往由辞典引入,相对规范,详细。对于一个刚掌握的概念,基本意义可能会进行二次解析,分解出其它元素。比如说词典中………对于名词概念,从基本含义的内容,可二次解析出结构、特性、用途运动作用等对于动词,解析出动作(运动)的主体、对象、过程;影响(导致的后续活动);运动要素(如快慢、轻重形容词:…..3、概念的使用经验:针对每一种意义(基本、引申),最常用的使用的若干次,我近期使用的若干次;有该概念生成的对象(特例)的主要特性值。可外接每次使用,均可提供一个外部(包含该概念)的典型情境。高级使用经验每次经验过程中的主观感受概念模板中的元素管理概念是开放的,元素是无穷的。概念的成长是有XML中为概念不断添加元素来实现:1、为概念添加的简单的描述属性的元素,2、为概念添加使用过程和经验类的元素3、为动词概念添加新的过程……这些元素,可以通过域的方式进行管理,如在物体的社会属性类元素,我们用一个“社会属性“的文档来汇集描述“所有者、价格、用途、生产者、使用条件…..”等元素,记录其数据类型或性质(可选、依附关系等)。实现这些知识管理的效率(复用)当一个方法上升到理论的时候,就可能为某种类型的概念增加元素。如学习化学后,知道所有物体都由元素构成,有化学成分,那么就可以给物体模板增加“化学元素”和“化学成分”的元素,其赋值只能是化学方面的规定。另一方面,也需要控制概念元素的层数(3-4层),避免概念的无限膨胀。当概念模板的内容超过一定边界时,产生新的对象或类概念。第二章名词概念研究2.0名词概念是对事物认识的汇总。名词概念可通过XML转化为类的形式。概念是开放自由的,但设计者自然要将最基础认知框架和常识直接赋予AI,让它走上拟人思维的轨道。这最基本的知识和框架,一定包括物体这种比较实在而广泛的概念,因此根据常识先写出一个苹果的概念,并对此进行详细讨论:苹果概念.xml第一节具体概念举例-苹果2.1.0综述:1、苹果概念是物体概念
本文标题:自然语言(思维)的XML架构
链接地址:https://www.777doc.com/doc-2051802 .html