您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 质量控制/管理 > 2、薛禹胜-因果分析及机器学习之间的壁垒与融合
2017.04.22烟台中国电工技术学会学术年会因果分析与统计分析之间的壁垒与融合薛禹胜国网电力科学研究院/南瑞集团公司人工智能的核心是推理•取得的巨大成就:–已经成功应用人工智能(AI)的领域:天气预报、搜索引擎、自动驾驶、天文数据、生物技术、信用卡欺诈识别、字符识别、Web应用、网络入侵检测•业界的期望:–比尔盖茨在2017年1月谈到他若重新追求一个行业,将在AI、能源及生物科技三者中选择–《福布斯》列出的2017年10大热门AI技术:1.自然语言生成:利用计算机数据生成文本2.语音识别:听写人类语言,转换为对计算机应用有用的形式3.虚拟助手:包括简单的聊天机器人,也包括可以与人类联网沟通的先进系统4.机器学习平台:提供算法、程序接口、开发和训练工具包、数据,以及计算能力5.经过AI优化的硬件:用于运行AI计算任务、图形处理单元和应用6.决策管理:向AI系统插入规则和逻辑的引擎,用于初始化设置/训练/优化7.深度学习平台:一种特殊形式的机器学习平台,包含多层的人工神经网络8.生物信息:更多人机间的自然互动,包括但不限于图像和触控识别、语音和身体语言9.机器处理自动化:用脚本和其他方法实现人类操作的自动化,支持更高效的商业流程10.文本分析和自然语言处理:用统计和机器学习去理解语句的结构、含义、情绪和意图•遗憾的是:–AI与因果分析两种科学研究范式在发展中互相孤立,缺乏融合的思维–AI尚未在数学模型较完整,因果分析为主导的领域(如电力系统分析)中找到合适位置文献文档SCADA调查咨询实验仿真数学模型统计数据因果数据行为数据未单独分类多源异构数据大数据理念的核心是数据及其共享文献却忽视了知识提取范式的融合知识提取一次数据资源强调了数据间的融合共享二次数据统计分析因果分析知识提取知识提取XXX壁垒XXX当因果分析无法解决时,人们说让AI去研究吧;当AI解决了问题时,人们说这本来就与因果无关大数据与AI技术应该向知识产业转化•需求引导,应用是大数据技术的出发点和归宿•大数据已在市场与服务业取得巨大成功–沃尔玛的“啤酒与尿布”案例–背靠电力-能源的电子商城、电子商务、第三方支付可借鉴之–挖掘参与者的行为,预测风险,引入信息论和行为学,使宏观决策与微观决策的互动更高效•但却尚未使以因果分析为主的电力系统分析收益•强调了消除数据壁垒,却忽视了知识提取范式间的隔阂•统计分析与因果分析应融为一体,成为解决复杂问题的利器•为此,必须紧密结合具体领域问题薛禹胜42017.04.22既然数据间的藩篱要打破,科学研究范式间的藩篱就更不应存在实验理论研究计算科学针对因果关系协同挖掘大数据中隐藏的因果关系并研究复杂的社会-技术-行为交互系统数据驱动针对统计关系协同的科学研究薛禹胜52017.04.22大数据研究范式应该向下兼容,而非互斥检验指导拓展到未知规律统计分析的重要性与局限性•多数问题缺乏因果模型,必须依靠统计分析与AI•统计分析与AI的应用–用统计检验来检验假设–发现现象内部的多样化,包括小概率、奇异、缺失–挖掘各现象之间的相关性,以及未被掌握的因果关系•但是,–统计分析不可能取代因果分析–历史数据不能反映新事物对未来的影响–统计分析也无法检验逻辑上的因果关系–统计分析给出的是现象之间关联的表面规律薛禹胜62017.04.22统计分析需要与因果分析、理论、实验相融合2017.04.22薛禹胜7•统计分析与因果分析当前基本上相互孤立地发展•当前,大数据的应用很少涉及仿真数据与因果分析•科学研究的终极目的仍是回答“为什么”•回答“是什么”是尚未找到因果关系时的无奈之举•因此,我并不认可下述观点:–“数据驱动终将完全取代模型驱动”–“只要知道是否相关,而不需研究其背后的因果关系”–“相关分析将彻底改变人的价值观、生活方式、思维模式”以“电力系统暂态稳定性的知识获取”为例说明不同研究范式之间协同的重要性通过数值积分获得代数变量及动态变量的受扰轨迹2017.04.22薛禹胜9高维时变非线性系统),,(),,(),,(),,()(tttPtPtMekmkkkkkYZ,,Xψ0YZ,,XfZYZ,,XYZ,,Xnk,2,1•幅值稳定性(例如热稳定、电压偏离)•原点稳定性•振荡的正阻尼稳定性•有界稳定性•结构稳定性–趋于无界的模式随参数而变–周期稳定性–全局分岔–高维混沌暂态稳定性知识获取的常规方式实际的系统仿真的三个步骤高维非自治非线性电力系统初始条件连续的激励离散的扰动暂态稳定性的知识获取稳定性知识获取的不同思路•数值积分法•AI法•解析法2017.04.22薛禹胜11Rn轨迹Rn系统()ot-150-100-50050100150200250300统计分析因果分析凭经验解读获定性知识惟一可以反映高维系统动态行为的是数字仿真建模与数值积分2017.04.22薛禹胜12•严重的不足–无法获得定量知识(如稳定裕度及其灵敏度)–无法获得深层的定性知识(如结构特征、模式易变性,临界模式)–更无法支持在控制空间中的寻优•希望用因果分析的量化结果替代统计结果稳定性知识获取的不同思路•数值积分法•AI法•解析法2017.04.22薛禹胜13AI在分析电力系统时所遇到的困难•现有的AI方法基于演绎,缺乏可靠的归纳推理,不能保证所成的知识正确•基于历史数据的相关分析不可能适应系统、故障及规则的高维变化•AI算法基于部分状态变量,不能反映被缺省的变量的影响(俯视图上不能识别建筑物的高度)因此分类错误不可避免•能源系统(特别是电力系统)具有较成熟的能反映因果关系的数学模型•误判的后果极严重,AI的结果经不起模型仿真的校核2017.04.22薛禹胜14Rn-1R1稳定性知识获取的不同思路•数值积分法•AI法•解析法2017.04.22薛禹胜15•特征根计算•相平面法•等面积法•李雅普诺夫函数但现有的解析方法都不能处理高维时变系统•平衡点特征根不能处理时变性及非线性•相平面法–只能处理单刚体系统;不能定量分析–不能处理时变性•李雅普诺夫函数–不容易找到适合具体系统的形式–只是稳定性的充分条件,并不是其必要条件–只是定性判断,不是定量分析–不能处理时变性2017.04.22薛禹胜16要量化稳定性,就必须用理论分析的解析工具•惟一成功的解析方法是等面积法•但只能用于最简单的单机系统2017.04.22薛禹胜17RnR1复杂的多刚体模型单刚体哈密顿模型R1中时变的单刚体稳定性充要条件不变的CCCOI映射参量化目标:Rn中定量的稳定分析不可能实现EAC计入实际的受扰轨迹精确的Rn轨迹稳定程度不变详细积分UEPDSPPtP严格的稳定裕度概念反映射到多机系统R1时变系统严格的稳定裕度模型驱动与理论分析的局限性不可能实现2017.04.22薛禹胜18•量化指标的提取必须以已有的受扰轨迹为出发点–因此,必须在全模型空间中完成数值积分,保证工程要求–但是,无法从中直接提取关于稳定性的量化知识•沿OMIB系统受扰轨迹,可分段解析地表达其能量演变–获取其稳定性的充要条件、稳定裕度、灵敏度信息•要在高维积分空间与OMIB观察空间之间建立保稳变换–使完整轨迹的100%信息保存到OMIB观察空间的全集之中–保证EEAC的强壮性,不论数学模型及故障场景如何复杂问题归结为如何实现相结合模型仿真的普适性理论分析的解析性2017.04.22薛禹胜19数值积分解析解理论研究RnR1复杂的多刚体模型单刚体哈密顿模型R1中时变的单刚体稳定性充要条件不变的CCCOI映射参量化目标:Rn中定量的稳定分析不可能实现EAC计入实际的受扰轨迹精确的Rn轨迹稳定程度不变详细积分UEPDSPPtP严格的稳定裕度概念反映射到多机系统R1时变系统严格的稳定裕度积分空间与解析空间之间的可逆映射2017.04.22薛禹胜20科学研究范式在稳定性量化分析中的融合完整的积分保稳降维变换n个独立的R1或R2轨迹稳定裕度及稳定极限保稳反变换量化Rn轨迹Rn系统()ot-150-100-50050100150200250300统计分析因果分析因果分析理论分析理论分析凭经验解读定性知识注入功率预测需要行为分析不再依赖于统计/经验的解读理论研究替代了模型驱动结果的统计解读,但仍需解决在大量场景下的算例数灾的问题2017.04.22薛禹胜22•EEAC综合了理论研究和模型驱动的仿真研究范式,可通过因果分析快速求取电力系统稳定裕度及其灵敏度分析•虽然统计分析未能直接参与因果推理,但可以帮助因果分析•大电网在线稳定分析与控制决策中,要处理的潜在故障场景数以及控制寻优维数上都存在着算例数灾•不论单独采用因果分析,还是单独采用机器学习,都难以在保证分析质量的前提下,在数量级上缩短总计算量要克服算例数灾,就必须与统计分析相结合2017.04.22薛禹胜23•算例筛选功能,快速可靠识别出尽量多的肯定稳定或肯定失稳的算例,以减少需详细分析的算例数及总计算量•通过机器学习技术解决暂态安全分析中的算例数灾问题–建立分类器,定性地按结论的可信度将算例分为若干类–例如分为:100%稳定/100%失稳/无把握–只有那些“无把握”的算例,才需采用精确而费时的量化算法•当前的算例筛选单纯依靠统计分析,无法避免误分类提出的创新思维是:在分类器的输入特征量中引入因果数据2017.04.22薛禹胜24在仿真误差统计结果背后的因果关系计算量误差理想算法SEEAC(大步长,解析)DEEAC(中步长,解析)IEEAC(小步长,准解析)定义两者之差为DEEAC的可信度指标在允许范围内?调用IEEACY直接采用DEEAC结果2017.04.22薛禹胜25N采用IEEAC结果随着积分/映射步长的缩小,以计算量的增加换取了误差的减小薛禹胜262017.04.22故障之后的积分故障期间的积分SEEAC故障前的潮流故障前的网络数据故障中的动态数据不包含故障清除信息故障前的潮流结果不包含故障信息故障消除后的动态数据DEEAC机器学习算例算例分类器肯定稳定的算例肯定失稳的算例输出DEEAC的结果输出DEEAC的结果IEEAC不能确定者输出IEEAC的结果用高熵的因果数据替代低熵的独立数据IEEAC未计入时变因素的因果数据部分计入时变因素的因果数据因果分析统计分析考核情况•严格的测试条件–9个中国省级电力系统–原始工况及修改工况–线路三相永久短路故障–故障清除时间在0.08s~0.50s间随机抽样–共1652个算例,其中1191个稳定,461个失稳2017.04.22薛禹胜27•高效–92.78%的实际稳定算例被准确识别–87.20%的实际失稳算例被准确识别–需要采用IEEAC的算例为8.78%–量化效果与采用IEEAC相同,速度提高1个数量级•强壮–分类器的参数在所有测试算例中都固定不变–稳定及失稳类算例均无误识别因果推理与机器学习的融合开辟了新的研究路径机器学习训练算例集故障前系统模型故障中系统模型故障后系统模型不同精度的受扰轨迹待识别算例集SEEAC量化评估DEEAC量化评估IEEAC量化评估不同精度的受扰轨迹SEEAC量化评估DEEAC量化评估机器学习SEEAC因果分类器DEEAC因果分类器模式易变度因果分类器基于因果关系的综合分类器直接按DEEAC的结果输出必须调用IEEAC稳定不定失稳稳定不定失稳稳定不定失稳对映射步长是否敏感?混沌模式?引入因果元素的分类器为何能获突破•一般分类器的输入变量都取自因果链的始端•从受扰轨迹出发,故其强壮性可以不受下列因素的影响–电力系统的规模、电网拓扑、元件种类、工况–数学模型的详尽程度–扰动场景•但受扰轨迹是因果型数据,但并非机理性数据•仅用统计技术从受扰轨迹中提取稳定裕度的尝试至今未果•EEAC本身是基于理论分析从因果数据中挖掘机理的方法•用高熵的因果型数据替代一般的主成分变量2017.04.22薛禹胜29不但不能做量化分析连定性分析也不强壮因果分析提供因果关系的中间信息或者最终结果的近似知识取长补短,而勿强人所难特定算例的数据稳定性的量化结果排除不必详细
本文标题:2、薛禹胜-因果分析及机器学习之间的壁垒与融合
链接地址:https://www.777doc.com/doc-5492887 .html