您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 广告经营 > 美国政府大数据计划(全译文)
美国政府大数据计划(全译文)大数据,至关重要今天,奥巴马政府宣布“大数据的研究和发展计划。”通过提高我们从大型复杂的数字数据集中提取知识和观点的能力,承诺帮助加快在科学与工程中的步伐,加强国家安全,并改变教学研究。这个计划里,六个联邦政府的部门和机构宣布新的2亿美元的投资,提高从大量数字数据中访问、组织、收集发现信息的工具和技术水平。了解更多正在进行的联邦政府的计划,解决所大数据所带来的机遇和挑战,可通过大数据表来了解大数据革命。我们还计划与工业界、大学研究界、非营利性机构与管理者一起利用大数据所创造的机会。显然,不能单单依靠政府,需要我们总统所呼吁的“众人拾柴火焰高”这样的努力。一些相关的公司已经赞助大数据相关的比赛,并给大学提供这方面的研究资助。大学里也开始开设一门全新的研究型课程,培养下一代的“数据科学家”。一些无国界的组织帮助非营利性机构对公益性服务的数据进行采取、分析和可视化处理。白宫科技政策办公室将会非常有兴趣支持建立一个跟大数据相关论坛,包括最新的公私组织之间的合作。美国政府的大数据计划亮点:为应对大数据革命带来的机遇,联邦政府制定计划,推进相关研究机构进一步进行科学发现和创新研究。国防部(DOD)国防部高级研究计划局(DARPA)多尺度异常检测(ADAMS)项目解决大规模数据集的异常检测和特征化。项目中对异常数据的检测指对现实世界环境中各种可操作的信息数据及线索的收集。最初的ADAMS应用程序进行内部威胁检测,在日常网络活动环境中,检测单独的异常行动。网络内部威胁(CINDER)计划,旨在开发新的方法来检测军事计算机网络与网络间谍活动。作为一种揭露隐藏操作的手段,CINDER将适用于将对不同类型对手的活动统一成“规范”的内部网络活动,并旨在提高对网络威胁检测的准确性、和速度。Insight计划主要解决目前情报,监视和侦察系统的不足,进行自动化和人机集成推理,使得能够提前对时间敏感的更大潜在威胁进行分析。该计划旨在开发出资源管理系统,通过分析图像和非图像的传感器信息和其他来源的信息,进行网络威胁的自动识别和非常规的战争行为。MachineReading项目,旨在实现人工智能的应用和发展学习系统的过程中对自然文本进行知识插入,而不是依靠昂贵和费时的知识表示目前的进程,并需要专家和相关知识工程师所给出的语义表示信息。Mind'sEye项目,旨在为机器建立视觉的智能。传统的机器视觉研究的对象选取广泛的物体来描述一个场景的属性名词,而Mind'sEye旨在增加在这些场景的动作认识和推理需要的知觉认知基础。总之,这些技术可以建立一个更完整的视觉智能效果。Mission-orientedResilientClouds项目通过技术进行检测,诊断并对攻击作出响应,有效地建立了“社区卫生服务系统”的云,以解决云计算固有的安全挑战。该方案还旨在开发新技术,使云应用和基础设施受到攻击时能够继续运行。只要整体能够有效的运行和保存,可以允许个别主机和任务损失。对加密数据的编程计算(PROCEED)的研究工作旨在开发实用的方法,相关现代化计算编程语言,使数据加密时仍然能使用云计算环境,以克服信息安全的重大挑战。使用户能够不需首次解密的情况下能够操纵加密的数据,它将使得对手拦截信息更加困难。在视频和图像的检索和分析工具(VIRAT)计划旨在开发一个系统能够利用军事图像分析员收集的数据进行大规模的军事图像分析。VIRAT如果成功,将使分析师能够在相关活动发生时建立警报。VIRAT还计划开发工具,能够以更加准确率和召回率的去从大量视频库里进行视频内容的检索。XDATA项目计划旨在开发用于分析大量的半结构化和非结构化数据的计算技术和软件工具。最核心的挑战是,可伸缩的算法在分布式数据存储应用、如何使人机交互工具能够有效的迅速定制不同的任务,以方便对不同数据进行视觉化处理。对开源软件工具包的灵活使用,使得能够处理大量国防应用中的数据。国土安全部(DHS)卓越研究中心和可视化数据分析(CVADA),罗格斯大学和普渡大学(以及另外三个伙伴大学)的研究人员之间进行协作,通过对大量的异构数据进行研究,使得急救员可以发现人为或自然灾害、恐怖事件,需要执法的边境安全问题,网络威胁的爆炸物。能源部(DOE)科学办公室高级科学计算研究办公室(ASCR)提供数据管理,可视化和数据分析的社区,包括数字化保存和社区访问。套件程序里包括广泛使用数据管理的技术,如开普勒科学的工作流程系统;存储资源管理标准;各种数据存储管理技术,如BeSTman,大容量数据移动器和适应式的IO系统(ADIOS);FastBit数据索引技术(雅虎使用)和两个主要的科学可视化工具,ParaView和VisIt。高性能存储系统(HPSS)是对磁盘和磁带系统上PB级数据进行管理的数据管理软件。由美国能源部和IBM开发的HPSS在世界各地的大学和实验室的使用,用在数字图书馆,国防应用和包括纳米技术,基因组学,化学,磁共振成像,核物理,计算流体力学,气候在内的一系列学科,以及诺斯罗普·格鲁门公司,美国国家航空航天局(NASA)和美国国会图书馆。对千万亿次的数据分析处理从庞大的科学数据集提取信息,发现其主要特征,并理解其间的关系。研究领域包括机器学习,数据流的实时分析,非线性随机的数据缩减技术和可扩展的统计分析技术,广泛适应于从能源部到电网,包括宇宙学和天气数据,传感器数据等。下一代网络方案支持工具,使得合作研究在能够进行重大发现,包括2001年的Globus中间件项目大量数据的移动和使用,2003年的GridFTP的数据传输协议,2007年的地球系统网格(ESG)的工具。今天的GridFTP的服务器开放科学网格,ESG,和生物社区的科学数据每月超过1PB的移动。Globus中间件也被得克萨斯大学,软件公司,石油公司利用并一起合作,培养学生能够使用先进的石油工程方法和集成的工作流程。基础能源科学办公室(BES)BES的科学用户设施支持旨在协助用户数据管理和分析大数据,可每天从一个单一的实验数据大容量化(1012字节)努力。例如,加速数据采集,处理和分析(ADARA)项目解决了数据的散裂中子源(SNS)的数据系统提供实时分析,实验控制的工作流程需要,以及已经建立X射线影像资料库,以最大限度地提高数据的可用性和更有效地利用同步加速器光源。在2011年10月,由生物工程学会和ASCR的基础能源科学的数据和通信研讨会将确定实验数据的需求,这可能会影响的科学发现。生物和环境研究计划(BER)大气辐射测量(ARM)气候研究设施是一个多平台的科学用户设施,提供重要的大气现象的精确观测研究,大气过程的认识的进步需要国际社会的基础设施和气候模型。ARM的数据是可以进行应用的,并以其作为文章发表在一个超过100年历史的杂志。正在处理收集和展示的高时间分辨率和光谱信息,从数百文书相关的挑战,以满足用户的需求。系统生物学知识库(Kbase)是一个社区驱动的软件框架,对微生物,植物和环境条件下的生物群落功能的数据驱动的预测。kbase是一个开放式的设计与开发,以提高算法的开发和部署效率,并增加从异构数据源的实验数据的获取和集成。kbase是不是一个典型的数据库,而是一种手段,以解释缺少的信息成为实验设计预测工具。聚变能源科学办公室(FES)通过FES和高级科学计算研究(ASCR)办公室高级计算合作的(SciDAC)科学发现在在聚变能的科学计算和实验研究大数据存在的挑战。ASCR-FES开发的数据管理技术,包括高性能的输入/输出系统,先进的科学的工作流程和出处框架,可视化技术解决独特的融合需求,已经吸引了欧洲一体化建模的努力和国际热核实验堆,一个国际核核聚变研究和工程项目的关注。高能物理办公室(HEP)高能物理计算计划经过了全球数百名科学家的努力,支持大量的分析研究,复杂的实验数据集,以及大量的模拟数据。协作企业进行大数据管理,包括生产和分布式分析PanDA(产品分布式分析)工作量管理系统和XRootD,一种高性能,快速,可扩展访问多种数据存储库的容错软件。核物理办公室(NP)美国核数据计划(USNDP)是一个多方面努力,涉及7个国家实验室和两所大学的项目,提供跨越多个领域,核物理,编译和交叉检查,对所有原子核的重要性质的相关实验结果,维护和广泛使用的专用数据库。科学和技术信息办公室(OSTI)OSTI,唯一的DataCite美国联邦机构成员(全球领先的财团科学和技术信息的组织)中发挥了关键作用,在塑造实践的政策和技术实现数据的引用,这使得可以跟踪数据的影响,使有效的重用和数据核查和学术结构的表彰和奖励数据生产商可设立。退伍军人管理部(VA)医疗保健信息研究所(CHIR)开发自然语言处理(NPL)工具,能够对在VA以文本形式存储的大量数据进行信息解锁。VA正在努力通过保护作战人员使用文字处理算法捕获公共卫生事件(ProWatch),正在开发一个的生产透明,重复性好,可重复使用的各种安全相关的事件监控软件探测,以研究为基础的监控程序,能够跟踪,测量与军事部署相关的健康条件。AViVA是VA的下一代就业人力资源系统,将业务应用程序和基于浏览器的用户界面分开的数据库。分析工具已经被建立在此基础上研究,最终决定在对病人进行支持。医学成果观察项目设计用来比较各种安全监测分析方法的有效性,可行性和性能。企业数据仓库(CDW)是VA的项目,组织和管理从各种渠道传递的个人和群体的疾病和治疗的完整视图的数据。健康资料库是卫生保健提供者的数据格式规范的数据,尤其是VA和国防部之间,让CDW集成的数据。基因组信息系统综合科学(GenISIS)计划,通过个性化医疗,提高退伍军人的医疗保健。GenISIS通过接触获得电子健康记录和遗传数据,可以跨VA进行的临床试验,基因试验和成果研究的临床研究。万美元老将计划招募退伍军人自愿的血液样本的基因分型和基因测序。这些基因样本支持GenISIS,将归于“型”在个别老将的了解遗传疾病状态的健康记录。VA的信息和计算基础设施提供的分析大型数据集,现在在VA,促进合作研究,在VA的网络上的任何地方,分析工作区和工具。卫生和人类服务部(HHS)疾病控制和预防中心(CDC)生物传感2.0是第一个考虑到区域和国家协调的情况下,通过互操作的网络系统对公众健康意识的可行性分析的系统,其建立在现有的国家和地方的能力之上。生物传感2.0移除许多单片物理结构相关的成本,同时还对最终用户透明的分布式系统方面,以及作出适当的分析和报告的数据访问。疾病预防控制中心的特别细菌学参考实验室(SBRL)的使用细菌和疫情ID网络生物学技术从有效,迅速爆发中检测未知的细菌病原体。谱系基因组学,比较整个基因组DNA序列的系统发育分析,将带来基于序列识别的概念,以全新的水平,在不久的将来对公众健康产生深远的影响。发展一个新的物种鉴定SBRL基因组管道将允许多个分析一个新的或迅速崛起的病原体在几小时内进行,而不是数天或数周。医疗保险和医疗补助服务中心(CMS)正在开发的基于Hadoop的一个数据仓库将支持对医疗保险和医疗补助要求的分析和报告。一个主要目标是建立一个支持,可持续的,可扩展的设计,可容纳在数据仓库中进行积累,并补充现有的技术。正在评估使用XML数据库技术,支持保险交流事务密集型环境,并且支持对应资格及报名流程。XML数据库可能可以容纳大表规模的数据,事务的性能进行了优化。医疗保险和医疗补助服务中心CMS具有当前设置与橡树岭国家实验室,涉及的数据可视化工具,平台技术,用户界面选项和高性能计算技术的评估试点项目-旨在使用行政索赔数据(医疗保险)来创建有用的信息产品引导和支持各种CMS高优先方案改进决策。食品与药物管理局(FDA)虚拟实验室环境(VLE),将结合现有的资源和能力,使虚拟实验室数据网络,先进的分析和统计工具和功能,在人群中分析,预测和促进公众健康的文档管理支持技术,使临场感能力在世界范围内的合作,使任何地点在一小时内就同一个虚拟实验室的功能。国家档案和记录管理(NARA)为十亿电子记录(CI-BER)的网络基础设施是一个联合机
本文标题:美国政府大数据计划(全译文)
链接地址:https://www.777doc.com/doc-4286965 .html