您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 信息化管理 > Oracle 数据库中的海量数据处理
InsertPictureHereOracle数据库的海量数据处理FordFeng冯明磊SalesConsultant,TechInsertPictureHereAgenda•数据仓库系统的特点•Oracle数据仓库简介•使用Oracle数据仓库管理海量数据•OracleDatabaseMachine,硬件级数据仓库支持InsertPictureHereAgenda•数据仓库系统的特点•Oracle数据仓库简介•使用Oracle数据仓库管理海量数据•OracleDatabaseMachine,硬件级数据仓库支持什么是数据仓库?•“数据仓库(DataWarehouse)通常是一个面向主题的、集成的、随时间变化的、但信息本身相对稳定的数据集合,它用于对管理决策过程的支持”•面向主题(Subject-Oriented)•集成的(Integrated)•随时间变化(Time-Variant)•不变动性(Nonvolatile)*...approximately768,000hitsongoogle.com...•处理历史数据•大部分都是庞大的数据量•数据仓库操作通常需要众多的资源•同时访问很多的表•执行昂贵的计算•复杂的SQL语句•查询会长时间运行(可能会几个小时)•数据仓库的应用通常是被周期和流程化调用•抽取,转换,和加载(ETL)•通常包含多个数据源,其中包括平面文件•支持不同的预先定义的工作负载比如.•计划ETL•计划报表•最终用户在工作时间执行即席查询•不同模式的系统高峰负载出现在不同的时间•系统的硬件配置应考虑到不同模式的高峰负载数据仓库系统的特点InsertPictureHereAgenda•数据仓库系统的特点•Oracle数据仓库简介•使用Oracle数据仓库管理海量数据•OracleDatabaseMachine,硬件级数据仓库支持Oracle数据仓库的发展…•数据仓库的开发从Oracle7.0就开始了•主要侧重于性能和扩展性•在Oracle8i中增加了可管理性和对BI的支持•满足数据仓库的需求•高效的ETL功能•管理大数据量•管理各种用户请求•查询的快速响应•支持大量用户并发•易于使用,易于管理•无需特殊培训,统一管理界面Oracle7.3Oracle7.3zPartitionedTablesandIndexeszPartitionPruningzParallelIndexScanszParallelInsert,Update,DeletezParallelBitmapStarQueryzParallelANALYZEzParallelConstraintEnablingzServerManagedBackup/RecoveryzPoint-in-TimeRecoveryzPartitionedTablesandIndexeszPartitionPruningzParallelIndexScanszParallelInsert,Update,DeletezParallelBitmapStarQueryzParallelANALYZEzParallelConstraintEnablingzServerManagedBackup/RecoveryzPoint-in-TimeRecoveryOracle8.0Oracle8.0zHashandCompositePartitioningzResourceManagerzProgressMonitorzAdaptiveParallelQueryzServer-basedAnalyticFunctionszMaterializedViewszTransportableTablespaceszDirectLoaderAPIzFunctionalIndexeszPartition-wiseJoinszSecurityEnhancementszHashandCompositePartitioningzResourceManagerzProgressMonitorzAdaptiveParallelQueryzServer-basedAnalyticFunctionszMaterializedViewszTransportableTablespaceszDirectLoaderAPIzFunctionalIndexeszPartition-wiseJoinszSecurityEnhancementsOracle9iOracle9izListandRange-ListPartitioningzTableCompressionzBitmapJoinIndexzSelf-TuningRuntimeMemoryzNewAnalyticFunctionszGroupingSetszExternalTableszMERGEzMulti-TableInsertzProactiveQueryGoverningzSystemManagedUndozListandRange-ListPartitioningzTableCompressionzBitmapJoinIndexzSelf-TuningRuntimeMemoryzNewAnalyticFunctionszGroupingSetszExternalTableszMERGEzMulti-TableInsertzProactiveQueryGoverningzSystemManagedUndoOracle8iOracle8iOracle10gOracle10gzSQLAccessAdvisorzAutomaticStorageManagerzSelf-tuningMemoryzChangeDataCapturezSQLModelszSQLFrequentItemsetszSQLPartitionOuterJoinszStatisticalfunctionszFastersort/aggregationzMulti-dimensionalpart.pruningzandmuchmore...zSQLAccessAdvisorzAutomaticStorageManagerzSelf-tuningMemoryzChangeDataCapturezSQLModelszSQLFrequentItemsetszSQLPartitionOuterJoinszStatisticalfunctionszFastersort/aggregationzMulti-dimensionalpart.pruningzandmuchmore...Oracle数据仓库的发展不断创新Oracle数据仓库的发展Oracle11g新特性•OracleWarehouseBuilder•基本数据库特性•企业级ELT选项•数据质量选项•连接器选项•基于OLAP的物化视图及查询重写•增强的分区功能,数据压缩技术和并行技术•集成的分析处理技术,数据挖掘技术和信息统计技术•……数据仓库市场的领导者Teradata5.9%SAS5.6%Other5.2%IBM31.0%Microsoft16.5%Oracle35.8%rehousingTools2004-2008ForecastSource:IDC,WorldwideDataWaThemarketshareofOraclegrowsuptonearly40%in2007.—Gartner,2008Oracle数据仓库在不断地增长Yahoo!Oracle100.39AT&TDaytona93.88KT-ITGroupDB249.40AT&TDaytona26.71LGR-CingularOracle25.20Amazon.comOracle24.77AnonymousDB219.65UPSSMicrosoft19.47Amazon.comOracle18.56NielsenMediaSybaseIQ17.692005SurveyFranceTelecomOracle29.23AT&TProprietary26.27SBCTeradata24.81AnonymousDB216.19Amazon.comOracle13.00KmartTeradata12.59ClariaOracle12.10HIRASybaseIQ11.94FedExTeradata9.98VodafoneGmbhTeradata9.912003SurveySource:交通/能源制造Oracle是目前唯一在所有开放平台上都有TB级案例的厂商!Oracle数据仓库在中国的部分用户通信•福建电信•新疆电信•海南电信•昆明电信•长沙电信•深圳电信•江苏移动•宁夏移动•黑龙江移动•吉林移动•辽宁移动•山东网通•天津网通•重庆联通•四川联通•甘肃联通政府•济南市地方税务局•浙江社保•重庆社保•江西省政府•国家统计局•北京市交管局•浙江公安•中科院•江苏统计局•中国电子商务中心•香港贸易发展局•香港运输署•香港海关•香港理工大学•陕西联通•青海联通•中国网通•天津移动•河南移动•宁夏移动•中国联通•北京联通•浙江联通•吉林联通•黑龙江联通•内蒙古联通•辽宁联通•天津联通•广东联通•福建联通•江西联通InsertPictureHereAgenda•数据仓库系统的特点•Oracle数据仓库简介•使用Oracle数据仓库管理海量数据•OracleDatabaseMachine,硬件级数据仓库支持管理海量数据•分区(Partitioning)操作更灵活,性能及可靠性更高•并行操作自动的并行优化,操作更高效•位图索引及位图连接索引更小的空间,更高的性能,更多的索引字段•物化视图查询重写,查询更加高效,对应用透明•表压缩节约存储空间,性能不受损失•RAC真正应用集群高可扩展,高可用,高性能,低成本分区是•在逻辑上将大对象拆分成小部分•由业务需求决定•在大数据量时使用分区不是•为支持特殊的软/硬件设计•在sharednothing系统中必须要用也是一种在物理上将大数据分成小部分的方法什么是分区?分区(Partitioning)大表管理维护困难数据分区分而治之方便管理提高性能组合分区更好的性能更灵活地满足业务需求JANFEBORDERSJANFEBUSAEUROPEORDERSORDERS对应用完全透明08-May08-Apr08-Feb08-Jan08-Mar08-JunSalesSELECTsum(sales_amount)FROMsalesWHEREsales_dateBETWEEN‘01-MAR-2008’AND‘31-MAY-2008’;•只有相关的分区被访问到•优化器知道或发现相关分区•如果值一定,可以静态切割•动态切割使用内部回归算法发现相关分区•最小化I/O操作•性能可以成倍提高•数据量增加,响应时间不变分区–高性能分区切割,分区忽略ordertablemay08jan08feb08mar08apr08•并行查询08-FEB,08-MAR,和08-APR的数据•08-JAN和08-FEB数据只读•同时恢复08-MAY数据分区–高可用selectsum(revenue),storefromline_itemsWhereprofit(price,units)0.2orderbystorecost数据QueryServersscanscanscanscanscanscansortAsortA--KKsortLsortL-
本文标题:Oracle 数据库中的海量数据处理
链接地址:https://www.777doc.com/doc-4967068 .html