您好,欢迎访问三七文档
当前位置:首页 > IT计算机/网络 > 数据挖掘与识别 > 大数据架构和模式42
大数据架构和模式(一):大数据分类和架构简介1.本文对大数据做了哪些分类?2.对数据进行分类后,如何将它与合适的大数据模式匹配?如何将大数据分为不同的类别大数据问题的分析和解决通常很复杂。大数据的量、速度和种类使得提取信息和获得业务洞察变得很困难。以下操作是一个良好的开端:依据必须处理的数据的格式、要应用的分析类型、使用的处理技术,以及目标系统需要获取、加载、处理、分析和存储数据的数据源,对大数据问题进行分类。概述大数据可通过许多方式来存储、获取、处理和分析。每个大数据来源都有不同的特征,包括数据的频率、量、速度、类型和真实性。处理并存储大数据时,会涉及到更多维度,比如治理、安全性和策略。选择一种架构并构建合适的大数据解决方案极具挑战,因为需要考虑非常多的因素。这个“大数据架构和模式”系列提供了一种结构化和基于模式的方法来简化定义完整的大数据架构的任务。因为评估一个业务场景是否存在大数据问题很重要,所以我们包含了一些线索来帮助确定哪些业务问题适合采用大数据解决方案。从分类大数据到选择大数据解决方案如果您花时间研究过大数据解决方案,那么您一定知道它不是一个简单的任务。本系列将介绍查找满足您需求的大数据解决方案所涉及的主要步骤。我们首先介绍术语“大数据”所描述的数据类型。为了简化各种大数据类型的复杂性,我们依据各种参数对大数据进行了分类,为任何大数据解决方案中涉及的各层和高级组件提供一个逻辑架构。接下来,我们通过定义原子和复合分类模式,提出一种结构来分类大数据业务问题。这些模式有助于确定要应用的合适的解决方案模式。我们提供了来自各行各业的示例业务问题。最后,对于每个组件和模式,我们给出了提供了相关功能的产品。第1部分将介绍如何对大数据进行分类。本系列的后续文章将介绍以下主题:定义大数据解决方案的各层和组件的逻辑架构理解大数据解决方案的原子模式理解用于大数据解决方案的复合(或混合)模式为大数据解决方案选择一种解决方案模式确定使用一个大数据解决方案解决一个业务问题的可行性选择正确的产品来实现大数据解决方案依据大数据类型对业务问题进行分类业务问题可分类为不同的大数据问题类型。以后,我们将使用此类型确定合适的分类模式(原子或复合)和合适的大数据解决方案。但第一步是将业务问题映射到它的大数据类型。下表列出了常见的业务问题并为每个问题分配了一种大数据类型。按类型对大数据问题分类,更容易看到每种数据的特征。这些特征可帮助我们了解如何获取数据,如何将它处理为合适的格式,以及新数据出现的频率。来自不同来源的数据具有不同的特征;例如,社交媒体数据包含不断传入的视频、图像和非结构化文本(比如博客文章)。表1.不同类型的大数据业务问题我们依据这些常见特征来评估数据,下一节将详细介绍这些特征:内容的格式数据的类型(例如,交易数据、历史数据或主数据)将提供该数据的频率意图:数据需要如何处理(例如对数据的临时查询)处理是否必须实时、近实时还是按批次执行。使用大数据类型对大数据特征进行分类按特定方向分析大数据的特征会有所帮助,例如以下特征:数据如何收集、分析和处理。对数据进行分类后,就可以将它与合适的大数据模式匹配:1、分析类型—对数据执行实时分析还是批量分析。请仔细考虑分析类型的选择,因为这会影响一些有关产品、工具、硬件、数据源和预期的数据频率的其他决策。一些用例可能需要混合使用两种类型:2、欺诈检测;分析必须实时或近实时地完成。3、针对战略性业务决策的趋势分析;分析可采用批量模式。4、处理方法—要应用来处理数据的技术类型(比如预测、分析、临时查询和报告)。业务需求确定了合适的处理方法。可结合使用各种技术。处理方法的选择,有助于识别要在您的大数据解决方案中使用的合适的工具和技术。5、数据频率和大小—预计有多少数据和数据到达的频率多高。知道频率和大小,有助于确定存储机制、存储格式和所需的预处理工具。数据频率和大小依赖于数据源:按需分析,与社交媒体数据一样实时、持续提供(天气数据、交易数据)时序(基于时间的数据)6、数据类型—要处理数据类型—交易、历史、主数据等。知道数据类型,有助于将数据隔离在存储中。7、内容格式(传入数据的格式)结构化(例如RDMBS)、非结构化(例如音频、视频和图像)或半结构化。格式确定了需要如何处理传入的数据,这是选择工具、技术以及从业务角度定义解决方案的关键。8、数据源—数据的来源(生成数据的地方),比如Web和社交媒体、机器生成、人类生成等。识别所有数据源有助于从业务角度识别数据范围。该图显示了使用最广泛的数据源。9、数据使用者—处理的数据的所有可能使用者的列表:业务流程业务用户企业应用程序各种业务角色中的各个人员部分处理流程其他数据存储库或企业应用程序10、硬件—将在其上实现大数据解决方案的硬件类型,包括商用硬件或最先进的硬件。理解硬件的限制,有助于指导大数据解决方案的选择。图1描绘用于分类大数据的各种类别。定义大数据模式的关键类别已识别并在蓝色方框中突出显示。大数据模式(将在下一篇文章中定义)来自这些类别的组合。图1.大数据分类结束语和致谢在本系列剩余部分中,我们将介绍大数据解决方案的逻辑架构和各层,从访问到使用大数据。我们将提供数据源的完整列表,介绍专注于大数据解决方案的每个重要方面的原子模式。我们还将介绍复合模式,解释可如何结合使用原子模式来解决特定的大数据用例。本系列最后将提供一些解决方案模式,在广泛使用的用例与各个产品之间建立对应关系。感谢RakeshR.Shinde在定义本系列的整体结构上提供的指导,以及对本系列的审阅和提供的宝贵评论。大数据架构和模式(二)如何知道一个大数据解决方案是否适合您的组织1.如何判断大数据问题是否需要大数据解决方案?2.如何评估大数据解决方案的可行性?3.可通过大数据技术获取何种洞察?4.是否所有大数据都存在大数据问题?简介在确定投资大数据解决方案之前,评估可用于分析的数据;通过分析这些数据而获得的洞察;以及可用于定义、设计、创建和部署大数据平台的资源。询问正确的问题是一个不错的起点。使用本文中的问题将指导您完成调查。答案将揭示该数据和您尝试解决的问题的更多特征。尽管组织一般情况对需要分析的数据类型有一些模糊的理解,但具体的细节很可能并不清晰。毕竟,数据可能具有之前未发现的模式的关键,一旦识别了一种模式,对额外分析的需求就会变得很明显。要帮助揭示这些未知的未知信息,首先需要实现一些基本用例,在此过程中,可以收集以前不可用的数据。构建数据存储库并收集更多数据后,数据科学家就能够更好地确定关键的数据,更好地构建将生成更多洞察的预测和统计模型。组织可能也已知道它有哪些信息是不知道的。要解决这些已知的未知,组织首先必须与数据科学家合作,识别外部或第三方数据源,实现一些依赖于此外部数据的用例。本文首先尝试回答大多数CIO在实施大数据举措之前通常会提出的问题,然后,本文将重点介绍一种将帮助评估大数据解决方案对组织的可行性的基于维度的方法。我的大数据问题是否需要大数据解决方案?大数据,曾几何时似乎很少出现组织多半会选择以增量方式实现大数据解决方案。不是每个分析和报告需求都需要大数据解决方案。如果对于对大型数据集或来自多个数据源的临时报告执行并行处理的项目,那么可能没有必要使用大数据解决方案。随着大数据技术的到来,组织会问自己:“大数据是否是我的业务问题的正确解决方案,或者它是否为我提供了业务机会?”大数据中是否隐藏着业务机会?以下是我从CIO那里听到的一些典型问题:如果我使用大数据技术,可能会获得何种洞察和业务价值?它是否可以扩充我现有的数据仓库?我如何评估扩展当前环境或采用新解决方案的成本?对我现有的IT治理有何影响?我能否以增量方式实现大数据解决方案?我需要掌握哪些具体的技能来理解和分析构建和维护大数据解决方案的需求?我的现有企业数据能否用于提供业务洞察?来自各种来源的数据的复杂性在不断增长。大数据解决方案对我有帮助吗?维度可帮助评估大数据解决方案的可行性为了回答这些问题,本文提出了一种依据下图中所示的维度来评估大数据解决方案的可行性的结构化方法。来自可通过分析数据获得的洞察的业务价值针对新数据来源和数据使用方式的治理考虑因素拥有相关技能和赞助商的承诺的人员捕获的数据量各种各样的数据源、数据类型和数据格式生成数据的速度,需要对它执行操作的速度,或者它更改的速度数据的真实性,或者数据的不确定性和可信赖性对于每个维度,我们都给出了一些关键问题。依据业务上下文,为每个维度分配一个权重和优先级。评估会因业务案例和组织的不同而有所不同。您可以考虑在与相关的业务和IT利益相关者召开的一系列研讨会中探讨这些问题。业务价值:可通过大数据技术获取何种洞察?许多组织想知道,他们在寻找的业务洞察能否通过大数据解决方案解决。没有权威的指南能够用来定义可从大数据获取的洞察。具体场景需要由组织识别,而且这些场景在不断演变。在确定和识别在实现后会给企业带来重大价值的业务用例和场景的过程中,数据科学家起着至关重要的作用。数据科学家必须能够理解关键绩效指标,对数据应用统计算法和复杂算法来获得一个用例列表。用例因行业和业务不同而有所不同。研究市场竞争对手的行动、发挥作用的市场力量,以及客户在寻找什么,会很有帮助。下表给出了来自各行各业的用例示例。表1.来自各行各业的示例用例潜在的客户正在社交网络和评论站点上生成大量新数据。在企业内,随着客户切换到在线渠道来执行业务和与公司交互,交易数据和Web日志与日俱增。确定数据的优先级首先为企业内存在的数据创建一个清单。识别内部系统和应用程序中存在的数据以及从第三方传入的数据。如果业务问题可使用现有数据解决,那么有可能不需要使用来自外部来源的数据。请考虑构建一个大数据解决方案的成本,并权衡它与带给业务部门的新洞察的价值。在有关现有客户的归档数据的上下文中分析此新数据时,业务人员将获得对新业务机会的洞察。主要满足以下条件,大数据可提供可行的解决方案:从数据中开发的洞察所生成的价值,值得在大数据解决方案中投入的资本成本面向客户的场景可证明来自洞察的潜在价值评估通过大数据解决方案获取的业务价值时,请考虑您当前的环境是否可扩展并权衡此投资的成本。我当前的环境能否扩展?询问以下问题,确定您能否扩充现有的数据仓库平台?1.当前的数据集是否非常大,是否达到了TB或PB数量级?2.现有的仓库环境是否包含生成或获取的所有数据的存储库?3.是否有大量冷数据或人们很少接触的数据未分析,可以通过分析这些数据获得业务洞察?4.您是否需要丢弃数据,因为无法存储或处理它?5.您是否希望能够在复杂且大量的数据上执行数据探索?6.您是否希望能够对非操作数据执行分析?7.您是否有兴趣使用数据执行传统和新类型的分析?8.您是否试图延迟对现有数据仓库的升级?9.您是否在寻求途径降低执行分析的总体成本?如果任何这些问题的答案是“是”,那么您就可以探索扩充现有数据仓库环境的方式。扩展我当前的环境的成本是多少?扩展现有数据仓库平台或IT环境与实现大数据解决方案的成本和可行性取决于:现有工具和技术现有系统的可伸缩性现有环境的处理能力现有平台的存储能力执行的治理和策略现有IT应用程序的异构性组织中存在的技术和业务技能。它还依赖于将从新数据来源收集的数据量、业务用例的复杂性、处理的分析复杂性,以及获取数据和拥有恰当技能集的人员的成本。现有的资源池能否开发新的大数据技能,或者是否可从外部雇佣拥有稀缺技能的人员?请注意,大数据举措会对其他正在实施的项目产生影响。从新的来源获取数据具有很高的成本。您首先应当识别系统和应用程序内部存在的数据,以及目前收到的第三方数据,这一点很重要。如果业务问题可以使用现有数据解决,那么有可能不需要使用来自外部来源的数据。在生成新工具和应用程序之前,请评估组织的应用程序组合。例如,一个普通的Hadoop平台可能无法满足您的需求,您可能必须购买专业的工具。或者相对而言,Hadoop的商业版本对当前用例而言可能很昂贵,但可能需要用
本文标题:大数据架构和模式42
链接地址:https://www.777doc.com/doc-28370 .html