strata_spark_streaming

SparkStreamingLarge-scalenear-real-timestreamprocessingTathagataDas(TD)UCBerkeleyUCBERKELEYWhatisSparkStreaming?Frameworkforlargescalestreamprocessing-Scalesto100sofnodes-Canachievesecondscalelatencies-IntegrateswithSpark’sbatchandinteractiveprocessing-Providesasimplebatch-likeAPIforimplementingcomplexalgorithm-CanabsorblivedatastreamsfromKafka,Flume,ZeroMQ,etc.MotivationManyimportantapplicationsmustprocesslargestreamsoflivedataandprovideresultsinnear-real-time-Socialnetworktrends-Websitestatistics-Intrustiondetectionsystems-etc.RequirelargeclusterstohandleworkloadsRequirelatenciesoffewsecondsNeedforaframework……forbuildingsuchcomplexstreamprocessingapplicationsButwhataretherequirementsfromsuchaframework?RequirementsScalabletolargeclustersSecond-scalelatenciesSimpleprogrammingmodelCasestudy:Conviva,Inc.Real-timemonitoringofonlinevideometadata-HBO,ESPN,ABC,SyFy,…TwoprocessingstacksCustom-builtdistributedstreamprocessingsystem•1000scomplexmetricsonmillionsofvideosessions•RequiresmanydozensofnodesforprocessingHadoopbackendforofflineanalysis•Generatingdailyandmonthlyreports•SimilarcomputationasthestreamingsystemCustom-builtdistributedstreamprocessingsystem•1000scomplexmetricsonmillionsofvideossessions•RequiresmanydozensofnodesforprocessingHadoopbackendforofflineanalysis•Generatingdailyandmonthlyreports•SimilarcomputationasthestreamingsystemCasestudy:XYZ,Inc.AnycompanywhowantstoprocesslivestreamingdatahasthisproblemTwicetheefforttoimplementanynewfunctionTwicethenumberofbugstosolveTwicetheheadacheTwoprocessingstacksRequirementsScalabletolargeclustersSecond-scalelatenciesSimpleprogrammingmodelIntegratedwithbatch&interactiveprocessingStatefulStreamProcessingTraditionalstreamingsystemshaveaevent-drivenrecord-at-a-timeprocessingmodel-Eachnodehasmutablestate-Foreachrecord,updatestate&sendnewrecordsStateislostifnodedies!Makingstatefulstreamprocessingbefault-tolerantischallengingmutablestatenode1node3inputrecordsnode2inputrecords9ExistingStreamingSystemsStorm-Replaysrecordifnotprocessedbyanode-Processeseachrecordatleastonce-Mayupdatemutablestatetwice!-Mutablestatecanbelostduetofailure!Trident–Usetransactionstoupdatestate-Processeseachrecordexactlyonce-Perstatetransactionupdatesslow10RequirementsScalabletolargeclustersSecond-scalelatenciesSimpleprogrammingmodelIntegratedwithbatch&interactiveprocessingEfficientfault-toleranceinstatefulcomputationsSparkStreaming12DiscretizedStreamProcessingRunastreamingcomputationasaseriesofverysmall,deterministicbatchjobs13SparkSparkStreamingbatchesofXsecondslivedatastreamprocessedresultsChopupthelivestreamintobatchesofXsecondsSparktreatseachbatchofdataasRDDsandprocessesthemusingRDDoperationsFinally,theprocessedresultsoftheRDDoperationsarereturnedinbatchesDiscretizedStreamProcessingRunastreamingcomputationasaseriesofverysmall,deterministicbatchjobs14SparkSparkStreamingbatchesofXsecondslivedatastreamprocessedresultsBatchsizesaslowas½second,latency~1secondPotentialforcombiningbatchprocessingandstreamingprocessinginthesamesystemExample1–GethashtagsfromTwittervaltweets=ssc.twitterStream(Twitterusername,Twitterpassword)DStream:asequenceofRDDrepresentingastreamofdatabatch@t+1batch@tbatch@t+2tweetsDStreamstoredinmemoryasanRDD(immutable,distributed)TwitterStreamingAPIExample1–GethashtagsfromTwittervaltweets=ssc.twitterStream(Twitterusername,Twitterpassword)valhashTags=tweets.flatMap(status=getTags(status))flatMapflatMapflatMap…transformation:modifydatainoneDstreamtocreateanotherDStreamnewDStreamnewRDDscreatedforeverybatchbatch@t+1batch@tbatch@t+2tweetsDStreamhashTagsDstream[#cat,#dog,…]Example1–GethashtagsfromTwittervaltweets=ssc.twitterStream(Twitterusername,Twitterpassword)valhashTags=tweets.flatMap(status=getTags(status))hashTags.saveAsHadoopFiles(hdfs://...)outputoperation:topushdatatoexternalstorageflatMapflatMapflatMapsavesavesavebatch@t+1batch@tbatch@t+2tweetsDStreamhashTagsDStreameverybatchsavedtoHDFSJavaExampleScalavaltweets=ssc.twitterStream(Twitterusername,Twitterpassword)valhashTags=tweets.flatMap(status=getTags(status))hashTags.saveAsHadoopFiles(hdfs://...)JavaJavaDStreamStatustweets=ssc.twitterStream(Twitterusername,Twitterpassword)JavaDstreamStringhashTags=tweets.flatMap(newFunction...{})hashTags.saveAsHadoopFiles(hdfs://...)FunctionobjecttodefinethetransformationFault-toleranceRDDsarerememberthesequenceofoperationsthatcreateditfromtheoriginalfault-tolerantinputdataBatchesofinputdataarereplicatedinmemoryofmultipleworkernodes,thereforefault-tolerantDatalostduetoworkerfailure,canberecomputedfrominputdatainputdatareplicatedinmemoryflatMaplostpartitionsrecomputedonotherworkerstweetsRDDhashTagsRDDKeyconceptsDStream–sequenceofRDDsrepresentingastreamofdata-Twitter,HDFS,Kafka,Flume,ZeroMQ,AkkaActor,TCPsocketsTransformations–modifydatafromonDStreamtoanother-StandardRDDoperations–map,countByValue,reduce,join,…-Statefuloperations–window,countByValueAndWindow,…OutputOperations–senddatatoexternalentity-saveAsHadoopFiles–savestoH

strata_spark_streaming

免费阅读已结束，点击付费阅读剩下 ... 页

阅读已结束，您可以下载文档离线阅读

市政污水管道施工工程施工组织设计方案

第一、二章旅游文化

调整汽车以旧换新补贴标准细则公布

征求意见稿-中国饮料工业协会

乐贝卡网策划推广方案

公共关系与社交礼仪(2)

示范项目监理规划样板

新员工职业心态培训2

中小学消防安全培训

宏观政策经济方向(XXXX)

相关文档

相关搜索