您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 管理学资料 > IDC引入内容视图管理技术方案 v0.2(boss)
IDC引入内容视图管理技术方案中国移动研究院2012.4技术方案原理:基于DNSServer的日志信息的引入内容上报与管理基于DNSServer实现实现引入内容管理内容上报与管理:LocalDNS中保存经迭代查询后获得的网站子域名解析记录;建议LocalDNS能够将相关的域名信息生成内容视图数据,通过接口传送至Cache内容管理平台;存在的问题:对于删除的内容不能及时发现,需要在TTL超时之后才能获取到。从一个DNSServer中取数据即可。LocalDNS的解析结果会受到上级的Cache系统干扰,使得A记录受污染.能区分出来,但不全。如果不是DNS劫持的方式,则可用。北京这种基于DNS重定向做的可以知道,但是少数。Cache系统内容管理平台IDC内容视图上报内容主动探测DNS自身是一个方案.技术方案原理:基于人工方式的引入内容上报与管理基于IDC流量分析系统实现引入内容管理内容上报与管理:由Cache系统内容管理平台提供Web方式内容视图管理界面,并为IDC运营管理人员提供响应的账号/密码;省IDC相关部门的管理员登陆管理界面,手工录入本省引入内容的域名、IP地址等相关信息;内容主动探测:内容管理平台按照域名对所有引入内容进行实时监测,仅对于经DNS解析及HTTP访问正确无误的内容视图才确认为有效信息;【补充:补充多种策略】Cache系统内容管理平台IDC内容视图上报内容主动探测优点:内容管理由人工管理实现,没有新建系统的要求;对于Cache系统内容管理平台的新增功能要求实现难度相对较低;缺点:对管理维护的要求较高,需人工定期更新维护内容视图;人工上报的视图可能不准确,需要对引入内容进行动态监测,判断视图的准确性;当CP/SP在IDC中新增部分频道或内容时,IDC管理员可能无法及时发现,使得IDC内容视图上报不全面;基于IDC流量分析系统实现引入内容管理对于现网的改造配置要求要求Cache系统内容管理平台提供引入内容的管理功能,支持远程登录及记录的增删操作;Cache系统内容管理平台应具备对子域名的主动探测及视图维护功能;要求省公司IDC运维人员需要定期在内容管理平台中维护本地的内容视图;要求一级Cache系统将内容管理平台的IP地址配置服务策略,不对该IP地址发出的请求进行拦截;【Excel文件上传.支持记录的导入导出功能】方案特点及分析技术方案原理:由IDC运营管理平台上报引入内容视图基于IDC运营管理平台实现引入内容管理由IDC运营管理平台对IDC引入内容进行管理,并将域名信息、IP地址等数据整合形成本节点内容视图;IDC运营管理平台支持全量/增量方式,将内容视图发送至Cache系统管控中心;Cache内容管理平台IDC运营管理平台IDC对于现网的改造要求功能要求:IDC运营管理平台定位于开展业务集中运营支撑系统,缺乏对于引入内容进行有效管理和监测的技术手段,需省级支持进行相应内容管理功能;接口要求:需支持HTTP+XML的接口方式与Cache内容管理平台对接,上报IDC内容视图信息;方案特点分析对于IDC运营平台的依赖度较高,受限于运营平台的部署进度,同时需要多方推动运营平台进行功能与接口升级,实施时间相对不可控;技术方案原理:基于IDC流量分析系统实现内容视图传送基于IDC流量分析系统实现引入内容管理Cache系统内容管理平台IDC1IDC流量分析系统IDC流量分析系统IDC2CMNET全量同步:初始同步:系统对接时两端进行内容视图的全量同步,流量分析系统将本地的引入内容视图全量发送至Cache系统内容管理平台;周期同步:系统间根据设定时间周期性进行内容视图的全量同步;增量同步:流量分析系统对于发生变化的网站内容,实时发送至内容管理平台;IDC流量流向分析系统对IDC的请求/响应报文进行监测,捕获IDC链路出入流量的相关信息;系统对监测数据进行分析,解析HTTPHeader及目标IP地址等参数,整合形成标准的引入内容视图数据,发送至Cache系统的内容管理平台;信息传送机制:支持全量同步和增量同步基于IDC流量分析系统实现引入内容管理对于现有系统的改造要求系统部署:需在IDC的出口链路上部署流量流向分析系统;集团已经统一要求,只有部分省公司IDC已经部署上线,需要加快推动;功能要求:系统对IDC链路中的上行/下行流量均进行监测;系统支持对HTTPHeader字段及报文的目标IP地址进行分析统计;系统支持将引入内容的数据整合生成标准的内容视图格式;接口要求:流量分析系统支持通过HTTP+XML的方式与Cache内容管理平台对接,上报本地视图信息;方案特点及分析优点:可以对IDC引入内容进行全量和报文粒度的分析,统计相对精准;对IDC流量监测的实时性较强;缺点:当子域名从IDC中删除时,对于该类场景的监测存在延时,不能实时发现及上报;基于网络爬虫的内容管理方案网络爬虫是自动抓取网页对象的程序,可以根据抓取任务的设定来访问网站中的页面与相关链接;内容爬取:从初始网站的URL开始,通过网页的链接地址,遍历Web空间,读取网页的内容;在抓取网页的过程中会自动建立索引,找到在网页中的其他链接地址,对HTML文件进行解析;取出其页面中的子链接,并加入到网页数据库中,不断从当前页面上抽取新的URL放入队列;数据分析:所有被爬虫抓取的网页将会被系统存储,并进行一定的分析、过滤,并建立索引,以便之后的查询和检索。网络爬虫分析某个网页时,利用HTML语言的标记结构来获取指向其他网页的URL地址,可以完全不依赖用户干预;IDC引入内容视图管理方案技术方案4:在CMNET中部署网络爬虫监测系统,对引入网站进行主动爬取,并对爬取结果进行分析,得出引入内容的分布情况;爬虫监测系统将上述信息整合形成内容视图,发送至Cache系统内容管理平台;方案要求与分析•系统部署:需要新建爬虫监测系统,按照指派任务进行爬取和内容整合;•接口要求:需要在建立数据同步接口:爬虫监测系统Cache内容管理平台•实时性问题:爬虫监测系统对于网站内容爬取的速度较慢,实时性较低•从省公司的爬虫系统数据来看,爬取一个大型网站约需要2~3天的时间;Cache系统内容管理平台爬虫系统Internet内容视图同步初始爬取策略及参数基于IDC流量分析系统实现引入内容管理对于现有系统的改造要求系统部署:需要现网新建网络爬虫监测系统,对于引入网站的内容进行爬取和分析;接口要求:流量分析系统支持通过HTTP+XML的方式与Cache内容管理平台对接,上报本地视图信息;重用省公司的网络爬虫系统,并按照功能进行功能和接口改造;方案特点及分析优点:可以对网站的所有内容进行遍历,覆盖面广泛;缺点:内容爬取速度相对较慢,实时性差,存在对于网站内容的动态侦测不及时的情况;需要对内容爬取算法做进一步优化、选择合适的算法;1.页面采集模块:该模块是爬虫和因特网的接口,主要作用是通过各种web协议(一般以HTTP.FTP为主)来完成对网页数据的采集,保存后将采集到的页面交由后续模块作进一步处理。2.页面分析模块:该模块的主要功能是将页面采集模块采集下来的页面进行分析,提取其中满足用户要求的超链接,加入到超链接队列中。3、链接过滤模块:该模块主要是用于对重复链接和循环链接的过滤。例如,相对路径需要补全URL,然后加入到待采集URL队列中。4.页面库:用来存放已经采集下来的页面,以备后期处理。5.待采集URL队列:从采集网页中抽取并作相应处理后得到的URL,当URL为空时爬虫程序终止。6.初始URL:提供URL种子,以启动爬虫重定向子系统报文分析功能请求重定向功能缓存子系统负载均衡功能数据存储功能内容探测子系统任务管理功能状态探测功能缓存配置数据库统计分析功能
本文标题:IDC引入内容视图管理技术方案 v0.2(boss)
链接地址:https://www.777doc.com/doc-6299307 .html