您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 销售管理 > 数图新服务研发关键技术-数图新服务的关键技术
数图新服务研发关键技术技术与产品中心北京万方数据股份有限公司为啥要讲点技术?关键技术领域知识组织与管理知识标引与分类、知识抽取等处理知识搜索与发现知识揭示与服务知识挖掘与分析分布式集群系统运维信息安全……主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准文本数据库文本数据库•存储对象:–文献等文本内容:期刊论文、学位论文、会议论文、专利……•特点:–文本数据特有的结构关系:重复、层级–删改少,增加、检索操作(对应CRUD四个计算机操作)–海量数据的处理能力–B*树索引结构与算法WFIRC•存储–XML格式–支持文本、数值、日期、货币等数据类型•索引–全文索引:权重、分词策略–整字段索引–稀疏值索引•检索表达式–CQL•检索结果自动聚类–检索结果文献的学科、期刊、时间等分布情况•秒级响应WFIRC在知识服务平台的应用特色•多指标综合排序–相关度•标题、关键词、摘要、其他–文献质量•被引次数、核心刊、浏览次数、下载次数–文献新旧程度•论文发表时间根据经验在知识服务平台推荐使用的三种排序方式–新论文优先–相关度优先–经典论文优先WFIRC在知识服务平台的应用特色•检索结果聚类•查全查准的特色考虑–“和服”问题的处理主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准自动标引、自动分类•人工智能、机器学习•学什么?怎么学?学习成果什么?如何应用学习成果进行工作?基于语料学习应用学习结果工作反馈修改万方数据知识服务平台标引与分类工具特色•基于共现词的相关词网络•基于最长词优先的分词策略•基于千万级文献语料的学习主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准•WIKI知识分享与管理•用户的期望与失望所得所想所看用户研究和交互设计•用户研究–用户的目标–用户的行为模型•交互设计–系统与用户交互的流程•信息设计–何时何地何信息?•视觉设计–强调、弱化–结构、关系–……矛盾•用户希望付出少、得到多•需要展示的信息量多、界面有限•界面信息量多、用户关注点少•……万方数据知识服务平台交互式检索与页面信息揭示•交互式检索:一框式进入交互反馈•启发式信息提供•页面精简显示、重点突出主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准•WIKI知识分享与管理•知识脉络•客观事实的展示•基于海量文献的分析•共现词、引用关系的应用主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准技术方案•检测算法–基于数字指纹–基于词频统计–基于VSM的方法–基于文本序列模式的方法万方数据知识服务平台-论文相似性检测服务•基于文本序列模式的方法•特点:–速度快–精准主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准访问量大了怎么办?•举例•优化软件•添加硬件–架构支持能力•本地服务集群•多节点IDC机房万方数据知识服务平台集群与分布式方案•优化软件•支持扩展的架构:–SOA–LTM管理–GTM管理主要内容•文本数据库系统•自动标引、自动分类•交互式检索•以用户为中心的知识揭示•知识脉络分析•论文相似性检测(copydetection)•集群与分布式服务•相关技术规范与标准•Html、xml•http、https•RSS、ATOM•Z39.50、SRW、SRU、OpenSearch、OAI•CQL•WordNet、Ontology、OWL、RDF•Web1.0、Web2.0、Web3.0•SSO•…
本文标题:数图新服务研发关键技术-数图新服务的关键技术
链接地址:https://www.777doc.com/doc-1593152 .html