您好,欢迎访问三七文档
当前位置:首页 > 商业/管理/HR > 其它文档 > 搜索引擎的使用与翻译(含硬盘搜索)
搜索引擎的使用与翻译1、什么是搜索引擎?2、搜索引擎的工作机制3、基本检索技术4、Google搜索5、Google在翻译中的应用示例6、以图搜图7、桌面搜索8、作业1、什么是搜索引擎?搜索引擎(searchengine)指根据一定策略,运用特定的计算机程序从互联网搜集信息,完成信息组织、处理后为用户提供检索服务,并将检索信息展示给用户的系统。搜索引擎包括全文索引、目录索引、元搜索引擎、垂直索引引擎、集合式搜索引擎、门户搜索引擎、免费链接列表,等。谷歌(Google)与百度(Baidu)是代表性搜索引擎。2、搜索引擎的工作机制现代大规模、高质量搜索引擎一般有爬行、抓取存储、预处理、排名四个步骤。(1)爬行搜索引擎通过一种特定规律的软件跟踪网页链接,从一个链接爬到另一个链接,像蜘蛛在蜘蛛网上爬行一样,所以也称为“蜘蛛”或“机器人”。搜索引擎蜘蛛按照一定规则爬行,并非胡乱爬行。(2)抓取存储搜索引擎蜘蛛跟踪链接,爬行到网页后,将爬行数据存入原始页面数据库。其中页面数据与用户浏览器得到的HTML完全一样。搜索引擎蜘蛛在抓取页面时,也做一定的重复内容检测,一旦遇到权重很低的网站上有大量抄袭、采集或复制内容,很可能不再爬行。(3)预处理搜索引擎蜘蛛将抓取的页面按照如下步骤进行预处理:抓取文字→中文分词→去停止词→消除噪声→正向索引→倒排索引→链接关系计算→特殊文件处理除了HTML文件外,搜索引擎还能抓取和索引以文字为基础的多种类型文件,如.pdf、.doc、.wps、.xls、.ppt、.txt等。目前搜索引擎还不能处理图片、视频、flash等非文字内容,也不能执行脚本和程序。(4)排名用户在搜索引擎框输入搜索关键词后,排名程序调用索引库数据,计算排名,然后显示给用户。由于搜索引擎数据量庞大,虽然能每日小幅更新,但一般情况下,搜索引擎排名规则都是根据日、周、月阶段性的不同幅度更新。3、基本检索技术(1)布尔逻辑检索布尔逻辑检索指利用布尔逻辑运算符连接各检索词,然后由计算机进行相应逻辑运算,以找出所需信息的方法。逻辑运算符的作用是把检索词连接起来,构成一个逻辑检索式。利用布尔逻辑运算符进行检索词或代码的逻辑组配是现代信息检索系统的常用技术。常用布尔逻辑运算符有三种:逻辑“与”、逻辑“或”、逻辑“非”。①逻辑“与”含义:表示检出同时含有A、B两个检索词的记录。用法:常用于连接不同概念的检索词,以表达复杂主题。运算符:AND或者*检索式:AANDB或者A*B例如:检索与台州学院和翻译相关的网页操作:在搜索引擎框输入台州学院*翻译例如:检索与China和housing相关的网页操作:在搜索引擎框输入ChinaANDhousing②逻辑“或”含义:表示检出含有A词或者B词的记录。用法:常用于连接同一概念的不同表达式或相关词,以防漏检。运算符:OR或者+检索式:AORB或者A+B例如:检索与台州学院或者翻译相关的网页操作:在检索引擎框输入台州学院+翻译例如:检索和China或housing相关的网页操作:在检索引擎框输入ChinaORhousing③逻辑“非”含义:检出含有A词,但同时不含有B词的记录。用法:常用于排除某些概念,以达到精确检索的目的。运算符:NOT或者-检索式:ANOTB或者A-B例如:检索天龙八部是哪八部操作:在搜索引擎框中输入天龙八部–武侠例如:检索非酒精饮料操作:在搜索引擎框中输入drinkNOTalcohol④注意逻辑运算符在中文数据库中多用符号*、+、-,在英文数据库中使用单词AND、OR、NOT,且这些单词为大写。(2)位置算符检索位置算符也叫全文查找逻辑算符或相邻度算符,用来规定符号两边的词在文献中所出现的位置。可以表示词与词之间的相互关系和前后次序。文献记录中词语的相对次序或位置不同,表义可能不同,而同一个检索表达式中词语相对次序不同,其检索意图也不一样。布尔逻辑检索有时难以表达某些检索确切的提问要求,而字段限制检索虽能使检索结果在一定程度上进一步满足提问要求,但无法限制检索词间的相对位置,此时可以使用位置算符进行检索。常用位置算符有四种:W算符(with)、N算符(near)、Same、S算符(subfield)①W算符(with)常写作A(nW)B,表示A词与B词之间最多可以插入n个其他的词,同时,A、B保持前后顺序不变。还可以写作A()B,表示两词之间不得有其他词,但有些系统允许有空格或标点符号。例如:输入translation(3W)research例如:输入translation(10W)research例如:输入research(10W)translation例如:输入translation()research②N算符(near)常写作A(nN)B,表示A与B之间最多可以插入n个其他词,同时A、B不必保持前后顺序。其中,(N)表示算符两侧的检索词必须前后相连,但词序可以颠倒,词间不允许插入其他词或字母。例如:输入translation(3N)research例如:输入translation(N)research③Same常写作ASAMEB,表示SAME两侧的检索词A和B必须同时出现在数据库的同一个字段中。例如:输入ChinaSAMEhousing④S算符(subfield)常写作A(S)B,表示A与B必须同时在一个句子或同一个子字段内出现,但词序可以随意变换,且各词间可以加任意多个词。例如:输入China(S)housing⑤注意不是所有系统都支持位置算符,而且不同系统的位置算符代码也不尽相同。上述使用展示仅供参考。(3)字段检索指根据标题、作者、摘要、关键词、作者单位、文献来源、专利号等字段检索所需内容。例如:检索题目为以IloveChina为标题的文章操作:在搜索引擎框中输入title=“IloveChina”常用字段表4、Google搜索(1)常用Google搜索语法①文档类型搜索filetype:“filetype:”是Google开发的一个非常强大且实用的搜索语法,主要限定搜索内容的格式。目前支持的文件格式包括:.pdf、.ppt、.xls、.doc、.rtf、.swf、.ps((PostScript),专门为打印图形和文字而设计的一个编程语言。是一种页面描述语言,与HTML语言类似。)等。注意:第一:“filetype:”和前面的关键词之间需要有一个空格,和后面的文件格式之间不能加空格;第二:冒号需要使用半角冒号,即在英文输入状态下输入,后面的检索语法冒号格式与此相同。检索式:关键词filetype:文件类型例如:检索与computeraidedtranslation相关的pdf文件操作:computeraidedtranslationfiletype:pdf例如:检索与computeraidedtranslation相关的ppt文件操作:computeraidedtranslationfiletype:ppt常见文件类型.htm或.html(超文本文件)、.txt(文本文件)、.pdf(adobeacrobatPDF文件)、.doc(WORD文件)、.xls(EXCEL文件)、.ppt(Powerpoint文件)②站点搜索site:“site:”表示在指定服务器上搜索或搜索指定域名。搜索结果限定在某个具体网站或网站频道。检索式:关键词site:站点例如:搜索台州学院网站关于翻译竞赛的内容操作:翻译竞赛site:tzc.edu.cn注意:第一:域名或站点名前不要加“http://”,也不能加“”,否则会错过某些内容,因为很多网站频道没有“”。网站频道只限于“频道名.域名”这种方式,不能是“域名/频道名”方式;第二:“site:”和域名或站点名之间不要加空格;第三:使用“site:”语法时要注意限定网站类型,如学术资料在“.edu”和“.org”域名后缀中会更准确,和政府相关的资料在“.gov”域名后缀中也许更恰当;第四:“site:”还能搜索某种语言或某个关键词在指定国家的网站。例如:查英国英语就输入“site:uk”,查美国英语就输入“site:us”,查加拿大英语就输入“site:ca”;第五:冒号需要使用半角冒号,即在英文输入状态下输入,否则“site:”将被视作一个搜索关键词。常见国家和地区域名中国.cn香港.hk台湾.tw新加坡.sg日本.jp美国.us英国.uk加拿大.ca澳大利亚.au③网页标题搜索intitle:将搜索范围限定在网页的标题内。即检索关键词出现在网页标题中的内容。检索式:intitle:关键词例如:检索网页标题包含polysystemtheory的内容操作:在搜索引擎框中输入intitle:“polysystemtheory”④网页内容检索intext:只在网页的正文中检索关键词,即忽略超链接文本、URL以及题目等。检索式:intext:关键词例如:检索网页正文中包含“polysystemtheory”的内容操作:intext:“polysystemtheory”⑤网页链接检索inurl:将搜索结果限制在URL或者网站页面上。可以查询网站的子目录。一般通过这个语法,可以查找某些特定的内容页,如帮助页,也可以查找特定的文件,如音乐或者视频文件。检索式:inurl:关键词例如:检索网页链接包含polysystemtheory的内容操作:在搜索引擎框内输入inurl:“polysystemtheory”5、Google在翻译中的应用示例例(1):搜索“热锅上的蚂蚁”的译文①鉴于可推知“热”译为“hot”,所以采用中英文检索方式。输入:“热锅上的蚂蚁”hot返回如下结果(见下一页):antsonahotpanlikeacatonhotbrickslikeacatonahottinroof②为了验证译文的可靠性,首先在美国网站验证“antsonahotpan”是否普遍。输入:“antsonahotpan”site:us。得到如下结果:在英国网站验证“antsonahotpan”是否普遍。输入:“antsonahotpan”site:uk。得到如下结果:③在美国网站验证“likeacatonhotbricks”是否普遍。输入:“likeacatonhotbricks”site:us。得到如下结果:在英国网站验证“likeacatonhotbricks”是否普遍。输入:“likeacatonhotbricks”site:uk。得到如下结果:④分别在美国和英国网站验证“likeacatonahottinroof”这种译文,得到如下结果:⑤基于以上验证,可以得知“likeacatonahottinroof”是应用最广泛的译文,“likeacatonhotbricks”次之。例(2):搜索“金钱肚”的译文①输入“金钱肚”money或者“金钱肚”stomach都不能得到想要的译文。此时可以考虑使用“引诱法”。即检索该译文可能出现的地方,引诱出译文。②输入“金钱肚”menu得到如下译文:honeycombtripemarinatedporktripe③在Google中进行验证,分别得到如下结果(见下一页):④可知“honeycombtripe”这一译文更加常用。例(3):搜索“游客须知”的译文①可能的译文有两个:“noticetovisitors”和“noticeforvisitors”。哪一个更地道?②在Google中分别输入上述两个译文,返回如下结果(见下一页):③可以发现“noticetovisitors”是更为常见的表达方式。例(4):搜索“舌尖上的中国”的译文①在Google中输入“舌尖上的中国”China得到如下
本文标题:搜索引擎的使用与翻译(含硬盘搜索)
链接地址:https://www.777doc.com/doc-5962478 .html