药搜医疗健康搜索引擎
 
★ 与其他搜索引擎的区别

药搜医疗健康搜索引擎为所有关心医疗健康食品药品化工信息的用户服务,同时也为医疗健康息息相关的网站带来更多的客户。  然而传统的垂直搜索则是通过整理抓取来的数据,以数据库方式提供给用户,这样可能会使客户无法达到提供原始数据的网页,并对相关网站的访问量造成负面影响,从而可能会减少相关站长的盈利。药搜医疗健康搜索引擎则是基于客户和站长的双层考虑,既能让客户快速找到想要的数据,又能促使用户尽快离开搜索页面,进入原始数据网页,充分保证行业相关网站的利益。药搜医疗健康搜索将与站长们一起携手共同构建一个一流的医疗健康搜索引擎,形成战略联盟,共同发展,最终实现多方共赢。



★ 网站抓取

1.如何让我的网站被药搜收录?

药搜只会收录符合医药化工行业特征的网站和网页。

为促使药搜Spider更快的发现您的站点,您也可以向我们提交一下您的网站的入口网址。提交地址是: https://www.yaosou.net/help/url_submit.html

2.如何让我的网页不被药搜收录?

药搜严格遵循搜索引擎Robots协议(详细内容,参见http://www.robotstxt.org/)。

您可以写一个Robots文件以限制您的网站全部网页或者部分目录下网页不被药搜收录。具体写法,参见:关于robots.txt 。

如果您的网站是在被药搜收录之后再设置Robots文件,则Robots文件通常在一个月内生效,被文件限制的内容,将从药搜搜索结果中移除。

如果您的拒绝被收录需求非常急迫,也可以发邮件给webmaster@yaosou.net请求处理。

3.我的网页为什么会从药搜搜索结果中消失?

药搜并不允诺所有网页都可从药搜搜索到。

如果您的网页长时间无法从药搜搜索到,或者突然从药搜的搜索结果中消失,可能的原因有:

a. 您的网站所在服务器不稳定,被药搜暂时性去除;稳定之后,问题会得到解决。

b. 您的网页内容有不符合国家法律和法规规定的地方。

c. 您的网页不符合医疗健康行业特征。

d. 其他技术性问题。

4.什么样的网页会被药搜认为是没有价值而不被药搜收录或者从现有搜索结果中消失?

药搜只收录药搜认为有价值的网页。任何网页在搜索结果中的去留变化,都是机器算法计算和调整的结果。下述类型的网页,药搜明确不会欢迎:

a. 网页做了很多针对搜索引擎而非用户的处理,使得用户从搜索结果中看到的内容与页面实际内容完全不同,或者使得网页在搜索结果中获得了不恰当的排名,从而导致用户产生受欺骗感觉。

如果您的网站中有较多这种页面,那么这可能会使您的整个网站的页面收录和排序受到影响。

b. 网页是复制自互联网上的高度重复性的内容。

c. 网页中有不符合中国法律和法规的内容。

5.我的网站更新了,可是药搜收录的内容还没更新怎么办?

药搜会定期自动更新所有网页(包括去掉死链接,更新域名变化,更新内容变化)。因此请耐心等一段时间,您的网站上的变化就会被药搜察觉并修正。



★ 关于robots.txt

1.robots.txt有什么用?

如果您不希望互联网爬虫(又叫蜘蛛、Crawler、Spider等)抓取您网站的每一个公开的链接,而只抓取您指定的某一部分链接,或根本不抓取任何链接,你可以使用robots.txt向我们汇报爬虫信息。

2.怎么使用robots.txt?

建议您在站点的根目录下存放一个robots.txt文件。我们的爬虫在第一次抓取您站点时会首先确认根目录下是否有robots.txt文件。

例如,您的网站地址是www.abc.com,我们会首先抓取http://www.abc.com/robots.txt再进行后续操作。如无法访问robots.txt文件,系统则默认为您站点的每个链接都可以被抓取。

3.怎么写robots.txt文件?

robots.txt是个很简单的文本文件,您只要标明“谁不能访问哪些链接”即可。

在文件的第一行写:

User-Agent: *

这就意味着下面的描述针对所有的爬虫。需要注意的是一个robots.txt文件里只能有一个"User-Agent: *"。

User-Agent: YaoSouBot

这就告诉了爬虫下面的描述是针对名叫YaoSouBot的爬虫。

接下来是不希望被访问的链接前缀。例如:

Disallow: /private

这就告诉爬虫不要抓取以"/private"开头的所有链接。包括/private.html,/private/some.html,/private/some/haha.html。如果您写成:

Disallow: /

则表明整个站点都不希望被访问。您也可以分多行来指定不希望被抓取的链接前缀,例如:

Disallow: /tmp

Disallow: /disallow

那么所有以"/tmp"和"/disallow"开头的链接都不会被访问了。

最后形成的robots.txt文件如下:

User-Agent: YaoSouBot

Disallow: /tmp

Disallow: /private

意思是:禁止爬虫“YaoSouBot”访问“/tmp”、“/private”目录。

请注意,如果您的robots.txt文件里有中文等非英语字符,请确定该文件是由UTF-8编码编写。

4.怎样分别指定不同的网络爬虫?

这个操作很简单,只要分别指定“谁能或不能访问怎样的链接”即可。例如:

User-Agent: YaoSouBot

Disallow:

User-Agent: *

Disallow: /private

上面的robots.txt表明,名为YaoSouBot的爬虫可以抓所有的内容,其它名称的爬虫不能抓以"/private"开头的链接。




★ 特色工具

  1.划词翻译

在浏览网页,如果您用鼠标双击一个英文单词,或者用鼠标拖动选择一个中英文短语,您正在浏览的页面就会出现一个如下的小窗口,显示被选取单词和短语的意思。这就是药搜为您提供的“划词翻译”。如果您是网站站长,您也可以轻松拥有同样强大的词典(功能和资源)。


©2005-2024 药搜 YaoSou.Net