搜索引擎:蜘蛛程序沿着链接抓取并抓取网上的大量页面,并将它们存储在数据库中。预处理,用户在搜索框输入关键词后,搜索引擎从数据库中整理出符合搜索关键词要求的页面。
?
搜索的时候有一些无用的stopword: de,de,di,ah,ah,so,但是,the,a,an,to,of等。这些话对页面的主要意思没有影响。
PR值(inventor Page):互联网被理解为由节点和链接缓存的有向图,页面就是节点。页面的重要性是通过页面之间的定向链接来传达的。链接传达的PR值取决于导入链接的页面的PR值。发出链接的页面PR越高,能传达的PR值就越高。传递的PR值也取决于页面上导出链接的数量。公关价值就是看别人怎么评价一页。
双引号:将搜索词放在双引号中,这意味着它与搜索完全匹配。
减号:表示搜索减号后不包含单词的页面。使用此命令时,减号前面必须有空格,减号后面不能有空格
星号:(百度不支持)代表任何单词。
Inurl:该指令用于搜索url中出现查询词的页面。百度和谷歌都支持它。
Inanchor:指令返回的结果是在链接锚点的文本中导入包含搜索词的页面。百度不支持。
Intitle:该命令返回包含页面标题信息的页面。百度和goole都支持
Allintitle:搜索返回页面标题中有多级关键字的文件。
?比如allintitle:SEO搜索引擎优化相当于intitle:SEO?优化:搜索引擎
类似于所有标题
Filetyep:用于搜索特定的文件格式。
?示例:filetype:pdf SEO
站点:用于搜索一个域名下的所有文件。这种方法是查询网站包含的页数的最直接的方法
链接:用于搜索一个Url的反向链接,包括内部链接和外部链接。百度不支持。】
Linkdomain:说明只适用于雅虎,它返回一个域名的反向链接。
相关:该说明仅适用于谷歌,返回的结果是与网站相关的页面
?
最常用的工具是谷歌关键词工具和百度索引。
关键词分布:核心关键词位于塔顶,只有两三个,使用优化主页
?可能有几十个子级关键字
?更多长尾关键词位于特定的产品页面。
?
用途:用户体验,收录,权重分配,锚文本。
1.搜索引擎蜘蛛能找到网页吗
所有页面都可以通过普通的可以抓取的HTML链接到达。搜索引擎蜘蛛,比如JS链接,Flash中的链接,一般都无法跟踪抓取,会造成列表问题。
2.找到页面后能抓取页面内容吗
动态数据库生成,参数太多的URL,SessionID,整页都是Flash,框架结构,可疑转,大量复制内容等。会让搜索引擎敬而远之
3:
1:闪光,
2:SessionID,
3:各种跳,302跳,JS跳,闪跳,元刷新跳
而301跳是搜索引擎推荐的。
4.框架结构,框架
5.动态URL,尽量静态化。
6: JS链接,JS链接在SEO中有一个特殊的用途,就是站长不想被收录到页面中,也不想通过权重链接,所以可以用JS脚本屏蔽搜索引擎的抓取。
7:搜索引擎看不到需要登录的页面,”
8:强制使用cookie,因为搜索引擎相当于禁用cookie的浏览器,所以如果cookie只能导致搜索蜘蛛无法正常访问。
1:机器人文件:
用于指示搜索引擎禁止对网站的某些内容进行爬网或指定允许对某些内容进行爬网。如果文件不存在或者是空的,说明搜索引擎抓取了所有内容,最好创建一个空的robots.txt文件。放在根目录下。
这份文件是大小写的
机器人文件记录格式是:
字段:可选空格字段值可选空格
?示例:用户代理: *
?不允许:/?
?上面的机器人文件禁止所有搜索引擎抓取任何东西。
用户代理:指定以下规则适用于哪个蜘蛛,通配符*代表所有搜索引擎。
如果只适用于百度蜘蛛,使用:
?用户代理:Baiduspider
?仅适用于谷歌蜘蛛,请使用:
?用户代理:谷歌机器人
不允许:
告诉蜘蛛不要抓取某些文件或者目录,
例如:? User-agent:*
? Disallow:/cgi-bin/
? Disallow:/tmp/
? Disallow:/aa/index.html
? 上面表示,阻止抓取某个目录下的内容及文件
如果想要禁止多个也可以写成
Disallow:/cgi-bin/ /tmp/? 这种形式也可以。
?
有Disallow相应的也就有Allow,
Allow: /ab/cd/
$通配符:匹配URL结尾的字符,
Allow: .htm$
上面的表示允许蜘蛛抓取以.htm为后缀的URL。
*通配符:匹配任意一段字符,
Disallow: /*.htm 表示禁止蜘蛛抓取所有的htm文件
?
Sitemaps 位置:告诉蜘蛛XML网站地图在哪里,格式为:
Sitemaps:
需要注意的是,虽然,要想使URL完全不出现在搜索结果中,需要使用页面上的meta robots标签。
2:meta robots标签
用于指令搜索引擎禁止索引本页内容。
最简单的Meta robots标签格式为:
上面的意义是:禁止所有搜索引擎索引本页面。禁止跟踪本页面上的链接
Noindex:告诉蜘蛛不要索引本页面。
Nofollow:告诉蜘蛛不要跟踪本页面的链接
Nosnippet:告诉搜索引擎不要在搜索结果中显示说明文字
Noarchive:告诉搜索引擎不要显示快照
Noodp:告诉搜索引擎不要使用开放目录中的标题和说明’
?3:nofollow的使用
? 这里是锚文字
链接的nofollow属性只适用于本链接,而之前的meta robots标签中的nofollow指的是页面上的所有的链接。搜索引擎看到这个标签是不会跟踪爬行,也不传递链接权重的锚文字。
一般用于博客评论,论坛帖子,社会化网站,留言板等地方。因为这些地上 的链接不是经过站长自己编辑的,所以这个链接不是一个信任链接。
另外,可用于广告链接,因为广告同时也是个链接,会影响权重流动和搜索引擎排名。
还有例如联系我们,隐私政策,用户条款,用户登录等链接上,也需要使用nofollow
此外:对于一些产品页面,例如里面有产品图片,名称,价格和比较价格按钮都是指向产品页面的链接,但是其中的价格跟“比较价格”就需要使用NF属性,使搜索引擎不要跟踪这两个链接,其意义就在于这两个链接的锚文字对于产品页面没有任何帮助,产品图片链接里面的ALT文字和名称的链接中的锚文字都可以使对应的产品页面相关性提高,改善排名。
1:连接符的使用
文件名中单词间最好使用短横线(-)分隔,不要使用下划线或其他更奇怪的字母,搜索引擎把URL中的短横线当做空格 处理,下划线是被忽略。
2:网址规范化
搜索引擎挑选最合适的URL作为真正(规范化)的网址的过程
不同的URL访问的是同一个页面,例如:
?http://www.baidu.com与http://www.baidu.com/
http://www.baidu.com与https://www.baidu.com
http://www.baidu.com:80 与http://www.baidu.com
因为网址的不规范化,会给搜索引擎收录和排名带来 很多麻烦,比如网站首页应该是固定的,只有一个,但是很站长在链接回首页时所使用的URL并不是唯一的。
解决方法:
3:301转向
表示本网址永久性转移到另一个地址。
302:表示临时性转向。
其中的302转向,JS转向,Meta refresh等,除了301以外都是作弊手法 。
301转向,能传递页面权重。
使用:
例如多个不同的URL访问是其实是一个页面时,就可以将这些所有的URL301转向到一个规范化的网址上去,
4:Canonical标签(百度现不支持)
意义就是这个网页的规范化网址应该是www.baidu.com?item=swedish-fish
下面的这些URL都可以加上这段canonical标签
www.baidu.com?item=swedish-fish&cd=1
而这些URL规范化网址就是
www.baidu.com?item=swedish-fish
这个标签相当于一个页面内的301转身,区别在于用户并不被转向,还是停留在原网址上,而搜索引擎会把它当做是301转向处理,把页面权重集中到标签中指明的规范化网址上。
注意:
此标签最好使用绝对地址。
比如电子商务网站上多按价格,时间,尺寸升降排序,生成的URL全都不一样,但是内容大体相同 ,就可以使用这个标签 ,
?
5:绝对路径,相对路径
使用绝对路径有助于解决网址规范化问题,
1:原因
打印版本:很多网站除了正常供浏览的页面外,还提供更适于打印的页面版本,
使用SessionID:搜索引擎在不同时间访问网页的时候,被 给予了不现的sessionid,实际上网页内容是一样的。
网页实质内容 太少:
2:解决方法:
如果是由于网址规范化问题造成的,则要进行网址的规范化。
如果非网址规范化问题,则选取一个版本允许收录,其他 版本禁止搜索引擎抓取。既可以使用robots文件,也可以使用noindex meta robots标签禁止索引,连向不希望收录复制内容的链接使用nofollow,JS等阻止蜘蛛爬行。
也可以使用canimal标签,带有sessionid的页面也可以使用canonical标签,
?
1:HTML网站地图
sitemap: 首字母s需要小写,
2:XML网站地图
Sitemap:首字母S大写。由XML标签组成,文件本身必须是utf8编码,网站地图文件实际上就是列出网站需要被收录的页面URL,
例子:
<?xml version="1.0" encoding="utf-8" ?>
?
? http://www.example.com
? 2010-01-01
? monthly
? 0.8
?
Lastmod表示页面最后一次的更新时间。
Changefreq表示文件更新频率,标签值包括。
Always:一直变动
Hourly:每小时
Daily:每天。
Weekly:每星期
Monthly:每月
Yearly:每年
Never:从不改变
?
Priority是表示URL的相对重要程度。0.0-1.0之间的数值,1.0最重要。
制作好网站地图后,有两种方式 通知搜索引擎网站地图的位置。
一:在站长工具后台提交网站地图文件,
二:在robots.txt文件中通知搜索引擎网站地图文件位置,
Sitemap: http://www.example.com/sitemap.xml
?
每个网站都有一些在功能及用户体验方面很必要,但在EO角度没必要的页面,如隐私政策,用户登录页面,联系我们,甚至还包括关于我们,但是这些链接会造成权重的浪费,
解决方法:
1:只在首页显示链接,其他页面取消链接
2:使这些碳的链接不能被跟踪或传递权重,例如nofollow标签或使用Js链接,某些在所有页面显示的链接可以这样处理,如用户注册及登录页面,
3:例如电子商务网站列出的帮助信息,购物付款流程,送货信息,公司新闻等,这些页面从SEO角度看都没有什么价值。
?
1:多一层分类可以给大中型网站带来的结构利益是巨大的,
2:对翻页链接进行格式变化,例如可以将翻页改成:
1,2,3,4,5,10,20,30,40,50
3:而且有的会做成两行的页数链接
第一行:1,2,3,4,。。。。。。。。10
第二行:11,21,31,41,。。。。101
?
这里的meta标签指关键词标签(keyword tag)和说明标签(description tag)。系统站长应允许站长完全删除这两个标签,因为对搜索引擎排名几乎没有作用。
不应该把所有页面的网站名称都祚在H1标签中,首页应该使用网站名称,或者允许客制化H1标签中的内容,分类页面应该把分类名称放入H1标签,而不是网站名称,产品页面,则应该把计算器名称放入H1标签
?
建议title紧接着写在head之后,然后再写其它的标签和代码
页面的标题要,独特不重复。即使在同一个网站 内,主题相同,不同页面具体内容不会相同,页面标题也不能重复每个页面都需要自己独特的标题标签,
最常见的重复标题就是忘记写标题标签。最常见的是最内页直接调用 产品名称或者文章标题,分类页面使用分类名称,首页建义人工撰写。
另外:
有的时候生成独特标题并不是一件简单的事,比如电子商务网站的分类页面,同一个分类下产品数量比较多时,产品列表页面必然需要翻页,这些分类页面的标题通常都是“分类名称-网站名称”格式 ,这里程序员就需要在标题中加入页数。使翻面页面标签不同,分类第一页不必加页号,从第二页开始页面标题最前面加上“第二页”,“第三页”等文字,
关键词出现在最前面:例如索尼数码相机-数码相机-电子产品-**电器网
?
网站被开放目录收录时,google,雅虎,bing有时候会取开放目录中的标题作为搜索结果列表中的页面标题,而不使用页面本身的TITLE标签内容,而开放目录中的标题是由编辑确定的,不一定是站长最想要的标题,站长可以使用noodp标签强制搜索引擎不使用开放目录标题。
同样也可以使用Noodp禁止搜索引擎使用开放目录的说明文字。
关键词标签为keywords,而且它是跟SEO没有关系的标签
?
一般来说,篇幅不大的页面出现两三次关键词就可以了,比较长的页面4-6次也已经足够。
正文前50-100个词中出现的关键词权重比较高,最好第一段第一句话就出现关键词。
H1最重要,H6重要性最低,H3以下的标签权重很低了,和普通页面文字差不多了。
?
ALT文字是指图片的替换文字。
但是里面最好不要堆积关键词,只要出现一次关键词就可以了。
图片做成链接时,ALT文字就相当于设计院链接的锚文字 。主要用于英文网站中。
?
1:使用外部文件定义CSS或者JS
2:减少或删除注释
3:减少表格,特别是嵌套表格
4:HTML页面文件最好限制在100KB以下,页面上链接数在100个以下。百度目前建义HTML文件最好不要超过128K
?
搜索引擎给予黑体、斜体中的文字比普通文字多一点权重。
黑体有时候有助于帮助分词。比如为避免搜索引擎把“搜索引擎优化”拆分,可以把这几个字全部设为黑体。
对某些 有时效性的网站 来说,比如博客和新闻网站等,页面更新也常能提高排名。
沙盒效应:是指新网站在google很难得到好的排名,无论怎么优化这个网站。有点像给予新网站的试用期。在这段试用期内,新网站几乎无法在搜索竞争比较激烈的关键词时得到好的排名。
?
?
?
?
?
数目众多的外部链接指向某一个URL。
这些链接都以特定关键词为链接锚文字
被链接的页面一般并不包含这个关键词。
?
1:交换完链接后再删除链接
?
2:刻意把友情链接页的权重降低
方法就是只在首页或网站地图放上友情链接页的链接,其他页面都没有连向友情链接页的链接,或者链接放上Nofollow属性
?
3:使友情链接页根本不能收录
有的站长使友情链接页看似普通网页,链接结构也正常,但其它使用robots.txt文件或meta noindex标签使友情链接页根本不能被搜索引擎收录,解决方法:就是在交换链接时还得考虑链接页的PR值,页面有PR值,说明可以被搜索引擎收录。
?
4:友情链接本身不传递权重
友情链接加上nofollow属性,有的在页面HTML代码头部加上,meta nofollow标签,使页面上所有链接不能传递权重,
有的做的更隐蔽,“链接”是通过转向,但通过使用JS,这样的除非你去检查页面的源代码否则 很难发现对方给的链接其实是通过脚本转向的
?
5:链接页可能根本就是只给你准备的
通常服务器配置使用html文件比php文件优先度高,用户访问http://www.domain.com时返回的首页是domain.com/index.html文件搜索引擎收录的也是这一个文件,对方却误导你让你觉得index.php就是首页,
解决方法:
? 访问网站的http://www.domain.com时,看一下真正的首页是哪一个页面。
?
6:对方根本没有链接到你的网站
情景:有些站长检查你的网站有哪些外部链接,然后告诉你:我已经从网站 A链接向你,主你连向我的网站B,
问题:有可能是当前联系你的站长跟这一个网站A根本没有一点关系。
?
7:做一个垃圾网站和你交换链接
有的站长打着三向链接的旗号,要求你的链接必须得连向他的真正的商业性网站,他却从一个垃圾网站链接向你,这种垃圾网站最常见的形式就是垃圾目录,没有什么权重,也没有真实的访问流量,是专门用来做友情链接的。
?
页面上出现用户看不到,但搜索引擎能看到的文字。一般都是包含大量关键词。
使用微小文字。
?
指站长为了提高排名,在其他任何可以留言的网站留下自己的链接,比如开放评论的博客,留言板,论坛,文章带有评论功能的网站,等。
指整个网站或网站中的一部分页面,没有任何实质内容,完全是为了交换链接而存在。很多时候是同一个公司或站长所控制的一群网站。
是页面使用程序判断访问者是普通用户还是搜索引擎蜘蛛,如果是普通用户返回一个不考虑SEO,只是给用户看的正常页面,如果是搜索引擎则返回一个高度优化,常常优化到语句已经没办法读的程度的页面。
判断网站是否使用了隐藏页面的解决方法:
访问网站时改变浏览器的用户代理(user-agent),将自己的浏览器伪装成搜索引擎蜘蛛,
不过比较高级的隐藏页面程序还会检查访问来自哪一个IP地址,
另外一下判断方法就是看网页在搜索引擎中的快照,如果快照中显示的和用户在浏览器中看到的内容差别巨大,就说明是隐藏页面技术。
?
如果作弊者从域名A做301或302转向到域名B,而B的PR值是比较高的,则域名A在PR更新后,也会显示跟域名B的PR值,
解决方法:就是查看google的网页快照
?
1:如果网站是以PPC广告,也就是按付费广告为主,那么网站目标就是让浏览者点击广告链接,
如果网站是以CPM也就是按显示次数付费为主广告,浏览者在网站上停留的时间越长越好,打开大越多越好,最好不要离开网站。
2:信息类网站 靠显示广告赢利,网站目标是尽量增加页面访问数(PV),在网站结构上要提高PV将文章 公布是方法之一,所以大家可以看到很多门户资讯网站将明明 不长的文章公为几页,代价是页面和链接权重分散,收录可能成为问题。
3:百度跟google的区别
? 在收录方面,google很容易收录,但是因为沙盒效应,获得好的排名难,
? 百度收录难,一旦收录,排名越好,
? 百度有很大的首页优势,而google对所有的页面一视同仁,
? Google对外部链接很重视,但对页面元素没有那么敏感
? 百度对外部链接的依赖性比较小,对页面本身的相关性却比较敏感。这种敏感既体在,在正确的地方出现关键词有助一起排名,也体现在关键词显得堆积时,更容易引来惩罚,相比之下,google既不会因为关键词出现次数多给予好的排名,也不会因为关键词出现次数过多给予惩罚。
? 百度对网站更新比较看重,持续有规律的增加内容往往可以有效地提高 在百度的排名,而google对内容更新没有百度那么敏感,
4:网站改版注意事项
? 网站改版时尽量不要同时更改导航系统,对主要导航系统的修改,往往会使网站上链接结构,页面权重的流动和分配产生重大改变,所以应该在网站CMS系统或URL系统修改完成后几个月之后,收录已经恢复原有水平之后再修改导航系统。
5:网站logo,所有页面左上角的Logo做成 连至首页的链接,ALT文字,图片文字相当于链接锚文字,为避免过度优化,与首页title稍作区别。
?
个人能力有限以后会补充,欢迎斧正!
推荐博客及图书:SEO每天一贴
?
上一篇:如何快速搭建网站(自助建站推荐)
下一篇:seo顾问(seo实战培训中心)
有话要说...