SEO静态页开发手册

发布时间 2023-08-17 21:36:51作者: 泠风lj

 

基本定义

 

SEO基础概念

 

  • SEO (Search Engine Optimization)
    即搜索引擎优化,是一种利用搜索引擎的规则,对网站进行有针对性的优化,提高在相关搜索引擎内的自然排名的手段。

  • SEO价值

    1. 用户价值,通过搜索引擎能够更好更快捷的推销企知道的相关内容,提高目标用户的准确度实现扩客;稳定持续的内容输出,也能提高用户粘性使用率。

    2. 业务价值,作为一种有效的网络营销渠道,利用搜索引擎自然排名创造的商机更大,业务曝光率更高

    3. 节省企业费用,稳定有效的seo排名,可辅助企业其他营销手段的,减少支出的同时,获得更好的宣传效果。

    总之,SEO能够吸引更多的用户访问网站,提高网站的访问量、销售能力和宣传能力,使企业在行业内占据领先地位,从而提升网站的品牌效,获得收益。

  • 关键字
    用户用搜索引擎时检索时,为查找信息,所输入的内容。

  • 自然排名
    通过搜索引擎搜索某关键词时,收录网页根据搜索引擎算法而获得排列结果的排名。自然排名,受关键词匹配度(页面关键词设置分布、标题、描述等)及网站综合因素(如域名、地域、页面内容质量、更新频率等因素)影响。值得注意的是,他是以网页为单位的。

  • 权重 (Page Strength)
    搜索引擎给网站(网页)赋予的权威值。它不但利于提高自然排名,还能提高整站的流量,对新网页的收录也有很大的帮助。

  • 网站排名
    搜索引擎或统计公司综合网站流量、点击率等多种指标对网站的综合排名。主要有有Alexa、百度TOP、中国TOP...

  • 网站(页)收录
    搜索引擎爬虫根据链接地址爬取网页快照,并索引入库,已被索引的页面就是已收录页面,有页面被收录,就是已收录网站。值得注意的是,已爬取或是已被索引的页面,不一定可以通过搜索引擎检索到;从被索引到呈现搜索结果需要一定时间,也受用户访问ip、地域等多种因素影响;已被收录的网页,不好好管理也会去索引。

  • 网页快照
    是搜索引擎在收录网页时,对爬取当时链接对应的网页进行备份入库的页面内容。网页快照实际上是网页的时间节点的内容,可作为现网页内容的参照,给予搜索引擎比对;快照的更新频率也可以一定程度反应排虫爬行网站的频率;已被索引的页面,不一定存在入库的快照,网页快照数目,一定程度也能反应搜索引擎的信任度。

  • 静态页面
    网页所有内容都在页面文件里面,不需要在客户端再利用脚本生成网页代码的网页。常见静态页有.html、.htm格式。最早的网站,也是这种大量静态页堆砌而成的。

  • 动态页面静态化(伪静态页面)
    动态页面相对静态页面而言,是利用模板、数据动态合成的页面,不是真正的网页文件。动态页面静态化,就是通过链接访问时,通过技术手段,在服务器预先合成真实网页代码以静态形式响应请求。对访问方来说,拿到页面和真实静态页无异。

  • 静态爬虫和动态爬虫(沙盒式爬虫) 我们称仅爬取静态页面的爬虫为静态爬虫,可爬取动态页面或SPA应用的排虫为动态爬虫。动态爬虫比如谷歌的 Evergreen Googlebot可有效爬取大部分的动态页面,原理类似Prerender利用无头浏览器抓取dom;但是就国内而言(比如百度)还是主要为静态爬虫。

开发必知

  • 开发目的
    对网站可爬取的页面,实现动态页面静态化,并配合SEO完成关键词布局及页面内容改造,使页面更易于搜索引擎爬取和收录。

  • URL动态地址、静态地址使用
    https://www.qizhidao.com/example 静态地址 https://www.qizhidao.com/example?id=1 动态地址 带query参数的地址称为动态地址,反之静态地址。 对于搜索引擎来说,上面两个URL虽然地址相同仅有query参数差异,但是还是会分别爬取建立索引,识别的是两张网页快照。如果由于query参数不同,而使搜索引擎爬取到大量的十分相似的页面,会触发搜索引擎的规则去识别网站是否在恶意刷页面数量,一旦判定会很大影响到网站评价,甚至降权拉黑。 日常开发静态页时,a链要注意使用静态地址,避免动态地址,实在无法避免请使用脚本跳转。

  • 网页权重引导/继承及301、302使用
    已收录页面变更地址或临时不能访问,为避免搜索引擎无法爬取,造成页面权重流失,需要针对老的访问地址做地址重定向完成引导或继承。搜索引擎便是通过访问返回的状态码做出判断的,301为永久重定向,302为临时重定向。已变更地址的页面,使用301;临时无法访问页面,使用302。 服务配置301重定向规则后最少要持续半月左右时间,具体是否可以下线配置,还要根据搜索引擎展示出的引导结果为导向的,原则上来说,搜索结果上旧地址完全替换成新地址后,就可以下线了。

  • 死链处理及404、500、403、503等
    死链简单来说就是无法访问的链接,分为协议死链(服务死链)、内容死链。过多的死链不仅仅会降低用户体验,更会导致导致搜索引擎降权。对于开发来说,避免死链主要就是要避免web服务原因导致的链接无法访问,如500;而纯粹的因为配置的网页具体内容不佳导致的死链,如空页、重复页不在考虑范围内。 及时的清理死链是SEO优化的一个重要环节,其中对大多数搜索引擎(比如百度)来说,404状态码(无法找到文件)清理效果最佳且无副作用。

 

NUXT服务关注点

服务端异步数据

在nuxt中参与服务端渲染的数据出现异常或错误,会导致服务抛出sever error (500),正常页面的协议死链,是要极力避免的。以下几种场景在开发中要额外重视:

  • 异步数据兼容处理(asyncData、nuxtServerInit...) 尤其是列表,参与运算的数据...

参与服务端渲染的高危DOM结构,相关的数据、方法...防报错处理

  • for循环

  • 过滤器

  • 方法

 

404/死链处理

404用作死链处理,在详情页中广泛应用。NUXT相关404及其他状态推送,一定要注意状态码抛送到位,并非重定向到/404页面

  • 正确写法

  • 错误写法

 

301处理

 

其他关注点

a链接

  • 区分目录文件

  • 站内静态页排查不同域名a链接,增加 rel="nofollow"

  • Javasript:void(0) 禁用,需调整dom结构

  • 避免锚文字为空

  • 网站内链接命名规范,仅为小写字母(a-z)、数字(0-9)、中划线(-),以外字符禁用。

 

禁用table

table布局相对div+css布局在完成相对复杂结构和效果时,无可避免会使用table相互嵌套的方式,爬虫遇到多表嵌套或过于复杂的dom结构时,会像style、script标签那样直接跳过内容。当然简单的单表内容也能被爬取,但仍然不建议使用;在开发静态页时,原则上来说禁止一切table的使用,推荐更简洁的div+css布局。

 

冗余代码

标签内过多的无意义的dom结构和内容,会导致爬虫在爬取分析时,直接跳过标签内容。以下暴露的几个问题点,需特别关注

  • 行内样式非必要不使用

  • 第三方组件库/公用组件静态部分非必要部分
    如element的弹层,带来的大量空结构,如下图原来码大片的空标签块

服务端需要做v-if处理,在客户端才释放

 

  • 神策存参方式问题
    以下上报方式以真实dom块进行存参。 如果确实三方工具有需要,也要仿照上面,在服务端做隐藏处理

 

动态链接

所有页增加 该标签是为解决网站相似页面存在多个链接时,权重归属哪个链接的问题。其中最主要的作用就是处理动态链接造成大量相似页的问题。

这个2009年由谷歌、雅虎、live Search提出的Link的一个新属性Canonical,已被大多数搜索引擎支持包括百度,但是百度对此的优先级还是比较低;做国内SEO针对做SEO的静态页来说,还是要规范写法,避免所有动态链接。如下:

 

TDK

在严格按照SEO进行关键词布局时,以下地方仍需给予一定的关注

  • title 后增加 -企知道
  • description 没需求时,需过滤标签,取摘要或是正文前100个字,摘要优先

 

Url规范

  • 1、同一个页面对应一个URL,避免同一页面映射多路径的情况(如:a.qizhidao.com/detail.html === b.qizhidao.com/detail.html || a.qizhidao.com/detail.html === a.qizhidao.com/detail.html?tag=1)
    • 1.1 搜索引擎不能很好的判断哪个URL是主链接,多种URL形式分散了该网页的权重,造成网站关键词排名下降
    • 1.2 搜索引擎误认为重复内容,可能对你的网站产生不利影响
  • 2、字母全部小写
  • 3、URL静态化,不带?、+、%等特殊字符;
  • 4、目录层级不超过3级
  • 5、文件及目录名要具有描述性(例如:公司就是company、员工就是sstaff),优先英文,如果出现多个英文单词用连词符及短横线(例如:news-detail)
  • 6、出现关键词,例如:https://qiye.qizhidao.com/company/huawei.html
  • 7、首选域,首页网址https://qizhidao.com/、https://www.qizhidao.com/index.html、https://www.qizhidao.com/只保留一个,一般是https://www.qizhidao.com/,其他全301指向https://www.qizhidao.com/