如何在建设初期优化网站?

发布时间:2020-07-21 09:10:00

网站建设初期,页面数量有限,团队数量有限,网站各页面元素变化不大。然而,在网站建设过程中,网站需求方的需求量越来越大,网站变更的频率也越来越高。XX部门提出的XX需求可能会影响SEO流量。如果不及时发现,时间就会延长,可能造成更严重甚至不可逆转的后果。

这可以通过改进在线需求过程来解决。例如,在提交涉及页面更改(新页面和现有页面元素的更改)的需求的Rd之前,SEO部门需要介入需求评审阶段。在确认需求对SEO渠道用户没有影响后,正式提交RD。

令人尴尬的是,相当一部分公司,SEO因为不可控制的历史效应,或者说SEO不是用户拉新的主渠道,SEO更难解决在PM和RD面前发言权的问题,他们可能不太在意,他们呼吁SEO一起玩时,他们忘记审查。这种情况需要具有八卦特征的SEO。我与研发和项目经理无关,问他们最近有什么新需求

但是,即使在这个过程中可以做到,页面元素也会有变化,但是SEO并没有及时通知,比如新产品的要求,不知道有这样的过程。

另外,由于SEO部门人员变动,老员工离职,新员工进入。新的SEO不能很快了解网站的历史背景,老员工和新员工交接时,很多细节都会被遗漏,导致新的SEO,在未来,它会步入一些可以避免的深坑。

一些基本的SEO对于爬虫日志来说,也没有足够的分析能力,或者需要每天手动拿一次软件或者shell来分析数据,然后在执行SEO动作时,操作复杂而低效。

为了解决上述两个问题,需要一套“及时止损机制”,及时发现潜在风险,提高日常SEO的效率。

我把“及时止损机制”分为两部分:“爬虫日志监控”和“页面功能监控”

上图显示了“爬虫日志监控模块”的逻辑,分为“检查字段”、“触发条件”和“执行动作”三个步骤。以下是一些可能需要解释的要点:

根据UA为Baidu pider的爬虫程序,可以检测出IP是否是真正的Baidu pider。如果是假蜘蛛,就会被列入黑名单。如果它是一只真正的蜘蛛,它就会被添加到百度pider的白名单中。

其他主流搜索引擎将所有的IP地址添加到相应的白名单中,然后根据IP段将其排除。

收集白名单IP,这可以作为SEO在未来。例如,如果一个需求量小的产品SEO不允许上去,SEO就会回到下一个地方,只显示这个元素为IP的白名单,而不是为普通用户。

对站内所有URL类型进行提前统计,并对URL类型对应的正则表达式进行排序,这些正则表达式都是站内已知页面的爬虫。

由于包括产品经理在内的大多数SEO可能不清楚站点中有多少个url集,因此还需要通过日志查找未知的url并执行相应的SEO操作。

为什么要计算“$body”\ubytes““sent”字段呢?

因为以前也有过类似的情况:某一类页面的流量会一个接一个地减少。在检查爬虫日志之后,360spider访问了部分页面,返回的文件大小是54K,这不是页面上HTML文件的正常大小。通过对该技术的研究,发现新推出的反爬虫策略很快没有将360Spage添加到白名单中,导致了反爬虫策略的触发,并返回到空白页面。