Gooseeker,亦叫集搜客。 我少量数据抓取时的首选爬虫软件!

目前,我接触过的爬虫工具包括:火车头、Gooseeker、八爪鱼、神箭手。

少量数据采集一般用Gooseeker,大量数据采集用火车头,另外两款工具使用得比较少。

这篇文章重点结合我抓取拉钩上产品经理职位的实例,说一下Gooseeker的使用。

使用前说明

Gooseeker,一般适用少量数据的抓取。

免费版,每条规则可以采集10000条数据,并不支持iP代理,这也注定了基本上很难使用其进行大量数据的采集。

前期准备

1.注册Gooseeker账号

注册地址:https://www.gooseeker.com/register_default.html

2.下载Gooseeker软件

下载地址:
https://www.gooseeker.com/pro/product.html

3.学习Gooseeker软件知识

教程:
https://www.gooseeker.com/tuto/tutorial.html

设置一级规则

1.进入采集页,选择好要采集下的状态

2.设置名称,标记内容

3.设置好样例映射

4.设置好翻页

5.设置好下级线索

6.测试

7.保存规则

设置二级规则

这里需要注意二级规则的名称需要与一级规则设置的下级线索一致。

设置并启动爬虫

直接设置好相关内容,然后启动爬虫即可。

数据导出

这里直接导出了二级线索的数据。

数据整理

如果涉及到多个表格的合并则需要用到Excel的VLOOKUP函数。

语法为:

=VLOOKUP(lookup_value,table_array,col_index_num,range_lookup)

以上就是整个Gooseeker的使用过程,将数据整理后,可以放入BDP进行数据的分析,这里就不不展开叙述了。

PS:整个过程写得比较糟,算是记录一个整个事情,并未想写出一个教程性的文章,Gooseeker我是好几年的用户了,记录一下最近的一个操作。

最后修改:2018 年 08 月 30 日
如果觉得我的文章对你有用,请随意赞赏