老板安排了新的任务,需要爬取一些数据,然后进行机器学习,来给决策提供依据或者建议。
当前这一步,爬取相关的大众点评商家信息,并建立关系。
当前已有:选址名称,腹地名称,选址经纬度,腹地经纬度。
思路1:筛选点评上符合要求的商铺,然后全部爬下来,再与当前已有的数据建立联系(通过经纬度,地址等方式,需要商铺的经纬度、地址等信息)
思路2:根据当前已有信息,如地址,经纬度,去点评上搜索附近的商铺,然后爬下来,这要求知道点评根据经纬度筛选商铺的接口,经过观察发现点评的APP上有这个功能,但是抓包失败。
思路3:从点评的m站上搜索,关键词为地址,然后过滤美食。结果并不好用,经常查询的是具体地址,而非商铺。
思路4:直接从爬虫群里购买数据和代码,但是可能不靠谱。
思路5:从网上搜索爬取商铺的代码,改改自己用。这种方式多数都是从web版的网页上进行爬取的,自己执行爬取的时候,得注意使用代理切换ip,不然的话,可能数据会有问题。
尝试了一番之后,大概只有第五种方法比较可行。
从百度直接搜索点评爬虫,和在gitee上搜索点评的爬虫,发现绝大多数都是爬取的都是去爬的商铺的评论,但是这顺便会爬商铺。
从中甄别一下看是不是有坐标经纬度,如果有的话最好,可以通过经纬度的计算来筛选某些点附近的商铺,然后计算。
总结下来基本还是思路1的路子。OK,开始执行。
近期评论