
数据挖掘入门与实战 公众号: datadw
这次我爬出了哈尔滨市TOP285家好吃的店,包括烧烤的TOP,饺子的TOP,酱骨的TOP等等等等,在地图上显示,规划热点,再用聚类算法计算下能不能找出吃货最佳的住宿点,能够距离吃的各个地方行程最近,吃货们,准备好了吗?
回复公众号"吃货" 获取更多源码。
目的
可视化美食热点,规划各类美食聚集点,规划行程。
准备食材
首先,我不对这次排行的可信度负责,我只是直接百度的top餐厅,里面的水分大家自己掂量,甩锅给哈尔滨美食最新榜出炉,史上最强300家美食满足你各种挑剔!
http://www.360doc.com/content/16/0504/20/1097634_556278017.shtml
大概是这样的

这次我用静态爬发现被拦截了,mdzz,然后我就直接上selenium+Firefox,至于为什么不上PhantomJS,我这里说下,有时候PhantomJS爬的内容没有Firefox全,或许有人跳出来说,你个sb,他两是一样的啊,而且PhantomJS更加省内存,呵呵,你自己去试试就知道了,我不止一次在爬动态的时候PhantomJS遇到问题而Firefox没有问题的,连xpath都一样,就换了个无头,就不行了,我也有看到Stack Overflow上遇到同样问题的,可能是我手法不够吧,或许是我真的理解错了,到时候我自来认错。
清洗食材
刚爬下来的数据肯定不能直接用的,又是空格又是序列的,处理的方法很多,可以用正则,sub换空格,然后splite切割,组成列表再取,洗的方法很多,具体看数据是怎么样的,洗完后放进冰箱,啊不是,放进txt或者保存为csv,xls都可以的呢~

注意点
有些数据,大概三四个,我清洗完之后发现有错误,比如洗出个空格,额。。。。我尝试用try,except检测错误,查看原始数据,发现源链接中的js写的不标准造成的,哎,手动改好,再清洗一遍,不要刻意为了这一两个数据重写清洗算法,不就是sb了想着全自动一步成型,我咋不上天啊。。。
食材腌制-定位经纬度
通过地址转换得到相应的经纬度,得到的数据格式有两种如下所示
左一为地址+经纬度,逗号隔开,右一为经纬度,空格隔开,为什么要生成两个格式?因为我喜欢啊,哈哈哈
食材保存–转化CSV
直接右键另存为,然后保存格式为.csv即可,有人说,为什么不用csv的写入方法啊,因为我懒啊,我懒得重新构造字典了,这里甩上一段可以写入中文的csv格式。

弄完之后大概是这样的就可以下锅了

烹饪食材–聚类处理
我们要用的数据集是空格隔开的,至于为什么空格隔开的经纬度数据,因为我以前写好的bikmeans里面输入项就是就是酱紫的,空格用正则比较好处理,用个list装下Obj.[0],[1]立马出来值了,至于Kmeans是啥,怎么用,请看
【Python】爬虫+ K-means 聚类分析电影海报主色
,这里处理完后,我随机设置了5,10,15,20四种聚类点,观察各种效果。代码我在附录放上,参考的可以直接取附录找。聚类处理之后依旧保存如上一步的一张图形式,之后就可以开始可视化了!
佳肴摆上桌–数据可视化
枯燥的数据让人很难受,根本分析不出什么来,而且看着枯燥,这里我用了地图无忧这个网页版,虽然只有七天免费期,哎,辛辛苦苦画的图以后不能用了,(如果有谁知道还有类似的批量经纬度点转化图的软件请告诉我一下)真蛋疼.
具体的操作,直接看教程很简单的,我就是建图层,然后图层上批量放入经纬度,它就能转化成地图上的点,很好玩,看个动图,这是我把点放上的效果。

享用佳肴–分析数据



有些点不错,但是有些点太扯了把,貌似不是kmeans的宗旨的,他是为了找距离各热点最近的平衡点啊,是聚类点啊,但是有几个点明显不是了,查看原因。

问题所在:可以看出来,上面的点分布原因因为这些离散点的存在,我看了最远的点,亚布力滑雪场,的确有家店不错,额,可是我不考虑,我要是在市区玩,我还想去那么远的地方?明显不合理,所以我需要的是真的热点区域,也就是第二幅的那样,所以又要重新洗一下数据了,把离散点也就是噪声去掉!
烧糊了–重新来
虽然整体上来说,这个算法没错,但是如果对具体问题,比如说,我就想知道哈尔滨市内有什么比较好吃的,我懒得动,不会跑到江北或者更远的地方去吃,而且交通不方便,所以就要对经纬度集合进行切割,我找了合适返回,规定为经度范围126.56571~126.706807,纬度返回45.706283~45.802307,主程序中添加LockHotArea子函数,进行再一次过滤即可。

之后步骤重回前面的,最后的效果就是这样的

回锅肉–再分析数据
这回应该没有问题了,所以开始分析图吧





回锅肉上的一颗花椒–单点分析
这里我把24个TOP数据都摆上了图层,可以清晰的看出这些好吃的都分布在哪,这里放上几张示范图,具体自己想看的,可以自己吃货的地图自己定位
以包子TOP为例



所以综上所述,喜欢吃包子的吃货,可以选择以上的点当做中转点或者住宿点,到哪个包子铺都是比较近的,但是!!!谁会一天三餐加夜宵都吃包子??开个玩笑哈
更多组合
喜欢吃什么,任君挑选,比如说,你又喜欢吃饺子又喜欢串串香,没问题,看看他们都在哪。聚类我没做,懒。和做包子聚类点类似,先把饺子的经纬度和串串香经纬度挑出来,再进行聚类即可




图就到这,更多美食大家自己去发现,点开图层就可以了~
Pay Atterntion
1.再进行对热点区域的切割的时候,需要比较阈值,出现了错误,测试发现原来类型错误,比较错误,如下演示。

2.调用API经度误差的问题,具体演示这里,误差我看了一下。能调用的API精度误差大概百米多,没办法,能免费调用的API大家都懂的。

当然,很多都是比较准确的,比如这些。

总结
最终住哪,这不是我能决定的,主要还是靠交通,住宿环境和个人心情,推荐住在地铁附近,吃货可以选择在中央大街附近,最繁华,也里老道外很近,好吃的很多~诶,等等,我不是在做学术研究么。。
附录–代码
这是核心程序,调用的API_get子程序太长了.
回复公众号"吃货" 获取更多源码。

人工智能AI与大数据技术实战
搜索添加微信公众号:weic2c

长按图片,识别二维码,点关注
数据挖掘入门与实战
搜索添加微信公众号:datadw
教你机器学习,教你数据挖掘

长按图片,识别二维码,点关注