python数据挖掘：能不能找出吃货最佳住宿点？

数据挖掘入门与实战公众号： datadw

这次我爬出了哈尔滨市TOP285家好吃的店，包括烧烤的TOP，饺子的TOP，酱骨的TOP等等等等，在地图上显示，规划热点，再用聚类算法计算下能不能找出吃货最佳的住宿点，能够距离吃的各个地方行程最近，吃货们，准备好了吗？

回复公众号"吃货" 获取更多源码。

目的

可视化美食热点，规划各类美食聚集点，规划行程。

准备食材

首先，我不对这次排行的可信度负责，我只是直接百度的top餐厅，里面的水分大家自己掂量，甩锅给哈尔滨美食最新榜出炉，史上最强300家美食满足你各种挑剔！

http://www.360doc.com/content/16/0504/20/1097634_556278017.shtml

大概是这样的

这次我用静态爬发现被拦截了，mdzz，然后我就直接上selenium+Firefox，至于为什么不上PhantomJS，我这里说下，有时候PhantomJS爬的内容没有Firefox全，或许有人跳出来说，你个sb，他两是一样的啊，而且PhantomJS更加省内存，呵呵，你自己去试试就知道了，我不止一次在爬动态的时候PhantomJS遇到问题而Firefox没有问题的，连xpath都一样，就换了个无头，就不行了，我也有看到Stack Overflow上遇到同样问题的，可能是我手法不够吧，或许是我真的理解错了，到时候我自来认错。

清洗食材

刚爬下来的数据肯定不能直接用的，又是空格又是序列的，处理的方法很多，可以用正则，sub换空格，然后splite切割，组成列表再取，洗的方法很多，具体看数据是怎么样的，洗完后放进冰箱，啊不是，放进txt或者保存为csv，xls都可以的呢~

注意点

有些数据，大概三四个，我清洗完之后发现有错误，比如洗出个空格，额。。。。我尝试用try，except检测错误，查看原始数据，发现源链接中的js写的不标准造成的，哎，手动改好，再清洗一遍，不要刻意为了这一两个数据重写清洗算法，不就是sb了想着全自动一步成型，我咋不上天啊。。。

食材腌制-定位经纬度

通过地址转换得到相应的经纬度，得到的数据格式有两种如下所示

左一为地址+经纬度，逗号隔开，右一为经纬度，空格隔开，为什么要生成两个格式？因为我喜欢啊，哈哈哈

食材保存–转化CSV

直接右键另存为，然后保存格式为.csv即可，有人说，为什么不用csv的写入方法啊，因为我懒啊，我懒得重新构造字典了，这里甩上一段可以写入中文的csv格式。

弄完之后大概是这样的就可以下锅了

烹饪食材–聚类处理

我们要用的数据集是空格隔开的，至于为什么空格隔开的经纬度数据，因为我以前写好的bikmeans里面输入项就是就是酱紫的，空格用正则比较好处理，用个list装下Obj.[0],[1]立马出来值了,至于Kmeans是啥，怎么用，请看

【Python】爬虫+ K-means 聚类分析电影海报主色

，这里处理完后，我随机设置了5，10，15，20四种聚类点，观察各种效果。代码我在附录放上，参考的可以直接取附录找。聚类处理之后依旧保存如上一步的一张图形式，之后就可以开始可视化了！

佳肴摆上桌–数据可视化

枯燥的数据让人很难受，根本分析不出什么来，而且看着枯燥，这里我用了地图无忧这个网页版，虽然只有七天免费期，哎，辛辛苦苦画的图以后不能用了，(如果有谁知道还有类似的批量经纬度点转化图的软件请告诉我一下)真蛋疼.

具体的操作，直接看教程很简单的，我就是建图层，然后图层上批量放入经纬度，它就能转化成地图上的点，很好玩，看个动图，这是我把点放上的效果。

享用佳肴–分析数据

先看下各种分布把，这个是热力图

这个是点阵图

把聚类的点加上，选了聚类点为15个

有些点不错，但是有些点太扯了把，貌似不是kmeans的宗旨的，他是为了找距离各热点最近的平衡点啊，是聚类点啊，但是有几个点明显不是了，查看原因。

问题所在：可以看出来，上面的点分布原因因为这些离散点的存在，我看了最远的点，亚布力滑雪场，的确有家店不错，额，可是我不考虑，我要是在市区玩，我还想去那么远的地方？明显不合理，所以我需要的是真的热点区域，也就是第二幅的那样，所以又要重新洗一下数据了，把离散点也就是噪声去掉！

烧糊了–重新来

虽然整体上来说，这个算法没错，但是如果对具体问题，比如说，我就想知道哈尔滨市内有什么比较好吃的，我懒得动，不会跑到江北或者更远的地方去吃，而且交通不方便，所以就要对经纬度集合进行切割，我找了合适返回，规定为经度范围126.56571~126.706807，纬度返回45.706283~45.802307，主程序中添加LockHotArea子函数，进行再一次过滤即可。

之后步骤重回前面的，最后的效果就是这样的

回锅肉–再分析数据

这回应该没有问题了，所以开始分析图吧

这里上20个聚类点的情况

可以看出，聚类点的分布基本都在热点区域，说明比较符合情况，但是K的值并不很能确定，需要多次试验k值

cluster15，这些点就有点尴尬了。能说明什么？可能是住宿的最佳点把，因为离各个好吃的距离是比较近的，这本来就是kmeans的核心。
cluster10的时候，聚类点就开始有点夸张了，虽说很多仍在热力分布上，但是，有一些明显不在热力辐射返回内，但对于能吃遍各个周围美食的人来说，仍然值得参考（这里不涉及代步工具）