Py学习  »  Python

基于Python实现交互式数据可视化的工具(用于Web)

软件定义世界(SDX) • 4 年前 • 535 次点击  

热门下载(点击标题即可阅读)

☞【PPT下载】中国数据分析师行业峰会精彩PPT下载(共计21个文件)

作者:Alark Joshi 翻译:陈雨琳 校对:吴金笛

本文2200字,建议阅读8分钟。

本文将介绍实现数据可视化的软件包。


这学期(2018学年春季学期)我教授了一门关于数据可视化的数据科学硕士课程。我们的数据科学硕士项目是一个为期15个月的强化项目,这个项目已经成功地培养了许多优秀的数据科学家。

 

该项目的学生背景多元,并且他们在上这门课前都对R和Python有了很深入的理解。通过各种课程的学习,他们已经能够熟练使用ggplot2和matplotlib,为学习大型多变量数据可视化打下了基础。

 

作为一个数据可视化的研究者,我想要介绍所有那些在数据可视化领域涌现的绝妙技术。因此,我的课程的其中一部分将会是基于研究论文,在线可视化和d3示例的讲座。

 

Python中的数据可视化


现在大部分的数据可视化研究都是通过D3进行的。遗憾的是,我只有短短8周跟学生相处的时间,所以我只能专注于讲授理论和实践相结合的内容来帮助他们成为数据科学家。虽然学生乐于使用可视化技术探索并解释问题,但他们中的大多数对于使用D3创建美丽的自定义可视化不太感兴趣。根据之前教授这门课的教授反馈来看,在这么短的时间内教授D3是不可能的。

 

鉴于我自己对Python的热爱和Python给学生带来的舒适体验,我决定向他们介绍Python中神奇的(我希望是的!)软件包,它们可以实现所有我向学生展示的内容。

 

Seaborn的静态可视化


鉴于我过去使用seaborn的经验,我很高兴能够向学生介绍seaborn产生的美丽的可视化图案。 他们已经有了使用matplotlib的经验,所以学习seaborn时很容易,且优势巨大。 学生能够制作散点图(双变量和多变量),swarmplots,小提琴图,条形图,箱形图和带有刻面的直方图。他们了解到,使用大型数据集生成swarmplots非常耗时,而基于摘要的图(如小提琴图)是更好的选择。

 

Seaborn中的可视化技术示例

 

用Bokeh或Plot.ly实现交互式可视化


虽然seaborn能够产生美丽的可视化图形,但它们都是静态的。我希望学生体验使用交互技术(如梳理,过滤,缩放和悬停)的好处。为此,我介绍了可视化库Bokeh和Plot.ly,利用它们可以轻松实现交互式数据可视化。对于时间序列可视化分配,学生可以选择使用Bokeh或 plot.ly来实现多线图(multi line charts),热图(heatmaps),动画气泡图(animated bubble charts)等。

 


使用plot.ly创建的可视化示例

图片来源:PolicyViz

 

Bokeh中的交互式可视化

图片来源:Christine Doig

 

可视化树,图和网络


在讨论分层数据可视化的技术时,我很高兴地展示树状图可视化技术,并将其与节点链接图进行了比较。遗憾的是,当我深入挖掘时,却没有找到实现多级树状图的方法L 即使在导入了squarify库之后,你也只能在Python中生成一个一级树状图!

使用squarify包只能生成一级树图

图片来源:The Python Graph Gallery

 

精彩的networkx软件包可以被用来分析图形和网络。 然而,网络可视化只能通过matplotlib或igraph或plotly来实现(请参阅使用plotly实现网络可视化的教程)。igraph有许多不同的选项可以帮助用户尝试配置图形,但是设置起来很不方便,因此许多学生在使用时遇到了问题。另一方面,plot.ly使用顺畅,但在自定义网络图方面几乎没有选择。

 

地学可视化


鉴于创建交互式映射图是数据可视化的重要组成部分,我对于找到能够创建等值区域图(choropleth maps),符号图(symbol maps),统计图(cartograms),交通图(transit maps)甚至流向图(flow maps)的软件包更有信心。以下是我在Python中发现的地学可视化库:

 

  • Plot.ly允许您创建等值区域图和符号图,但几乎无法控制图的创建过程。 

  • geoplotlib是一个小巧好用的软件包,它建立在pyglet上,但它有点不稳定,经常崩溃。它使用OpenStreetMap图块,甚至允许基于动画的空间数据可视化。我很喜欢这个包,因为它里面有一些简洁好用的示例。

  • geoplot看起来很完美,其中有一些很棒的例子,但是我和我们的学生都无法安装它。鉴于我们大多数人都不使用conda,我们应该注意这个警告 - “请谨慎使用,因为这可能不适用于Windows,并且可能无法在OSX和Linux上运行。”

  • Cartopy和geopandas+matplotlib只生成静态可视化,所有我还没有尝试过。

 

文本可视化


我们学习了很多关于各种文本可视化技术的知识,例如标签云(tag clouds)(例如wordle),文档散(docubursts),平行标签云(parallel tag clouds),短语网络(phrase nets)和单词树(word trees),还介绍了主题探索和情感可视化技术。

 

不幸的是,除了word_cloud软件包之外,对于想要在Python中实现单个文档或大型文本集可视化的人来说,几乎没有其他选项。

 

Web的交互式数据可视化


当前,Bokeh和Plot.ly Dash是创建允许多视图刷选和过滤的交互式仪表盘的主要选择。Bokeh的示例非常少,而Plot.ly Dash对惯于在Python中创建可视化的用户来说则非常重要。

 

Plot.ly Dash是基于Flask,Plotly.js和React.js构建的,同时增加了创建同步多视点可视化的障碍。我班上的一些学生团队使用Plot.ly Dash完成期末项目,但他们学得非常快。以下链接中是一个关于Ryan Campa和Shikhar Gupta通过Dash实现TED演讲数据集可视化的简单案例。


 http://campa-gupta.herokuapp.com/


Altar会是理想的选择吗?


随着课程的进展,出现了一些关于Python 和 Vega组合成为Altair的消息!我欣喜地得知我所使用的Vega来自UW Interactive Data Lab。Jim Vallandingam出色的“Altair简介”教程是一个很好的起点。

 

Altair的主要开发人员Jake VanderPlas最近发布了他的Python笔记本和PyCon 2018视频的链接。我从那以后一直在玩它,我非常喜欢它!数据科学家们希望探索他们的数据并创建可视化图形来从内部和外部解释它们。我希望它能满足数据科学家的需求。 


Altair示例库中的交互式可视化示例集合

图片来源:Altair Gallery

 

总结


数据科学家喜欢使用Python中的可视化库和包,我希望像Altair这样的工具就是最终的实现途径。诸如plotly,seaborn,bokeh,geoplotlib等软件包将继续发展,并拥有更多功能。通过Python实现的交互式数据可视化(用于Web)将有一个更光明的未来,我们期待这一天!

 

致谢


感谢Sophie Engle教授提供的讲座笔记,让我在整个学期的讲课都很顺利。感谢Shirley Wu和Robert Gove为早期的草稿提供了极有价值的反馈。


原文标题:

We need more Interactive Data Visualization tools (for the Web) in Python

原文链接:

https://medium.com/@alark/we-need-more-interactive-data-visualization-tools-for-the-web-in-python-ad80ec3f440e

译者简介:陈雨琳,清华大学大二在读,英语专业。专业学习之外喜欢学些数学、计算机类课程,被数据和模型的魅力所吸引,希望未来能往这个方向发展。道阻且长,行则将至。

转自:数据派THU 公众号;

读BD最佳实践案例,赢DT未来!

18各行业,106个中国大数据应用最佳实践案例:

(1)《赢在大数据:中国大数据发展蓝皮书》;
免费试读:https://item.jd.com/12058569.html

(2)《赢在大数据:金融/电信/媒体/医疗/旅游/数据市场行业大数据应用典型案例》;

免费试读:https://item.jd.com/12160046.html

(3)《赢在大数据:营销/房地产/汽车/交通/体育/环境行业大数据应用典型案例》;

费试读:https://item.jd.com/12160064.html

(4)《赢在大数据:政府/工业/农业/安全/教育/人才行业大数据应用典型案例》。

免费试读:https://item.jd.com/12058567.html

或点击“阅读原文”,购买“赢在大数据系列丛书”。

推荐文章


点击蓝色标题即可阅读全文

10万读者睿选2016年TOP1002015年TOP100

BDAI100:大数据AI产业创新与投资百人会(BDAI100),致力推动1000家亿元BDAI企业涌现、推动BDAI与100万亿实体经济的深度融合、加速10万亿数据经济腾飞(简称“BDAI100十百千工程”)

CCTV大数据名人讲堂PPT&视频:万亿元大数据产业安全城市】【农业航运】【数据资产变现

DTiii:2233家大数据产业地图PPT及下载】【TOP100】【亿元俱乐部】【2233家详单

数据中台:凯哥八问颠覆数据工程师

院士:李国杰【(PPT)(全文)】【 数据开放】,邬贺铨倪光南【大数据时代)()】,怀进鹏梅宏

大数据100分:【金融】【制造】【餐饮】【电信】【电商】【更多行业大数据应用请点击底部导航栏BD100分】;

大数据/人工智能数据竞赛:Kaggle经验分享NetFlix百万美金】【Kaggle案例】【2017BDCI 】【2017BDCI嘉年华2018BDCI嘉年华滴滴算法大赛】

征信:ZestFinance】【BCG】【芝麻信用】;

工业4.0:罗兰·贝格】【安筱鹏

人工智能:阿里&BCG】【埃森哲经济社会】【美国AI国家战略伯努利李开复】【TOP100】【2016中国AI报告】【美国AI国家规划】【深度学习】【人智合一】【人脸识别】【人脸识别企业PK 】【无人驾驶】【AI知识体系】【神经网络

区块链:TED视频】【麦肯锡】【毕马威】【高盛

算   法: 【10大经典算法】【推荐算法

数据科学家:13个真实场景数据科学应用案例数据科学家工具包,数据科学家成指南让统计"看得见"21个面试题和答案

可视化:【2017年获奖2014年最佳】【十大标志性作品】【43款工具

PPT:【大数据产业地图】【 数据之巅互联网的未来】【软件正吃掉整个世界】【互联网思维】【互联网+】【一带一路】;

VC:【独角兽研究报告】【大数据投资2015创投趋势2014投资报告倒闭教训

人才:2018BD&人才报告2017BD&人才报告

大数据应用最佳实践案例:18个行业106个案例

原创:陈新河:万亿元大数据产业新生态软件定义世界,数据驱动未来数据交易互联网+观点】。

专题版本:20190408V3.52

底部新增导航菜单(点击顶部“ 软件定义世界(SDX)”,点击“进入公众号”,底部菜单栏即出现),下载200多个精彩PPT,持续更新中!

上下滑动查看更多精选专题

微信公众号:软件定义世界(SDX)

微信ID:SDx-SoftwareDefinedx

软件定义世界, 数据驱动未来;

❷ 大数据思想的策源地、产业变革的指南针、创业者和VC的桥梁、政府和企业家的智库、从业者的加油站;

个人微信号:sdxtime,

邮箱:sdxtime@126.com;

=>> 长按右侧二维码关注。

底部新增导航菜单,下载200多个精彩PPT,持续更新中!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/33011
 
535 次点击