Py学习  »  Python

40个问题测试你在数据科学方面的python水平(1)

Python程序员 • 6 年前 • 757 次点击  

Python部落(python.freelycode.com)组织翻译,禁止转载,欢迎转发。

毫无疑问python在数据科学爱好者中越来越受欢迎了,重要的一点就是它为通用编程语言带来了一个完整的体系。使用python你不仅可以转换操作数据,而且还可以在单一体系中创建强大的管道命令和机器学习流程。
在Analytics  Vidhya,我们都非常喜欢使用python,大多数人拿它作为机器学习的首选工具。另外,如果你想学习深度学习,很明显,python在这个领域有着比其它编程语言更大的优势,它已经形成了一个成熟的生态体系。
如果你正在为数据科学而学习python,那么这个测试可以用来帮助评估你在这方面的python水平。该测试是作为DataFest2017的一部分进行的,总共近1300人参加了这些测试,其中超过300人参加了此次测试。

下面是参加这个测试的人的得分情况:

你可以在这个网址获得最终的得分情况:https://datahack.analyticsvidhya.com/contest/avdatafest-powertool-python-for-data-science/lb

下面列出一些统计结果:

  • 平均分:14.16

  • 中位数:15

  • 众数:0

Questions & Answers

问题1描述;

想必你肯定看过“How  I met  your  mother”这个娱乐节目,当他们在玩这个游戏时,一旦有人说“but,um",那么每个人都必须喝一杯饮料。现在我想改变一下这个游戏,用你的技术来玩这个游戏。游戏的目的就是你需要写一个代码来确定一个人在整个游戏中喝了多少杯饮料。

以下是一个样本字段。

提示:已经导入了python的正则表达式库re

1)下面哪一个代码能完成这个任务?

答案(C)
你需要找到所有的大小写字母“but",所以C是正确的

问题2描述
给定以下字符串:

为了从上面的字符串中提取出Email地址的域名(例如“aaa","bbb",…),你写了下面的代码:

2)  上面代码中的“___"处应该填写什么是数字呢?
提示:已经导入了python的正则表达式库re

A) 0
B) 1
C) 2
D) 3

答案(C)
参看正则表达式语法

问题3描述
你的朋友有一个假设 - “所有那些以字母”y“发音结尾的人(例如:Hollie)都是聪明的人。”请注意:这个名字应该以"y"的发音结束,而不能以字母“y"结尾"。现在,你需要根据这个假设从你们学校网站上抓取出这些数据。下面是已经收集到的数据

你写了下面的代码来列出所有符合这个假设的人的名单:

3) 在正则表达式中,"pattern"处应该怎么写?

答案(B)
你需要找出所有以"I"或"ie"结尾的字符串,所以B是正确的。

问题4描述
给出下面两个列表:

现在需要将两个列表的元素合在一块形成一个新的列表,如下

4) 你会选择下面哪个选项呢?

答案(B)

5) 假设你已经建立了一个机器学习模型,但是你现在不想用它,过一会再使用。下面哪个命令能满足这个要求?

提示:库pickle已被导入为pkl

答案(C)

问题6描述
将下面的字符串转换成日期值

6) 为了实现这个目的,“date_format"处的表达式应该填写出什么?

答案(D)

我已经建立了一个简单的神经网络用于图像识别问题。现在,我想测试是否为隐藏层正确设置了权重和偏差。为了实现这个目的,我需要一个单位矩阵作为输入。以下是我的单位矩阵:

7) 在python中如何生成这样的单位矩阵?
提示:库numpy已导入为np

答案(A)
选项B应该为np.identity(),选项C的语法是错误的。

8) 为了检测两个数组是否占据了同样的空间,应该怎么做?
例如,这里有两个数组

当你改变第一个数组的值时,第二个数组也会随着改变。如下所示将第一个数组的前五个数改为0,那么最终两个数组的输出结果如下:

A) 检查两个数组的内存,如果相互匹配就是一样的
B) 看“np.array_equal(e, f)”的输出,如果结果是“True",那么他们是一样的
C) 输出"e.flags"和“f.flags"的值,如果其中一个是”False",则这两个数组分配了同样的空间
D) 以上都不对
答案(C)

问题9描述
假设你要将训练数组(train_set)和测试数组(test_set)都加入到结果数组(resulting_set)中做数据处理,如下;

9) 你怎样合并这两个数组?

答案(C)
A和B都是水平放置,但是结果应该是垂直放置。

问题10描述
假设你正在调节Iris数据集的随机数分布参数

10) 对于“random_state (Seed value)”,下面哪个是最好的值?

答案(D)
这里没有最好的值,它取决于数据的具体情况

问题11描述
当用numpy读取csv文件时,你希望自动填充在“Date_Of_Joining"列丢失的日期值”01/01/2010"

11) 下面哪个命令能在读取文件的同时补充丢失的值?
提示:库numpy已导入为np

答案(A)

12) 在sklearn中如何导入一个决策树分类器?

答案(C)

13) 您已将数据集以csv的格式上传到Google的电子表格上并公开分享了。现在你想在python中访问它,该怎么做?
提示:已导入StingIO库

答案(A)

问题14 描述
假设你有个3行2列的数据导入到pandas

现在你想在“features"列使用lambda函数

14)  下面的命令将会输出什么?

答案(A)
问题15描述
我们有一个根据葡萄酒属性来预测其质量的多类别分类问题,现在数据“df"以dataframe的格式被导入了

表示质量那列的值目前为1到10,现在要用二进制问题来代替,大于5的输出为1,其它的输出为0
15)下面哪个代码能完成这个任务?

提示:库numpy已导入为np

答案(A)
问题16描述
假设有一个DataFrame类型的数据

16)下面给出的两种表达式有什么不同?

答案(B)
问题17描述
考虑一个函数“fun"

17) 现在你输入了一个包含3个数的列表,下面的语句将会输出哪个结果?

答案(A)
问题18 描述
Sigmoid函数经常用来创建神经网络激活功能,他的定义如下:

18) 找到sigmoid函数的衍生函数是非常重要的,下面哪个选项能完成这个任务?

答案(C)
问题19描述
将一个按月记录的数据转换为按日记录,如下:

首先你必须将数据扩充到每个月(假设每月是30天)
19)下面哪个代码能实现?

答案(B)
问题20-22
给出DataFrame格式的数据df

20 )现在要将df中的列“Count"改为”Click-Count"。有如下代码,那么最终的语句将会输出什么?
提示:库Pandas已导入为pd

答案(B)


英文原文:https://www.analyticsvidhya.com/blog/2017/05/questions-python-for-data-science/
译者:buhaoxuesheng



原文
今天看啥 - 高品质阅读平台
本文地址:http://www.jintiankansha.me/weixin/MNrm2iga29
Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/2040
 
757 次点击