Py学习  »  机器学习算法

automl机器学习与绘图数据准备的数据库设计

Peter P. • 4 年前 • 407 次点击  

我们想开始使用一些automl机器学习技术对我们的数据进行分析。我们希望创建一个表,后台进程将合并并准备我们的关系数据库(mysql),这样就可以很容易地导出一个电子表格,该表格将被导入一些automl程序(可能是h2o)。

在我们的平台中,用户可以执行多种类型的操作,我们称之为“活动”。我们要做的是从他们的账户创建开始跟踪他们的参与超时,并将这些数据传递到我们的automl程序中进行分析,以确定某些行为是否会导致某些结果(例如,某些活动的减少会导致其账户的注销)。

最后,我们希望电子表格具有以下格式:

用户ID活动类型周1计数周2计数周3…|周数

每个星期的计数是该用户在其活动之后的每个星期中该活动的计数。如您所见,列的总数每周都会增加。由于决议是以周为单位的,所以列数应该是合理的。我们5年前就开始了(5*52=260周),也许我们再去20周?(52*20=1040周/列)。可以在电子表格中实现,并且非常接近mysql的最大列数(在我们的mysql版本中是1017)。

不过,我想知道,如果每周不创建列,替代结构的性能是否也一样:

用户标识活动类型年周计数

两种方法各有利弊吗?特别是,我们还希望将此表用作源数据,以馈送到图形库中,以随时间显示每个活动。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/39903
 
407 次点击  
文章 [ 1 ]  |  最新文章 4 年前