Py学习  »  机器学习算法

automl机器学习与绘图数据准备的数据库设计

Peter P. • 6 年前 • 635 次点击  

我们想开始使用一些automl机器学习技术对我们的数据进行分析。我们希望创建一个表,后台进程将合并并准备我们的关系数据库(mysql),这样就可以很容易地导出一个电子表格,该表格将被导入一些automl程序(可能是h2o)。

在我们的平台中,用户可以执行多种类型的操作,我们称之为“活动”。我们要做的是从他们的账户创建开始跟踪他们的参与超时,并将这些数据传递到我们的automl程序中进行分析,以确定某些行为是否会导致某些结果(例如,某些活动的减少会导致其账户的注销)。

最后,我们希望电子表格具有以下格式:

用户ID活动类型周1计数周2计数周3…|周数

每个星期的计数是该用户在其活动之后的每个星期中该活动的计数。如您所见,列的总数每周都会增加。由于决议是以周为单位的,所以列数应该是合理的。我们5年前就开始了(5*52=260周),也许我们再去20周?(52*20=1040周/列)。可以在电子表格中实现,并且非常接近mysql的最大列数(在我们的mysql版本中是1017)。

不过,我想知道,如果每周不创建列,替代结构的性能是否也一样:

用户标识活动类型年周计数

两种方法各有利弊吗?特别是,我们还希望将此表用作源数据,以馈送到图形库中,以随时间显示每个活动。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/39903
文章 [ 1 ]  |  最新文章 6 年前
Peter P.
Reply   •   1 楼
Peter P.    7 年前

我认为最好的方法是做以下事情:

用户ID活动类型年周持续时间以周为单位计数

year week是mysql yearweek()函数,它为一年中的一年和一周提供类似于201825的内容。

但对于automl,我们更需要它与创建的距离(例如,能够告诉用户“当用户在第5周后停止评论时,他们会取消评论”。