社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

automl机器学习与绘图数据准备的数据库设计

Peter P. • 4 年前 • 405 次点击  

我们想开始使用一些automl机器学习技术对我们的数据进行分析。我们希望创建一个表,后台进程将合并并准备我们的关系数据库(mysql),这样就可以很容易地导出一个电子表格,该表格将被导入一些automl程序(可能是h2o)。

在我们的平台中,用户可以执行多种类型的操作,我们称之为“活动”。我们要做的是从他们的账户创建开始跟踪他们的参与超时,并将这些数据传递到我们的automl程序中进行分析,以确定某些行为是否会导致某些结果(例如,某些活动的减少会导致其账户的注销)。

最后,我们希望电子表格具有以下格式:

用户ID活动类型周1计数周2计数周3…|周数

每个星期的计数是该用户在其活动之后的每个星期中该活动的计数。如您所见,列的总数每周都会增加。由于决议是以周为单位的,所以列数应该是合理的。我们5年前就开始了(5*52=260周),也许我们再去20周?(52*20=1040周/列)。可以在电子表格中实现,并且非常接近mysql的最大列数(在我们的mysql版本中是1017)。

不过,我想知道,如果每周不创建列,替代结构的性能是否也一样:

用户标识活动类型年周计数

两种方法各有利弊吗?特别是,我们还希望将此表用作源数据,以馈送到图形库中,以随时间显示每个活动。

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/39903
 
405 次点击  
文章 [ 1 ]  |  最新文章 4 年前
Peter P.
Reply   •   1 楼
Peter P.    5 年前

我认为最好的方法是做以下事情:

用户ID活动类型年周持续时间以周为单位计数

year week是mysql yearweek()函数,它为一年中的一年和一周提供类似于201825的内容。

但对于automl,我们更需要它与创建的距离(例如,能够告诉用户“当用户在第5周后停止评论时,他们会取消评论”。