社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

python/sql/excel我有12个数据集,我想把它们组合成一个代表性的数据集。

DBA108642 • 6 年前 • 1465 次点击  

我试图用12个不同的经验数据集建立一个预测曲线。实际上,我想编写一个函数,它传递2个变量(应用程序的数量,天数),并根据我拥有的12个数据集生成预测曲线。数据集都有60天的时间,应用程序的数量从500到100000。

我不太确定最好的方法是什么,我在想,也许每天申请总数的平均百分比(例如:在第一天,平均有3%的申请发布,第十天平均有10%等)将是一个好的开始,但我不确定最好的方法。

我可以使用python、sql和excel,但我不一定要寻找一个特定的解决方案,而只需要一个方法的一般性建议。任何帮助都将不胜感激!

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/38840
文章 [ 1 ]  |  最新文章 6 年前
DHW
Reply   •   1 楼
DHW    7 年前

听起来你想把它分成(60*12)行,有3列:一列记录申请号,另一列记录时间,另一列记录位置。然后,一个模型可以把每个位置虚拟成一个预测器,您可以生成12个模拟的预测,并且具有不确定性。然后,为了得到一个整体的预测,将这些预测取平均值——引导,然后如果你喜欢的话,将这些预测汇集起来。模型时间,无论你想要-自回归,卡尔曼滤波器,最近的邻居(可能没有足够的数据为那个)。只是不要把每个时间点单独模拟出来,否则你会有一个完美的模型。

但是要知道你可以在这里建模的地点之间可能存在的相互作用的宇宙。把它们全部虚拟化,就不会假定它们之间,或者至少是你关心的一个,或者与你关心的任何事情相关的任何交互作用。它只考虑了固定的影响,也就是说,你假设每个地点的时间动态是相同的,只是有些地点总体上和平均上比其他地点有更高的应用程序数量。您可以根据其他位置的应用程序编号(当前编号、过去编号等)得出与任何给定位置相关的大量预测值。所有这些都取决于您认为可以解释的内容和信息。