社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

10年顽疾ChatGPT一眼识破！AlphaGo时刻震撼全球医疗界

多邻国联姻瑞幸；if椰子水母企IPO市值冲上100亿；阿里巴巴美国站推B2B先买后付 | TopDi...

西南交通大学张云辉团队JH｜利用无监督机器学习和正定矩阵因子分解模型驱动煤矿农业区域的地下水化学成因...

Altman嘲讽小扎挖走的都不是顶尖人才！OpenAI高管再营业曝内幕：ChatGPT爆红后，我火速...

ChatGPT惨败Llama！MIT官宣AI开飞船0%失败率，马斯克火星殖民不再是梦

时代命题下的民营科技担当：从备份战略看Gitee的国家定位

Python到底要怎么学？这份6个月上岸攻略，已经帮800+小白成功转行

ChatGPT 4o 国内直接用！

ChatGPT诞生内幕大曝光！发布前一晚还在纠结

7月27日开考！人社部能建中心《生成式人工智能（AIGC）技术应用》职业培训

关注

Py学习 » Python

基于python-statsmodel的多元线性回归

Park Dongyeon • 5 年前 • 559 次点击

在r中,可以执行如下的多元线性回归

temp = lm(log(volume_1[11:62])~log(price_1[11:62])+log(volume_1[10:61]))

在python中,可以使用 R风格的公式,所以我认为下面的代码应该也能工作,

import statsmodels.formula.api as smf
import pandas as pd
import numpy as np

rando = lambda x: np.random.randint(low=1, high=100, size=x)

df = pd.DataFrame(data={'volume_1': rando(62), 'price_1': rando(62)})

temp = smf.ols(formula='np.log(volume_1)[11:62] ~ np.log(price_1)[11:62] + np.log(volume_1)[10:61]', 
               data=df) 
# np.log(volume_1)[10:61] express the lagged volume

但我明白了

PatsyError: Number of rows mismatch between data argument and volume_1[11:62] (62 versus 51)
volume_1[11:62] ~ price_1[11:62] + volume_1[10:61]

我想不可能只回归列中的一部分行,因为data=df有62行,而其他变量有51行。

有没有什么方法可以像r一样方便地进行回归?

df type是pandas dataframe,列名是volume_1,price_1

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/41226

559 次点击

文章 [ 1 ] | 最新文章 5 年前

• 1 楼

jtweeder 6 年前

使用来自 github question 在patsy存储库中,这将是使lag列正常工作的方法。

import statsmodels.formula.api as smf
import pandas as pd
import numpy as np

rando = lambda x: np.random.randint(low=1, high=100, size=x)

df = pd.DataFrame(data={'volume_1': rando(62), 'price_1': rando(62)})

def lag(x, n):
    if n == 0:
        return x
    if isinstance(x,pd.Series):
        return x.shift(n)

    x = x.astype('float')
    x[n:] = x[0:-n]
    x[:n] = np.nan
    return x

temp = smf.ols(formula='np.log(volume_1) ~ np.log(price_1) + np.log(lag(volume_1,1))', 
               data=df[11:62])

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)