社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Python

python:如何用中值逐列替换丢失的值

pythondumb • 5 年前 • 1721 次点击  

我有一个数据框如下

df = pd.DataFrame({'A': [1, 2, 3], 'B': [1.45, 2.33, np.nan], 'C': [4, 5, 6], 'D': [4.55, 7.36, np.nan]}) 

我想替换丢失的值,即。 np.nan 以一般的方式。为此,我创建了一个函数,如下所示

def treat_mis_value_nu(df):
    df_nu = df.select_dtypes(include=['number'])
    lst_null_col = df_nu.columns[df_nu.isnull().any()].tolist()
        if len(lst_null_col)>0:
            for i in lst_null_col:
                if df_nu[i].isnull().sum()/len(df_nu[i])>0.10:
                    df_final_nu = df_nu.drop([i],axis=1)
                else:
                    df_final_nu = df_nu[i].fillna(df_nu[i].median(),inplace=True)
    return df_final_nu

当我按如下方式应用此函数时

df_final = treat_mis_value_nu(df)

我得到一个数据帧如下

    A    B  C
 0  1  1.0  4
 1  2  2.0  5
 2  3  NaN  6

所以它实际上已经删除了列 D 正确,但未能删除列 B . 我知道过去有人讨论过这个问题( here )我还是会错过什么?

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/40627
 
1721 次点击  
文章 [ 2 ]  |  最新文章 5 年前
FChm
Reply   •   1 楼
FChm    6 年前

我建议你看看sklearn Imputer transformer . 我不认为它可以删除列,但它可以定义为以“通用方式”填充列,例如,用相关列的中值填充缺少的值。

你可以这样使用它:

from sklearn.preprocessing import Imputer

imputer = Imputer(strategy='median')

num_df = df.values
names = df.columns.values

df_final = pd.DataFrame(imputer.transform(num_df), columns=names)

如果您希望进行其他转换,可以考虑进行转换 Pipeline 或者甚至可以自己制作变形金刚来完成定制任务。

jezrael
Reply   •   2 楼
jezrael    6 年前

用途:

df = pd.DataFrame({'A': [1, 2, 3,5,7], 'B': [1.45, 2.33, np.nan, np.nan, np.nan], 
                   'C': [4, 5, 6,8,7], 'D': [4.55, 7.36, np.nan,9,10],
                   'E':list('abcde')}) 
print (df)
   A     B  C      D  E
0  1  1.45  4   4.55  a
1  2  2.33  5   7.36  b
2  3   NaN  6    NaN  c
3  5   NaN  8   9.00  d
4  7   NaN  7  10.00  e

def treat_mis_value_nu(df):
    #get only numeric columns to dataframe
    df_nu = df.select_dtypes(include=['number'])
    #get only columns with NaNs
    df_nu = df_nu.loc[:, df_nu.isnull().any()]
    #get columns for remove with mean instead sum/len, it is same
    cols_to_drop = df_nu.columns[df_nu.isnull().mean() <= 0.30]
    #replace missing values of original columns and remove above thresh    
    return df.fillna(df_nu.median()).drop(cols_to_drop, axis=1)

print (treat_mis_value_nu(df))
   A  C      D  E
0  1  4   4.55  a
1  2  5   7.36  b
2  3  6   8.18  c
3  5  8   9.00  d
4  7  7  10.00  e