社区教程 Wiki

注册登录

创作新主题

社区所有版块导航

Python

python开源 Django Python DjangoApp pycharm

DATA

docker Elasticsearch

问与答闲聊招聘翻译创业分享发现分享创造求职区块链支付之战

aigc

aigc chatgpt

WEB开发

linux MongoDB Redis DATABASE NGINX 其他Web框架 web工具 zookeeper tornado NoSql Bootstrap js peewee Git bottle IE MQ Jquery

机器学习

机器学习算法

Python88.com

反馈公告社区推广

产品

短视频

印度

一周十大热门主题

#老乡鸡菜谱开源了##我在GitHub学做老乡鸡#老乡鸡菜谱在G-20250919105055

GitHub Trending 日报【2025-09-17】

一天Vibe个工具，看真实用户吐槽ChatGPT、豆包、Kimi...

【第3591期】GitHub Spec-Kit：规范驱动开发走在正确的方向上 - 严谨、渐进式的 V...

GitHub高星精选！十大MCP开源项目，让AI开发效率翻倍！

编程这种场景不需要去 ChatGPT，IDE或者CLI就解决了/-20250917100236

从 ChatGPT 到 Marble，李飞飞押注的下一个爆发点是 3D 世界生成？

机器学习学术速递[9.17]

爆火开源 AI 数字人 Duix.Avatar：手把手教你 Docker 本地部署

单一公共数据库的红利期已经消退，如何破局？新范式：CHARLS、NHANES和GEO多数据库+机器学...

关注

Py学习 » Python

创建一个函数来标准化分类变量(python)

Mari • 3 年前 • 1475 次点击

我不知道说“标准化”分类变量字符串是否正确,但基本上我想创建一个函数,将以下列中的所有观察值F或F设置为0,将M或M设置为1:


> df['gender']

gender
  f
  F
  f
  M
  M
  m

我试过这个:

def padroniza_genero(x):
    if(x == 'f' or x == 'F'):
        replace(['f', 'F'], 0)
    else:
        replace(1)
        
df1['gender'] = df1['gender'].apply(padroniza_genero)

但我有个错误:

NameError: name 'replace' is not defined

有什么想法吗?谢谢

Python社区是高质量的Python/Django开发社区
本文地址：http://www.python88.com/topic/129847

1475 次点击

文章 [ 1 ] | 最新文章 3 年前

• 1 楼

mozway 3 年前

没有 replace 在代码中定义的函数。

回到你的目标,使用向量函数。

转换到下方并映射f->0,m->1:

df['gender_num'] = df['gender'].str.lower().map({'f': 0, 'm': 1})

或者使用比较(不等于f)和从布尔值到整数的转换:

df['gender_num'] = df['gender'].str.lower().ne('f').astype(int)

输出:

  gender  gender_num
0      f           0
1      F           0
2      f           0
3      M           1
4      M           1
5      m           1

一般化

您可以使用 pandas.factorize 优点:你会得到一份真正的工作 Categorical 类型

注意。数字值的设置取决于先出现的值,或者字典顺序(如果需要) sort=True :

s, key = pd.factorize(df['gender'].str.lower(), sort=True)
df['gender_num'] = s

key = dict(enumerate(key))
# {0: 'f', 1: 'm'}

登录后回复

关于移动版

Py学习 - 专注于Python技术发展的社区(原Django社区)