主页 > 知识库 > pandas数据处理之 标签列字符转数字的实现

pandas数据处理之 标签列字符转数字的实现

热门标签:企业做大做强 百度AI接口 呼叫中心市场需求 Win7旗舰版 客户服务 电话运营中心 硅谷的囚徒呼叫中心 语音系统

机器学习中,当我们在进行数据预处理的时候,对于标签列非字符的数据,我们往往需要将其转换成字符,因为有的算法可能不支持非数字类型来做特征。

那么怎么快捷地来着这个转换呢,请看我的示例:

1.构建测试数据

import pandas as pd
array = ['good','bad','well','bad','good','good','well','good']

2.数据转换下,并获取标签列的字典

df = pd.DataFrame(array,columns=['status'])
status_dict = df['status'].unique().tolist()

3.使用函数进行转换

df['transfromed']=df['status'].apply(lambda x : status_dict.index(x))

这样,就将标签列处理好了哈

等用完之后,再转回来

df['transfromed1']= df['transfromed'].apply(lambda x : status_dict[x])

补充:pandas factorize将字符串特征转化为数字特征

将原始数据中的字符串特征转化为模型可以识别的数字特征可是使用pandas自带的factorzie方法。

原始数据的job特征值如下

都是字符串特征,无法用于训练,当然可以单独建立map硬编码处理,但是pandas已经封装好了相应的方法。

data = pd.read_csv("data/test_set.csv")
data["job"] = pd.factorize(data["job"])[0].astype(np.uint16)

以上为个人经验,希望能给大家一个参考,也希望大家多多支持脚本之家。如有错误或未考虑完全的地方,望不吝赐教。

您可能感兴趣的文章:
  • pandas 对每一列数据进行标准化的方法
  • pandas数据处理进阶详解
  • Pandas 数据处理,数据清洗详解
  • 使用pandas模块实现数据的标准化操作

标签:长沙 山西 喀什 济南 山西 崇左 海南 安康

巨人网络通讯声明:本文标题《pandas数据处理之 标签列字符转数字的实现》,本文关键词  ;如发现本文内容存在版权问题,烦请提供相关信息告之我们,我们将及时沟通与处理。本站内容系统采集于网络,涉及言论、版权与本站无关。
  • 相关文章
  • 收缩
    • 微信客服
    • 微信二维码
    • 电话咨询

    • 400-1100-266