在应用机器学习的过程中,很大一部分工作都是在做数据的处理,一个非常常见的场景就是将一个list序列的特征数据拆成多个单独的特征数据。
比如数据集如下所示:
1 |
data = [['John', '25', 'Male',[99,100,98]], |
很多场景是需要将类似于Score的list序列特征,拆成多个特征值如这里的语、数、外的分数。
下面通过几个实例来将dataframe列中的list序列转换为多列。
1、一维序列拆成多列
可以通过在列上应用Series来进行拆分。
1 |
df_score=df_data['Score'].apply(pd.Series).rename(columns={0:'English',1:'Math',2:'Chinese'}) |
可以看到将Score的数组,拆分成了English、Math、Chinese三个特征字段了
1 |
df_data=df_data.join(df_score) |
2、二维序列拆成多列
用同样的思路也可以将二维序列的特征列拆成多列
如特征列是二维序列,序列里还有多个序列
1 |
data = [['John', '25', 'Male',[[99,100,98],[89,70]]], |
1 |
df_score=df_data['Score'].apply(pd.Series) |
另外一种情况就是序列里面只有一个序列的二维序列,数据如下所示:
1 |
data = [['John', '25', 'Male',[[99,100,98,89,70]]], |
这样也可以通过多次应用Series来进行拆分,也可以先explode()再应用Series来进行拆分。
1 |
df_score=df_data['Score'].apply(pd.Series)[0].apply(pd.Series).rename(columns={0:'English',1:'Math',2:'Chinese',3:'Biology',4:'Geography'}) |
1 |
df_score=df_data['Score'].explode().apply(pd.Series).rename(columns={0:'English',1:'Math',2:'Chinese',3:'Biology',4:'Geography'}) |
两者效果是一样的。
博客地址:http://xiejava.ishareread.com/
“fullbug”微信公众号
关注:微信公众号,一起学习成长!
原文始发于微信公众号(fullbug):pandas将dataframe列中的list转换为多列
免责声明:文章中涉及的程序(方法)可能带有攻击性,仅供安全研究与教学之用,读者将其信息做其他用途,由读者承担全部法律及连带责任,本站不承担任何法律及连带责任;如有问题可邮件联系(建议使用企业邮箱或有效邮箱,避免邮件被拦截,联系方式见首页),望知悉。
- 左青龙
- 微信扫一扫
-
- 右白虎
- 微信扫一扫
-
评论