分享在数据分析过程中最常使用的Python函数和方法

发布时间:2022-03-07 10:17:30 人气:346 作者:多测师

  我们知道 Pandas 是 Python 中最广泛使用的数据分析和操作库。它提供了许多功能和方法,可以快速解决数据分析中数据处理问题。

  为了更好的掌握 Python 函数的使用方法,我以客户流失数据集为例,分享在数据分析过程中最常使用的函数和方法。

  数据如下所示:

  import numpy as np

  import pandas as pd

  df = pd.read_csv("Churn_Modelling.csv")

  print(df.shape)

  df.columns

  结果输出:

  (10000, 14)

  Index(['RowNumber', 'CustomerId', 'Surname', 'CreditScore', 'Geography','Gender', 'Age', 'Tenure', 'Balance', 'NumOfProducts', 'HasCrCard','IsActiveMember', 'EstimatedSalary', 'Exited'],dtype='object')

  1.删除列

  df.drop(['RowNumber', 'CustomerId', 'Surname', 'CreditScore'], axis=1, inplace=True)

  print(df[:2])

  print(df.shape)

  结果输出:

  说明:「axis」 参数设置为 1 以放置列,0 设置为行。「inplace=True」 参数设置为 True 以保存更改。我们减了 4 列,因此列数从 14 个减少到 10 列。

  Geography Gender Age Tenure Balance NumOfProducts HasCrCard \

  0 France Female 42 2 0.0 1 1

  IsActiveMember EstimatedSalary Exited

  0 1 101348.88 1

  (10000, 10)

  2.选择特定列

  我们从 csv 文件中读取部分列数据。可以使用 usecols 参数。

  df_spec = pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])

  df_spec.head()

  3.nrows

  可以使用 nrows 参数,创建了一个包含 csv 文件前 5000 行的数据帧。还可以使用 skiprows 参数从文件末尾选择行。Skiprows=5000 表示我们将在读取 csv 文件时跳过前 5000 行。

  df_partial = pd.read_csv("Churn_Modelling.csv", nrows=5000)

  print(df_partial.shape)

分享在数据分析过程中最常使用的Python函数和方法

  4.样品

  创建数据框后,我们可能需要一个小样本来测试数据。我们可以使用 n 或 frac 参数来确定样本大小。

  df= pd.read_csv("Churn_Modelling.csv", usecols=['Gender', 'Age', 'Tenure', 'Balance'])

  df_sample = df.sample(n=1000)

  df_sample2 = df.sample(frac=0.1)

  5.检查缺失值

  isna 函数确定数据帧中缺失的值。通过将 isna 与 sum 函数一起使用,我们可以看到每列中缺失值的数量。

  df.isna().sum()

  6.使用 loc 和 iloc 添加缺失值

  使用 loc 和 iloc 添加缺失值,两者区别如下:

  ·loc:选择带标签

  · iloc:选择索引

  我们首先创建 20 个随机索引进行选择:

  missing_index = np.random.randint(10000, size=20)

  我们将使用 loc 将某些值更改为 np.nan(缺失值)。

  df.loc[missing_index, ['Balance','Geography']] = np.nan

  "Balance"和"Geography"列中缺少 20 个值。让我们用 iloc 做另一个示例。

  df.iloc[missing_index, -1] = np.nan

  7.填充缺失值

  fillna 函数用于填充缺失的值。它提供了许多选项。我们可以使用特定值、聚合函数(例如均值)或上一个或下一个值。

  avg = df['Balance'].mean()

  df['Balance'].fillna(value=avg, inplace=True)

  fillna 函数的方法参数可用于根据列中的上一个或下一个值(例如方法="ffill")填充缺失值。它可以对顺序数据(例如时间序列)非常有用。

  8.删除缺失值

  处理缺失值的另一个方法是删除它们。以下代码将删除具有任何缺失值的行。

  df.dropna(axis=0, how='any', inplace=True)

  9.根据条件选择行

  在某些情况下,我们需要适合某些条件的观测值(即行)。

  france_churn = df[(df.Geography == 'France') & (df.Exited == 1)]

  france_churn.Geography.value_counts()

  10.用查询描述条件

  查询函数提供了一种更灵活的传递条件的方法。我们可以用字符串来描述它们。

  df2 = df.query('80000 < Balance < 100000')

  df2 = df.query('80000 < Balance < 100000'

  df2 = df.query('80000 < Balance < 100000')

  11.用 isin 描述条件

  条件可能有多个值。在这种情况下,最好使用 isin 方法,而不是单独编写值。

  df[df['Tenure'].isin([4,6,9,10])][:3]

  12.Groupby 函数

  Pandas Groupby 函数是一个多功能且易于使用的功能,可帮助获取数据概述。它使浏览数据集和揭示变量之间的基本关系更加容易。

  我们将做几个组比函数的示例。让我们从简单的开始。以下代码将基于 Geography、Gender 组合对行进行分组,然后给出每个组的平均流。

  df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).mean()

  13.Groupby与聚合函数结合

  agg 函数允许在组上应用多个聚合函数,函数的列表作为参数传递。

  df[['Geography','Gender','Exited']].groupby(['Geography','Gender']).agg(['mean','count'])

  以上内容为大家介绍了数据分析过程中最常使用的Python函数和方法,希望对大家有所帮助,如果想要了解更多Python相关知识,请关注多测师。https://www.e70w.com/xwzx/

返回列表
在线客服
联系方式

热线电话

17727591462

上班时间

周一到周五

二维码
线