学习 Pandas 排序方法 是开始或练习使用 Python进行基本数据分析的好方法。最常见的数据分析是使用电子表格、SQL或pandas 完成的。使用 Pandas 的一大优点是它可以处理大量数据并提供高性能的数据操作能力。
在本教程中,您将学习如何使用.sort_values()和.sort_index(),这将使您能够有效地对 DataFrame 中的数据进行排序。
在本教程结束时,您将知道如何:
- 按一列或多列的值对Pandas DataFrame进行排序
- 使用ascending参数更改排序顺序
- 通过index使用对 DataFrame 进行排序.sort_index()
- 在对值进行排序时组织缺失的数据
- 使用set to 对DataFrame进行就地排序inplaceTrue
要学习本教程,您需要对Pandas DataFrames有基本的了解,并对从文件中读取数据有一定的了解。
Pandas 排序方法入门
快速提醒一下, DataFrame 是一种数据结构,行和列都带有标记的轴。您可以按行或列值以及行或列索引对 DataFrame 进行排序。
行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。
准备数据集
在本教程中,您将使用美国环境保护署 (EPA) 为 1984 年至 2021 年间制造的车辆编制的燃油经济性数据。EPA 燃油经济性数据集非常棒,因为它包含许多不同类型的信息,您可以对其进行排序上,从文本到数字数据类型。该数据集总共包含八十三列。
要继续,您需要安装pandas Python 库。本教程中的代码是使用 pandas 1.2.0 和Python 3.9.1 执行的。
注意:整个燃油经济性数据集约为 18 MB。将整个数据集读入内存可能需要一两分钟。限制行数和列数有助于提高性能,但下载数据仍需要几秒钟的时间。
出于分析目的,您将按品牌、型号、年份和其他车辆属性查看车辆的 MPG(每加仑英里数)数据。您可以指定要读入 DataFrame 的列。对于本教程,您只需要可用列的子集。
以下是将燃油经济性数据集的相关列读入 DataFrame 并显示前五行的命令:
- >>>
- >>> import pandas as pd
- >>> column_subset = [
- ... "id",
- ... "make",
- ... "model",
- ... "year",
- ... "cylinders",
- ... "fuelType",
- ... "trany",
- ... "mpgData",
- ... "city08",
- ... "highway08"
- ... ]
- >>> df = pd.read_csv(
- ... "https://www.fueleconomy.gov/feg/epadata/vehicles.csv",
- ... usecols=column_subset,
- ... nrows=100
- ... )
- >>> df.head()
- city08 cylinders fuelType ... mpgData trany year
- 0 19 4 Regular ... Y Manual 5-spd 1985
- 1