送你一个Python 数据排序的好方法

来源:佚名 博客园精华区 日期:2021-09-29

 

学习 Pandas 排序方法 是开始或练习使用 Python进行基本数据分析的好方法。最常见的数据分析是使用电子表格、SQL或pandas 完成的。使用 Pandas 的一大优点是它可以处理大量数据并提供高性能的数据操作能力。

在本教程中,您将学习如何使用.sort_values()和.sort_index(),这将使您能够有效地对 DataFrame 中的数据进行排序。

在本教程结束时,您将知道如何:

  • 按一列或多列的值对Pandas DataFrame进行排序
  • 使用ascending参数更改排序顺序
  • 通过index使用对 DataFrame 进行排序.sort_index()
  • 在对值进行排序时组织缺失的数据
  • 使用set to 对DataFrame进行就地排序inplaceTrue

要学习本教程,您需要对Pandas DataFrames有基本的了解,并对从文件中读取数据有一定的了解。

Pandas 排序方法入门

快速提醒一下, DataFrame 是一种数据结构,行和列都带有标记的轴。您可以按行或列值以及行或列索引对 DataFrame 进行排序。

行和列都有索引,它是数据在 DataFrame 中位置的数字表示。您可以使用 DataFrame 的索引位置从特定行或列中检索数据。默认情况下,索引号从零开始。您也可以手动分配自己的索引。

准备数据集

在本教程中,您将使用美国环境保护署 (EPA) 为 1984 年至 2021 年间制造的车辆编制的燃油经济性数据。EPA 燃油经济性数据集非常棒,因为它包含许多不同类型的信息,您可以对其进行排序上,从文本到数字数据类型。该数据集总共包含八十三列。

要继续,您需要安装pandas Python 库。本教程中的代码是使用 pandas 1.2.0 和Python 3.9.1 执行的。

注意:整个燃油经济性数据集约为 18 MB。将整个数据集读入内存可能需要一两分钟。限制行数和列数有助于提高性能,但下载数据仍需要几秒钟的时间。

出于分析目的,您将按品牌、型号、年份和其他车辆属性查看车辆的 MPG(每加仑英里数)数据。您可以指定要读入 DataFrame 的列。对于本教程,您只需要可用列的子集。

以下是将燃油经济性数据集的相关列读入 DataFrame 并显示前五行的命令:

  1. >>> 
  2. >>> import pandas as pd 
  3.  
  4. >>> column_subset = [ 
  5. ...     "id"
  6. ...     "make"
  7. ...     "model"
  8. ...     "year"
  9. ...     "cylinders"
  10. ...     "fuelType"
  11. ...     "trany"
  12. ...     "mpgData"
  13. ...     "city08"
  14. ...     "highway08" 
  15. ... ] 
  16.  
  17. >>> df = pd.read_csv( 
  18. ...     "https://www.fueleconomy.gov/feg/epadata/vehicles.csv"
  19. ...     usecols=column_subset, 
  20. ...     nrows=100 
  21. ... ) 
  22.  
  23. >>> df.head() 
  24.    city08  cylinders fuelType  ...  mpgData            trany  year 
  25. 0      19          4  Regular  ...        Y     Manual 5-spd  1985 
  26. 1       
 1/23    1 2 3 4 5 下一页 尾页
    A+
声明:本文转载自其它媒体,转载目的在于传递更多信息,并不代表赞同其观点和对其真实性负责。