熊猫是什么?

Pandas是Python编程语言的开源库。Pandas这个名称来自面板数据,面板数据是一个统计术语,表示具有经验背景的数据。使用Pandas,开发人员可以从各种来源导入数据,并在Python中创建对象。

Pandas创建的对象称为dataframe。DataFrame是一组二维表格数据,很像关系数据库中的表或Excel文件中的表。DataFrame对象就像Python中的任何其他对象一样,所以你可以使用Python语法或Pandas库中包含的方法来操作它们。

如何安装熊猫?

Pandas是开源和免费的,这意味着安装过程与许多其他Python库类似。该库与Anaconda捆绑在一起,Anaconda是一个用于统计和科学计算的Python发行版。

在Anaconda中,Pandas安装需要以下命令:

Conda安装熊猫

Pip用户可以使用以下语法安装:

PIP安装熊猫

Debian和Ubuntu支持命令行安装:

Sudo apt-get安装python3-pandas

熊猫依赖于NumPy图书馆,支持多维矩阵。

如何在熊猫中加载数据?

Pandas在可以导入的数据方面非常多才多艺。要导入任何文件,必须使用适当的命令。最常见的文件类型是

  • CSV:pandas.read_CSV ()允许您指定分隔符,默认使用逗号。
  • SQL:Pandas支持几种类型的SQL导入,例如pandas.read_sql_table ()导入SQL表和pandas.read_sql_query ()导入SQL查询的结果
  • Excelpandas.read_Excel ()支持参数来指定工作表名称和要使用的列。
  • JSONpandas.read_json允许你在JSON中指定方向,或者你可以用pandas.json_normalize()。
  • HTML:将HTML表读入内存pandas.read_HTML ()
  • 拼花:pandas.read_partquet ()允许您可以从一个柱状Parquet表读取,并在参数中指定您的首选引擎
  • 剪贴板数据:熊猫可以直接读取数据与pandas.read_clipboard ()

所有导入命令都将创建一个新的DataFrame,其中包含来自源文件的数据。您还可以使用该命令从Python源(例如字典或NumPy矩阵)创建一个新的DataFramepandas.DataFrame ()

熊猫的主要特征是什么?

Pandas是一个具有一些有用功能和特性的大型库。一些比较流行的选择包括:

1.开始输入

除了上面列出的选项外,Pandas还支持从固定宽度格式文件、羽毛格式、ORC对象、Stata文件和谷歌大查询中的数据导入数据。

2.数据清理

Pandas包含了一些本地命令,您可以使用它们来提高DataFrame中的数据质量。例如,命令pandas.dataframe.isnull ()将返回DataFrame内的所有空值。您可以使用它来清除数据集中空白或不完整的记录。

取代命令还可以帮助协调集合中的数据。例如,在希望标准化州名的地址列表中,可以使用如下命令pandas.dataframe取代([' TX '],['德州'])对所有匹配的值执行查找和替换。

3.分层索引

Pandas的一个流行特性是多索引或分层索引.这允许您在一个DataFrame中使用多个列作为单个索引。建立这样一个索引的语法如下所示:

pandas.dataframe。setindex([' columnn1 ', 'Column2'], inplace=True)

该特性为您提供了一个两列索引,允许进行更复杂的查询。这还可以返回层次结果,首先按Column1排序,然后按Column2排序。

多索引也可以提高性能,但前提是在索引之后对DataFrame进行排序。使用

pandas.Index.sort ()

4.合并与合并

Pandas可以将两个dataframe组合成一个对象。你可以使用以下命令来实现:

  • pandas.dataframe.append (DataFrame2):这个命令将一个数据帧附加到另一个数据帧的末尾。如果第二个DataFrame的列没有出现在第一个DataFrame中,那么Pandas将创建新的列。
  • pandas.dataframe。concat (DataFrame1 DataFrame2):这个命令是水平合并。该函数将第二个对象作为一系列新列添加到第一个对象。
  • pandas.dataframe。join(DataFrame2, on=Column1, how= '内/外/左/右'):此命令复制SQL加入,允许您合并具有共享列的表。与SQL连接一样,您可以将其指定为内部、左、右或外部连接。

这些命令的结果是一个包含来自两个数据源的数据的单个DataFrame对象。

5.切片与串联

Pandas包含许多函数,这些函数可以对数据帧进行切片,并将它们分解为子集。最基本的命令是.loc,它允许您从指定的点开始选择值。

这个命令最简单的形式是pandas.DataFrame。loc [' rowname ', ' columnname ']。这将返回特定单元格的值。通过添加进一步的参数,您可以非常准确地分割DataFrame。

.loc也可以生成一个序列,它本质上是一个单列,或一个一维数据数组。属性对这些对象进行操作熊猫。系列命令。

6.样式

您可以使用Pandas为DataFrame添加样式选项,这有助于使一些结果更具可读性。

样式设计涉及熊猫。斯泰勒构造函数,以及CSS的一些元素。这些样式可以以统一的方式应用于值,例如将标准格式应用于现金值,如$#.##。

Pandas还支持条件值,包括最大值和最小值的样式,这允许您创建易于阅读的报表。style .export()允许您导出当前样式,然后可以将其导入到另一个框架中。

7.屏蔽

Pandas包含一个简单的for函数数据模糊数据屏蔽pandas.DataFrame.mask ()如果你需要隐藏在DataFrame对象中的敏感数据值

屏蔽的有效条件是布尔序列、类数组或可调用的。还可以选择就地对数据执行屏蔽。如果需要,还可以指定对齐级别或对齐轴。

术语汇编

数据集成技术的命名指南。

Baidu
map