什么是Pandas?
一个开源的Python类库:用于数据分析、数据处理、数据可视化
- 高性能
- 容易使用的数据结构·容易使用的数据分析工具
很方便和其它类库一起使用
numpy
:用于数学计算scikit-learn
:用于机器学习
如何下载安装Pandas?
下载使用Python类库集成安装包: anacondahttps://www.anaconda.com
- 当今最流行的Python数据分析发行版
- 已经安装了数据分析需要的几乎所有的类库
- pip install pandas
Pandas数据读取
Pandas需要先读取表格类型的数据,然后进行分析
数据类型 | 说明 | Pandas读取方法 |
---|---|---|
csv、tsv、txt | 用逗号分隔、tab 分割的纯文本文件 | pd.read_csv |
excel | 微软xls 或者xlsx 文件 | pd.read_excel |
mysql | 关系型数据库表 | pd.read_sql |
Pandas
读取excel
表:
import pandas as pd
fpath = './work.xlsx'
pvuv = pd.read_excel(fpath)
pvuv
Pandas数据结构
Data Frame &Series
DataFrame
:二维数据,整个表格,多行多列Series
:Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成。
Series
仅有数据列表即可产生最简单的
Series
创建一个具有标签索引的
Series
使用
Python
字典创建Series
根据标签索引查询数据(类似
Python
的字典dict
)
DataFrame
DataFrame
是一个表格型的数据结构
- 每列可以是不同的值类型(数值、字符串、布尔值等)
- 既有行索引
index
,也有列索引columns
- 可以被看做由
Series
组成的字典
创建dataframe
最常用的方法:读取纯文本文件、excel、mysql
数据库
根据多个字典序列创建
dataframe
(Key 列;Value 对应列的值; 每一列的下标 => 行索引)
从DataFrame中查询出Series
- 如果只查询一行、一列,返回的是
pd.Series
- 如果查询多行、多列,返回的是
pd.DataFrame
查询一列,结果是一个
pd.Series
(index为行索引)
查询多列,结果是一个
pd.DataFrame
查询一行,结果是一个
pd.Series
index为列索引)查询多行,结果是一个
pd.DataFrame
(注意与切片的区别,最后’3‘也包含了)
Pandas学习系列说明:本系列仅仅作为Pandas视频的归纳总结与记录,在此感谢蚂蚁学Python
还不快抢沙发