什么是Pandas?
一个开源的Python类库:用于数据分析、数据处理、数据可视化
- 高性能
- 容易使用的数据结构·容易使用的数据分析工具
很方便和其它类库一起使用
numpy:用于数学计算scikit-learn:用于机器学习
如何下载安装Pandas?
下载使用Python类库集成安装包: anacondahttps://www.anaconda.com
- 当今最流行的Python数据分析发行版
- 已经安装了数据分析需要的几乎所有的类库
- pip install pandas
Pandas数据读取
Pandas需要先读取表格类型的数据,然后进行分析
| 数据类型 | 说明 | Pandas读取方法 |
|---|---|---|
csv、tsv、txt | 用逗号分隔、tab分割的纯文本文件 | pd.read_csv |
excel | 微软xls或者xlsx文件 | pd.read_excel |
mysql | 关系型数据库表 | pd.read_sql |
Pandas读取excel表:
import pandas as pd
fpath = './work.xlsx'
pvuv = pd.read_excel(fpath)
pvuv
Pandas数据结构
Data Frame &Series
DataFrame:二维数据,整个表格,多行多列Series:Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成。
Series
仅有数据列表即可产生最简单的
Series创建一个具有标签索引的
Series
使用
Python字典创建Series根据标签索引查询数据(类似
Python的字典dict)
DataFrame
DataFrame是一个表格型的数据结构
- 每列可以是不同的值类型(数值、字符串、布尔值等)
- 既有行索引
index,也有列索引columns - 可以被看做由
Series组成的字典
创建dataframe最常用的方法:读取纯文本文件、excel、mysql数据库
根据多个字典序列创建
dataframe(Key 列;Value 对应列的值; 每一列的下标 => 行索引)
从DataFrame中查询出Series
- 如果只查询一行、一列,返回的是
pd.Series - 如果查询多行、多列,返回的是
pd.DataFrame 查询一列,结果是一个
pd.Series(index为行索引)
查询多列,结果是一个
pd.DataFrame查询一行,结果是一个
pd.Seriesindex为列索引)查询多行,结果是一个
pd.DataFrame(注意与切片的区别,最后’3‘也包含了)
Pandas学习系列说明:本系列仅仅作为Pandas视频的归纳总结与记录,在此感谢蚂蚁学Python












还不快抢沙发