Pandas初识

默认分类,数据分析,Python,Share,Study 2022-01-08 287 次浏览 次点赞

什么是Pandas?

一个开源的Python类库:用于数据分析、数据处理、数据可视化

  • 高性能
  • 容易使用的数据结构·容易使用的数据分析工具

很方便和其它类库一起使用

  • numpy:用于数学计算
  • scikit-learn:用于机器学习

如何下载安装Pandas?

  • 下载使用Python类库集成安装包: anacondahttps://www.anaconda.com

    • 当今最流行的Python数据分析发行版
    • 已经安装了数据分析需要的几乎所有的类库
  • pip install pandas

Pandas数据读取

Pandas需要先读取表格类型的数据,然后进行分析

数据类型说明Pandas读取方法
csv、tsv、txt用逗号分隔、tab分割的纯文本文件pd.read_csv
excel微软xls或者xlsx文件pd.read_excel
mysql关系型数据库表pd.read_sql

Pandas读取excel表:

import pandas as pd

fpath = './work.xlsx'
pvuv = pd.read_excel(fpath)
pvuv

1.png

Pandas数据结构

Data Frame &Series

  • DataFrame:二维数据,整个表格,多行多列
  • Series:Series是一种类似于一维数组的对象,它由一组数据(不同数据类型)以及一组与之相关的数据标签(即索引)组成。
    2.png

Series

  • 仅有数据列表即可产生最简单的Series

    • 3.png

      4.png

  • 创建一个具有标签索引的Series

    • 5.png
  • 使用Python字典创建Series

    • 6.png
  • 根据标签索引查询数据(类似Python的字典dict

    • 7.png

      8.png

DataFrame

DataFrame是一个表格型的数据结构

  • 每列可以是不同的值类型(数值、字符串、布尔值等)
  • 既有行索引index,也有列索引columns
  • 可以被看做由Series组成的字典

创建dataframe最常用的方法:读取纯文本文件、excel、mysql数据库

  • 根据多个字典序列创建dataframe(Key 列;Value 对应列的值; 每一列的下标 => 行索引)

    • 9.png

      10.png

从DataFrame中查询出Series

  • 如果只查询一行、一列,返回的是pd.Series
  • 如果查询多行、多列,返回的是pd.DataFrame
  • 查询一列,结果是一个pd.Series(index为行索引)

    • 11.png
  • 查询多列,结果是一个pd.DataFrame

    • 12.png
  • 查询一行,结果是一个pd.Seriesindex为列索引)

    • 13.png
  • 查询多行,结果是一个pd.DataFrame(注意与切片的区别,最后’3‘也包含了)

    • 14.png
      Pandas学习系列说明:本系列仅仅作为Pandas视频的归纳总结与记录,在此感谢蚂蚁学Python

本文由 fmujie 创作,采用 知识共享署名 3.0,可自由转载、引用,但需署名作者且注明文章出处。

还不快抢沙发

添加新评论

召唤看板娘