Python Pandas 库的使用例子
2019-10-18 15:01 来源:未知
尤为重要在jupyter notebook里面熟稔那么些库的利用,它的安装格局与完毕,可自行检索。
DataFrame对象的.ix[idx] 与 .ix[[idx]] 区别
# 示例
import numpy as np
import pandas as pd
# 创建一个10*3的DataFrame对象
df = pd.DataFrame(np.random.rand(10, 3))
'''
df: 0 1 2
0 0.619620 0.281018 0.449918
1 0.039654 0.778771 0.457885
2 0.905944 0.345189 0.859692
3 0.027250 0.676622 0.829580
4 0.230326 0.015882 0.556705
5 0.302833 0.121845 0.556206
6 0.944984 0.333118 0.291924
7 0.103753 0.688007 0.954185
8 0.326636 0.393403 0.153469
9 0.815440 0.519231 0.262114
'''
# 取出第4行(pandas.Series对象)
print(df.ix[4])
'''
0 0.230326
1 0.015882
2 0.556705
Name: 4, dtype: float64
'''
# 取出第4行,(pandas.DataFrame对象)
print(df.ix[[4]])
'''
0 1 2
4 0.230326 0.015882 0.556705
'''
Pandas是二个优良的多少深入分析工具,官方网站:
有关的库使用pip安装,用豆类的代办下载速度比法定的快,安装命令:
pip install -i matplotlib
pip install -i pandas
pip install -i requests
pip install -i scipy
方法后边是进行的结果,从结果上就能够收看方法的机能的,所以没做太多描述。
import os
import pandas as pd
import requests
PATH = 'F:/Git/ML_Python/02iris/'
r = requests.get('https://archive.ics.uci.edu/ml/machine-learning-databases/iris/iris.data')
with open(PATH + 'iris.data','w') as f:
f.write(r.text)
os.chdir(PATH)
df = pd.read_csv(PATH + 'iris.data',names=['花萼长度','花萼宽度','花瓣长度','花瓣宽度','类别'])
df.head()
花萼长度 | 花萼宽度 | 花瓣长度 | 花瓣宽度 | 类别 | |
---|---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 | Iris-setosa |
1 | 4.9 | 3.0 | 1.4 | 0.2 | Iris-setosa |
2 | 4.7 | 3.2 | 1.3 | 0.2 | Iris-setosa |
3 | 4.6 | 3.1 | 1.5 | 0.2 | Iris-setosa |
4 | 5.0 | 3.6 | 1.4 | 0.2 | Iris-setosa |
df.iloc[:3, :2]
花萼长度 | 花萼宽度 | |
---|---|---|
0 | 5.1 | 3.5 |
1 | 4.9 | 3.0 |
2 | 4.7 | 3.2 |
df.loc[:1,[x for x in df.columns if ('宽度' in x)|('长度' in x)]]
花萼长度 | 花萼宽度 | 花瓣长度 | 花瓣宽度 | |
---|---|---|---|---|
0 | 5.1 | 3.5 | 1.4 | 0.2 |
1 | 4.9 | 3.0 | 1.4 | 0.2 |
df['类别'].unique()
array(['Iris-setosa', 'Iris-versicolor', 'Iris-virginica'], dtype=object)
df.count()
花萼长度 150
花萼宽度 150
花瓣长度 150
花瓣宽度 150
类别 150
dtype: int64
df[df['类别']=='Iris-virginica'].count()
花萼长度 50
花萼宽度 50
花瓣长度 50
花瓣宽度 50
类别 50
dtype: int64
df[(df['类别']=='Iris-virginica')& (df['花瓣长度']>6)].reset_index(drop=True)
花萼长度 | 花萼宽度 | 花瓣长度 | 花瓣宽度 | 类别 | |
---|---|---|---|---|---|
0 | 7.6 | 3.0 | 6.6 | 2.1 | Iris-virginica |
1 | 7.3 | 2.9 | 6.3 | 1.8 | Iris-virginica |
2 | 7.2 | 3.6 | 6.1 | 2.5 | Iris-virginica |
3 | 7.7 | 3.8 | 6.7 | 2.2 | Iris-virginica |
4 | 7.7 | 2.6 | 6.9 | 2.3 | Iris-virginica |
5 | 7.7 | 2.8 | 6.7 | 2.0 | Iris-virginica |
6 | 7.4 | 2.8 | 6.1 | 1.9 | Iris-virginica |
7 | 7.9 | 3.8 | 6.4 | 2.0 | Iris-virginica |
8 | 7.7 | 3.0 | 6.1 | 2.3 | Iris-virginica |
df.describe()
花萼长度 | 花萼宽度 | 花瓣长度 | 花瓣宽度 | |
---|---|---|---|---|
count | 150.000000 | 150.000000 | 150.000000 | 150.000000 |
mean | 5.843333 | 3.054000 | 3.758667 | 1.198667 |
std | 0.828066 | 0.433594 | 1.764420 | 0.763161 |
min | 4.300000 | 2.000000 | 1.000000 | 0.100000 |
25% | 5.100000 | 2.800000 | 1.600000 | 0.300000 |
50% | 5.800000 | 3.000000 | 4.350000 | 1.300000 |
75% | 6.400000 | 3.300000 | 5.100000 | 1.800000 |
max | 7.900000 | 4.400000 | 6.900000 | 2.500000 |
df.corr()
df.corr(method='kendall')
花萼长度 | 花萼宽度 | 花瓣长度 | 花瓣宽度 | |
---|---|---|---|---|
花萼长度 | 1.000000 | -0.072112 | 0.717624 | 0.654960 |
花萼宽度 | -0.072112 | 1.000000 | -0.182391 | -0.146988 |
花瓣长度 | 0.717624 | -0.182391 | 1.000000 | 0.803014 |
花瓣宽度 | 0.654960 | -0.146988 | 0.803014 | 1.000000 |
df.corr('spearman')
花萼长度 | 花萼宽度 | 花瓣长度 | 花瓣宽度 | |
---|---|---|---|---|
花萼长度 | 1.000000 | -0.159457 | 0.881386 | 0.834421 |
花萼宽度 | -0.159457 | 1.000000 | -0.303421 | -0.277511 |
花瓣长度 | 0.881386 | -0.303421 | 1.000000 | 0.936003 |
花瓣宽度 | 0.834421 | -0.277511 | 0.936003 | 1.000000 |
TAG标签:
版权声明:本文由32450新蒲京网站发布于葡萄游戏厅_棋牌游戏,转载请注明出处:Python Pandas 库的使用例子