Basic usage of numpy & pandas


Numpy: scientific computing library, low-level C++ implementation, very flexible in processing mathematics, processing matrices (multidimensional arrays)

np.array ( [1,2,3,4,5,6] )   # 初始化矩阵(高维数组)
np.ndim   # 查看高维数组的维度
np.shape  # 查看髙维数组的形状
np.reshape(2,3)  # 改变数组形状,括号内的两个数相乘必须和原数组的长度一致,如果是一维数组,可以通过这种方法改成二维数组(2行3列)
np.arange(2,10,2)   # 生成区间数组,最后一个数是步长(不需要步长可以去掉)

# 将np.arange(20) 这个区间数组改成三维数组如下:
[ 0  1  2  3  4  5  6  7  8  9 10 11 12 13 14 15 16 17 18 19]
[[[ 0  1  2  3  4]
  [ 5  6  7  8  9]]

 [[10 11 12 13 14]
  [15 16 17 18 19]]]

np.sum(data)   # 求和
np.max(data)       # 求最大
np.mean(data)      # 平均值
np.std(data)         # 标准差()
np.var(data)         # 方差(标准差的平方)
np.tolist()          tolist将ndarray 转成 list
np.array([ ])   	将 list 转成 ndarray


Pandas: For data formatting, it provides a tabular data structure that is good at processing tabular data
. Data types: series, one-dimensional dataframe, two-dimensional data

pd.Series([1,2,3,4,5])   	 # 初始化Series一维数组
pd.head(2)			# head 默认取前5个,可以自定义
pd.tail(2)			# tail 默认取后5个,可以自定义

# 初始化DataFrame 二维数组
# columns 指定列名  index:指定索引
df = pd.DataFrame([[1,2,3,4,5],[6,7,8,9,10]],columns=['a','b','c','d','e'],index=['aa','bb'])  

df.loc['aa']   		# loc 按行标签取一行的数据
df.iloc[2]  		 # iloc 按行索引取一行取值

# 用numpy 求panads 的和,默认是每列的和  axis=1:按行求和,axis=0:按列求和  