国产一区二区精品-国产一区二区精品久-国产一区二区精品久久-国产一区二区精品久久91-免费毛片播放-免费毛片基地

千鋒教育-做有情懷、有良心、有品質的職業教育機構

手機站

千鋒學習站 | 隨時隨地免費學

掃一掃進入千鋒手機站

領取全套視頻

關注千鋒學習站小程序
隨時隨地免費學習課程

當前位置：首頁 > 技術干貨 > 給小姐姐顏值投票學習數據分析多層索引

給小姐姐顏值投票學習數據分析多層索引

來源：千鋒教育

發布人：wjy

時間： 2022-07-29 17:14:03 1659086043

　　各位朋友們，今天給大家帶來的是數據分析的內容。歡迎各位朋友多提寶貴意見哦!

　　本次分享給大家的是：DataFrame的多層索引及使用。

　　多層索引是指在行或者列軸上有兩個及以上級別的索引，一般表示一個數據的幾個分項。比如，下圖所示的數據樣式：

屏幕快照 2021-07-29 下午7.59.34

　　我們使用的是對美女的顏值投票數據，現在有幾位美女分別給他們起了容易記憶的名字，比如：小麗，小芳啊

　　于是拿著這些照片來到辦公區，投票啦!投票啦!大家分成了兩組進行投票，男生一組、女生一組，投票的內容就是：漂亮和不漂亮。

　　于是就有了下面的數據部分：

屏幕快照 2021-07-29 下午5.20.11

　　大家發現這個表格數據跟我們常用的不同，那就是列名是有兩層的。那這樣的數據怎么進行數據分析呢?

　　```

　　import numpy as np

　　import pandas as pd

　　beauty = pd.read_excel('beauty.xlsx')

　　beauty

　　```

屏幕快照 2021-07-29 下午5.38.35

　　這是什么情況?列名怎么還有Unnamed:0,Unnamed:1這些呢?是我們讀取數據的時候沒有設置index_col和header屬性。

　　header設置的是列，如果是多列則使用列表，從左到右為0，1，2，...，index_col則是設置的行，用來指定行索引。

　　```

　　beauty = pd.read_excel('beauty.xlsx',header=[0,1],index_col=0)

　　beauty

　　```

屏幕快照 2021-07-29 下午5.46.06

　　但是要自己創建一個多層索引則有兩種方式：分別是隱式和顯式的。

　　### 創建多層索引

　　方法一：隱式創建，即給DataFrame的`index`或`columns`參數傳遞兩個或更多的數組。我們自己構建一個顏值投票的數據。

　　```

　　df1 = pd.DataFrame(np.random.randint(1，30, size=(8, 4)),

　　index= ['小明','小花','小麗','小玲','小軍','小新','小美','小芳'],

　　columns=[['男生', '男生', '女生', '女生'],

　　['漂亮', '不漂亮', '漂亮', '不漂亮']])

　　```

　　數據雖然有些區別，但是結構是一樣的。

屏幕快照 2021-07-29 下午5.55.51

　　方法二、顯示創建，推薦使用較簡單的`pd.MultiIndex.from_product`方法。

　　MultiIndex表示多級索引，它是從Index繼承過來的，其中多級標簽用元組對象來表示。from_product()從多個集合的笛卡爾積創建MultiIndex對象。

　　具體的詳解：https://pandas.pydata.org/pandas-docs/stable/reference/api/pandas.MultiIndex.html

　　```

　　df = pd.DataFrame(np.random.randint(1,30, size=(8, 4)),

　　index= ['小明','小花','小麗','小玲','小軍','小新','小美','小芳'],

　　columns=pd.MultiIndex.from_product([['男生', '女生'],

　　['漂亮', '不漂亮']]))

　　```

　　哇!完美!比剛才的還簡單了呢?

屏幕快照 2021-07-29 下午6.10.31

　　### 檢索多層索引

　　如果檢索小美的女生投票如何獲取呢?再比如獲取小玲的男生漂亮值的投票數是多少呢?

　　我們一起來看看吧!我們以上面真實的投票數據為例來看一下

　　```

　　df.男生

　　```

　　結果：

屏幕快照 2021-07-29 下午6.14.23

　　小新的女生投票如何獲取呢?這時候就要使用loc[行，列]了，當然如果是小美則就是df.loc[‘小美’,'女生']

屏幕快照 2021-07-29 下午6.15.22

　　當然你也可以獲取前3位美女的女生投票，兩種方式loc和iloc均可以實現。

　　```

　　df.loc[['小明','小花','小麗'],'女生']

　　```

　　或者

　　```

　　df.iloc[0:3,[2,3]]

　　```

屏幕快照 2021-07-29 下午6.22.31

　　如果要獲取小明，小麗，小軍，小美的男女生的漂亮投票數呢?(可以評論區留言哦，我們一起學習有幾種獲取方式)

　　### 更改多層索引的層級

　　所謂更改多層索引的層級，就是交換下男女生和漂亮和不漂亮的位置。在交換之前我們要知道叫交換的層的名字，但是我們又沒有名字，所以我們就要先設置名字，然后交換。

　　```

　　df.columns.names = ['gender', 'isBeauty'] # 設置列索引名

　　# 如果設置index行索引，則可以下面的方式

　　# df.index.names = ['你的名字']

　　```

　　截取部分數據：

屏幕快照 2021-07-29 下午6.28.41

　　然后就可以交換啦!使用swaplevel

屏幕快照 2021-07-29 下午6.37.50

　　```

　　df.swaplevel('gender', 'isBeauty',axis=1) # 因為我們是交換列索引，所以axis=1

　　```

　　結果：

屏幕快照 2021-07-29 下午6.38.47

　　### 多級索引的值排序

　　索引名字排序

　　```

　　df.sort_index(level=0, axis=1, ascending=True) # 對列索引gender的值進行排列

　　```

屏幕快照 2021-07-29 下午6.41.40

　　但是問題來啦!如果說按照男生的漂亮值降序排列如何實現?這就是多層索引的值排序啦!

　　```

　　df.sort_values(by=[('男生','漂亮')],ascending=False) # 注意觀察參數by的內容

　　```

屏幕快照 2021-07-29 下午6.49.13

　　如果是按照女生不漂亮進行升序排列呢?

　　### 多級索引匯總統計

　　所謂匯總就是類似求和、求均值、最大值之類的。比如男生漂亮的最多票數是誰?男女生的漂亮數總和?

　　其實這個還是離不開我們常用的sum(),mean(),max(),min().....

　　```

　　df.sum(level=0,axis=1) # 男女生的票數總和,其中level指定了多層索引的索引值

　　```

　　或者

　　```

　　df.sum(level=1,axis=1) # 此時獲取的就是漂亮和不漂亮的總和

　　```

　　結果：

屏幕快照 2021-07-29 下午6.57.52

　　但是男生漂亮的最多票數是誰?這樣就是跨行獲取最大值

　　```

　　df.男生.漂亮.max()

　　```

　　所以很重要的就是：從求和這里我們來分析，就是我們是跨行求和還是跨列求和。跨行就是axis=0,跨列就是axis=1.

　　### 多級索引軸向轉換

　　常見的數據層次化結構：樹狀和表格

屏幕快照 2021-07-29 下午7.28.11

　　- 軸向轉換的函數

　　> 1. stack：“透視”某個級別的(可能是多層的)列標簽，返回帶有索引的 DataFrame，該索引帶有一個新的最里面的行標簽。

　　> 2. unstack：(堆棧的逆操作)將(可能是多層的)行索引的某個級別“透視”到列軸，從而生成具有新的最里面的列標簽級別的重構的 DataFrame。

　　> stack 過程將數據集的列轉行，unstack 過程為行轉列。

屏幕快照 2021-07-29 下午7.51.52

屏幕快照 2021-07-29 下午7.52.03

　　```

　　df1 = df.stack() # 默認是內層的進行轉換

　　df1

　　```

　　截取部分：

屏幕快照 2021-07-29 下午7.30.09

　　注意此時使用的是df1,df1是上圖轉換后的數據。按照上圖標記的level=0和level=1

　　```

　　df1.unstack(level=0) # 就是將level=0的數據轉換到列上

　　```

屏幕快照 2021-07-29 下午7.55.25

　　如果數據里面的缺失值，則可以使用dropna的參數即：df.stack(dropna=True)

　　另外還有一些屬性，比如：

　　> df.index.names 查看行索引的名稱

　　> df.columns.names 查看列索引的名稱

　　> df.index.nlevels 層級數

　　> df.index.levels 行的層級

　　> df.columns.levels 列的層級

　　> df[['男生','女生']].index.levels 篩選后的層級

　　> df.index.droplevel(0) 刪除指定等級

　　希望本篇文章可以給大家帶來收獲，如果喜歡的話，歡迎轉發哦!

tags:

聲明：本站稿件版權均屬千鋒教育所有，未經許可不得擅自轉載。

10年以上業內強師集結，手把手帶你蛻變精英

請您保持通訊暢通，專屬學習老師24小時內將與您1V1溝通

免費領取

今日已有369人領取成功

劉同學 138****2860 剛剛成功領取

王同學 131****2015 剛剛成功領取

張同學 133****4652 剛剛成功領取

李同學 135****8607 剛剛成功領取

楊同學 132****5667 剛剛成功領取

岳同學 134****6652 剛剛成功領取

梁同學 157****2950 剛剛成功領取

劉同學 189****1015 剛剛成功領取

張同學 155****4678 剛剛成功領取

鄒同學 139****2907 剛剛成功領取

董同學 138****2867 剛剛成功領取

周同學 136****3602 剛剛成功領取

c語言經典練習題100道（五）

c語言經典練習題100道（六）

免費打包獲取

相關推薦HOT

服務器為什么要用Linux?

服務器為什么要用Linux作為服務器操作系統的優選，Linux在眾多選擇中脫穎而出。Linux作為服務器操作系統的優選，有其獨特的優勢和特點。包括其...詳情>>

2023-10-14 12:34:11

ORM解決的主要問題是什么?

ORM（對象關系映射）解決的主要問題是將關系數據庫與面向對象編程之間的映射困境。在傳統的關系數據庫中，數據以表格的形式存儲，而在面向對象...詳情>>

2023-10-14 12:26:19

Go為什么不支持三元運算符?

Go為什么不支持三元運算符Go語言是一種以簡潔和有效性為目標的編程語言，因此在設計過程中，Go的設計者刻意排除了一些他們認為可能導致復雜性或...詳情>>

2023-10-14 12:12:36

IT通常說的平臺是什么意思?

在信息技術（IT）領域，”平臺”這個詞有著廣泛的含義，它常常指代支持軟件應用開發和運行的基礎框架和環境。以下是對”平臺”這個概念的更深入...詳情>>

2023-10-14 11:55:36

什么是PowerPivot?

什么是PowerPivotPowerPivot，全稱”PowerPivot for Excel”，是Microsoft提供的一種數據分析工具，可以作為Excel的插件使用。通過PowerPivot，...詳情>>

2023-10-14 11:25:48