在用Python做數(shù)據(jù)分析的過(guò)程中,有一些操作步驟和邏輯框架是很固定的,只需要記住其用法即可。本節(jié)內(nèi)容介紹Pandas模塊在數(shù)據(jù)分析中的常用方法。
內(nèi)容目錄
1、數(shù)據(jù)的生成與導(dǎo)入
2、數(shù)據(jù)信息查看
2.1、查看整體數(shù)據(jù)信息
2.2、查看數(shù)據(jù)維度、列名稱、數(shù)據(jù)格式
2.3、查看數(shù)據(jù)特殊值和數(shù)值
2.3.1、查看空值
2.3.2、查看唯一值
2.3.3、查看數(shù)值
2.3.4、查看前后數(shù)據(jù)
3、數(shù)據(jù)的清洗和預(yù)處理等步驟
3.1、空值處理
3.2、空格處理
3.3、字符串大小寫處理
3.4、更改數(shù)據(jù)類型和列名稱
3.5、重復(fù)值處理
3.6、數(shù)據(jù)替換
3.7、數(shù)據(jù)合并和排序
3.8、數(shù)據(jù)分組
4、數(shù)據(jù)提取和篩選
4.1、按位置提取
4.2、按標(biāo)簽提取
4.3、按條件提取
4.4、數(shù)據(jù)篩選
5、數(shù)據(jù)匯總與統(tǒng)計(jì)量計(jì)算
5.1、groupby用法
5.2、數(shù)據(jù)透視表用法
5.3、數(shù)據(jù)采樣
5.4、數(shù)據(jù)求均值 ,方差等
5.5、數(shù)據(jù)求相關(guān)系數(shù)
6、數(shù)據(jù)存儲(chǔ)
6.1、存儲(chǔ)到Execl
6.2、存儲(chǔ)到CSV
1、數(shù)據(jù)的生成與導(dǎo)入
說(shuō)明:
利用Pandas里面的read系列可直接讀取相應(yīng)格式的數(shù)據(jù)文件。
生成數(shù)據(jù)直接創(chuàng)建一個(gè)Dataframe即可
本次數(shù)據(jù)為泰坦尼克號(hào)數(shù)據(jù)
2、數(shù)據(jù)信息查看
目的:了解數(shù)據(jù)的概況,例如整個(gè)數(shù)據(jù)表的大小、所占空間、數(shù)據(jù)格式、是否有空值和重復(fù)項(xiàng),為后面的清洗和預(yù)處理做準(zhǔn)備。
3、數(shù)據(jù)的清洗和預(yù)處理等步驟
對(duì)清洗完的數(shù)據(jù)進(jìn)行預(yù)處理整理以便后期的統(tǒng)計(jì)和分析工作。
例如更改列名:
數(shù)據(jù)合并:
Pandas具有功能全面的高性能內(nèi)存中連接操作,與SQL等關(guān)系數(shù)據(jù)庫(kù)非常相似。
合并方式:
inner
outer
left
right
組合方式:
left_on + right_on
left_on + right_index
left_index + right_on
left_index + right_index
數(shù)據(jù)排序:
數(shù)據(jù)分組:
例如:把泰坦尼克號(hào)火災(zāi)等級(jí)分成:‘high’,‘low’
結(jié)果:
4、數(shù)據(jù)提取和篩選
數(shù)據(jù)提取:使用loc和iloc配合相關(guān)函數(shù)。
篩選:使用與,或,非三個(gè)條件配合大于,小于和等于對(duì)數(shù)據(jù)進(jìn)行篩選。
5、數(shù)據(jù)匯總與統(tǒng)計(jì)量計(jì)算
關(guān)于groupby和數(shù)據(jù)透視表請(qǐng)閱讀:這些祝福和干貨比那幾塊錢的紅包重要的多!
相關(guān)系數(shù)結(jié)果:
6、數(shù)據(jù)存儲(chǔ)