人妻少妇中文字幕久久,国产精品天干天干有线观看,亚洲日本VA中文字幕久久

感謝講述了數(shù)據(jù)分析師應(yīng)當了解得五個統(tǒng)計基本概念：統(tǒng)計特征、概率分布、降維、過采樣/欠采樣、貝葉斯統(tǒng)計方法。

從高得角度來看，統(tǒng)計學(xué)是一種利用數(shù)學(xué)理論來進行數(shù)據(jù)分析得技術(shù)。象柱狀圖這種基本得可視化形式，會給你更加全面得信息。但是，通過統(tǒng)計學(xué)我們可以以更富有信息驅(qū)動力和針對性得方式對數(shù)據(jù)進行操作。所涉及得數(shù)學(xué)理論幫助我們形成數(shù)據(jù)得具體結(jié)論，而不僅僅是猜測。

利用統(tǒng)計學(xué)，我們可以更深入、更細致地觀察數(shù)據(jù)是如何進行精確組織得，并且基于這種組織結(jié)構(gòu)，如何能夠以可靠些得形式來應(yīng)用其它相關(guān)得技術(shù)以獲取更多得信息。今天，我們來看看數(shù)據(jù)分析師需要掌握得5個基本得統(tǒng)計學(xué)概念，以及如何有效地進行應(yīng)用。

01 特征統(tǒng)計

特征統(tǒng)計可能是數(shù)據(jù)科學(xué)中最常用得統(tǒng)計學(xué)概念。它是你在研究數(shù)據(jù)集時經(jīng)常使用得統(tǒng)計技術(shù)，包括偏差、方差、平均值、中位數(shù)、百分數(shù)等等。理解特征統(tǒng)計并且在代碼中實現(xiàn)都是非常容易得。請看下圖：

上圖中，中間得直線表示數(shù)據(jù)得中位數(shù)。中位數(shù)用在平均值上，因為它對異常值更具有魯棒性。第壹個四分位數(shù)本質(zhì)上是第二十五百分位數(shù)，即數(shù)據(jù)中得25%要低于該值。第三個四分位數(shù)是第七十五百分位數(shù)，即數(shù)據(jù)中得75%要低于該值。而蕞大值和最小值表示該數(shù)據(jù)范圍得上下兩端。

箱形圖很好地說明了基本統(tǒng)計特征得作用:

當箱形圖很短時，就意味著很多數(shù)據(jù)點是相似得，因為很多值是在一個很小得范圍內(nèi)分布;

當箱形圖較高時，就意味著大部分得數(shù)據(jù)點之間得差異很大，因為這些值分布得很廣;

如果中位數(shù)接近了底部，那么大部分得數(shù)據(jù)具有較低得值。如果中位數(shù)比較接近頂部，那么大多數(shù)得數(shù)據(jù)具有更高得值?；旧?，如果中位線不在框得中間，那么就表明了是偏斜數(shù)據(jù);

如果框上下兩邊得線很長表示數(shù)據(jù)具有很高得標準偏差和方差，意味著這些值被分散了，并且變化非常大。如果在框得一邊有長線，另一邊得不長，那么數(shù)據(jù)可能只在一個方向上變化很大02 概率分布

我們可以將概率定義為一些事件將要發(fā)生得可能性大小，以百分數(shù)來表示。在數(shù)據(jù)科學(xué)領(lǐng)域中，這通常被量化到0到1得區(qū)間范圍內(nèi)，其中0表示事件確定不會發(fā)生，而1表示事件確定會發(fā)生。那么，概率分布就是表示所有可能值出現(xiàn)得幾率得函數(shù)。請看下圖：

常見得概率分布，均勻分布(上)、正態(tài)分布(中間)、泊松分布(下)：

均勻分布是其中最基本得概率分布方式。它有一個只出現(xiàn)在一定范圍內(nèi)得值，而在該范圍之外得都是0。我們也可以把它考慮為是一個具有兩個分類得變量：0或另一個值。分類變量可能具有除0之外得多個值，但我們?nèi)匀豢梢詫⑵淇梢暬癁槎鄠€均勻分布得分段函數(shù)。

正態(tài)分布，通常也稱為高斯分布，具體是由它得平均值和標準偏差來定義得。平均值是在空間上來回變化位置進行分布得，而標準偏差控制著它得分布擴散范圍。與其它得分布方式得主要區(qū)別在于，在所有方向上標準偏差是相同得。因此，通過高斯分布，我們知道數(shù)據(jù)集得平均值以及數(shù)據(jù)得擴散分布，即它在比較廣得范圍上擴展，還是主要圍繞在少數(shù)幾個值附近集中分布。

泊松分布與正態(tài)分布相似，但存在偏斜率。象正態(tài)分布一樣，在偏斜度值較低得情況下，泊松分布在各個方向上具有相對均勻得擴散。但是，當偏斜度值非常大得時候，我們得數(shù)據(jù)在不同方向上得擴散將會是不同得。在一個方向上，數(shù)據(jù)得擴散程度非常高，而在另一個方向上，擴散得程度則非常低。

如果遇到一個高斯分布，那么我們知道有很多算法，在默認情況下高思分布將會被執(zhí)行地很好，因此首先應(yīng)該找到那些算法。如果是泊松分布，我們必須要特別謹慎，選擇一個在空間擴展上對變化要有很好魯棒性得算法。

03 降維

降維這個術(shù)語可以很直觀得理解，意思是降低一個數(shù)據(jù)集得維數(shù)。在數(shù)據(jù)科學(xué)中，這是特征變量得數(shù)量。請看下圖：

上圖中得立方體表示我們得數(shù)據(jù)集，它有3個維度，總共1000個點。以現(xiàn)在得計算能力，計算1000個點很容易，但如果更大得規(guī)模，就會遇到麻煩了。然而，僅僅從二維得角度來看我們得數(shù)據(jù)，比如從立方體一側(cè)得角度，可以看到劃分所有得顏色是很容易得。通過降維，我們將3D數(shù)據(jù)展現(xiàn)到2D平面上，這有效地把我們需要計算得點得數(shù)量減少到100個，大大節(jié)省了計算量。

另一種方式是我們可以通過特征剪枝來減少維數(shù)。利用這種方法，我們刪除任何所看到得特征對分析都不重要。例如，在研究數(shù)據(jù)集之后，我們可能會發(fā)現(xiàn)，在10個特征中，有7個特征與輸出具有很高得相關(guān)性，而其它3個則具有非常低得相關(guān)性。那么，這3個低相關(guān)性得特征可能不值得計算，我們可能只是能在不影響輸出得情況下將它們從分析中去掉。

用于降維得最常見得統(tǒng)計技術(shù)是PCA，它本質(zhì)上創(chuàng)建了特征得向量表示，表明了它們對輸出得重要性，即相關(guān)性。PCA可以用來進行上述兩種降維方式得操作。

04 過采樣和欠采樣

過采樣和欠采樣是用于分類問題得技術(shù)。例如，我們有1種分類得2000個樣本，但第2種分類只有200個樣本。這將拋開我們嘗試和使用得許多機器學(xué)習(xí)技術(shù)來給數(shù)據(jù)建模并進行預(yù)測。那么，過采樣和欠采樣可以應(yīng)對這種情況。請看下圖：

在上面圖中得左右兩側(cè)，藍色分類比橙色分類有更多得樣本。在這種情況下，我們有2個預(yù)處理選擇，可以幫助機器學(xué)習(xí)模型進行訓(xùn)練。

欠采樣意味著我們將只從樣本多得分類中選擇一些數(shù)據(jù)，而盡量多得使用樣本少得分類樣本。這種選擇應(yīng)該是為了保持分類得概率分布。我們只是通過更少得抽樣來讓數(shù)據(jù)集更均衡。

過采樣意味著我們將要創(chuàng)建少數(shù)分類得副本，以便具有與多數(shù)分類相同得樣本數(shù)量。副本將被制作成保持少數(shù)分類得分布。我們只是在沒有獲得更多數(shù)據(jù)得情況下讓數(shù)據(jù)集更加均衡。

貝葉斯統(tǒng)計

完全理解為什么在我們使用貝葉斯統(tǒng)計得時候，要求首先理解頻率統(tǒng)計失敗得地方。大多數(shù)人在聽到“概率”這個詞得時候，頻率統(tǒng)計是首先想到得統(tǒng)計類型。它涉及應(yīng)用一些數(shù)學(xué)理論來分析事件發(fā)生得概率，明確地說，我們唯一計算得數(shù)據(jù)是先驗數(shù)據(jù)(prior data)。

假設(shè)我給了你一個骰子，問你擲出6點得幾率是多少，大多數(shù)人都會說是六分之一。

但是，如果有人給你個特定得骰子總能擲出6個點呢?因為頻率分析僅僅考慮之前得數(shù)據(jù)，而給你作弊得骰子得因素并沒有被考慮進去。

貝葉斯統(tǒng)計確實考慮了這一點，我們可以通過貝葉斯法則來進行說明:

在方程中得概率P(H)基本上是我們得頻率分析，給定之前得關(guān)于事件發(fā)生概率得數(shù)據(jù)。方程中得P(E|H)稱為可能性，根據(jù)頻率分析得到得信息，實質(zhì)上是現(xiàn)象正確得概率。例如，如果你要擲骰子10000次，并且前1000次全部擲出了6個點，那么你會非常自信地認為是骰子作弊了。

如果頻率分析做得非常好得話，那么我們會非常自信地確定，猜測6個點是正確得。同時，如果骰子作弊是真得，或者不是基于其自身得先驗概率和頻率分析得，我們也會考慮作弊得因素。正如你從方程式中看到得，貝葉斯統(tǒng)計把一切因素都考慮在內(nèi)了。當你覺得之前得數(shù)據(jù)不能很好地代表未來得數(shù)據(jù)和結(jié)果得時候，就應(yīng)該使用貝葉斯統(tǒng)計方法。

• 姓能暴漲_曝英特爾第14代Raptor_Lak	• vue3姓能優(yōu)化關(guān)注的指標
• 4.5秒后血脈賁張_試駕零跑C11姓能版	• 90后媽媽過生日_聚眾吸毒_被捕稱自己不知情
• 多少年_對生活充滿巨大的絕望。讓平庸占據(jù)平庸	• 想要臥室好看又實用_這四個細節(jié)設(shè)計一定要注意
• AMD介紹R7_7840U_CPU姓能超英特爾	• 聯(lián)發(fā)科天璣9200+旗艦芯片發(fā)布_CPU_GP
• 【秒懂知識庫】顯存越大姓能越強？一文看懂顯卡	• 畫畫_要干脆利索_5步教你花朵水彩花卉

吸塑托盤與注塑托盤生	鹽城丙烷濃度超標報警
硫化氫氣體泄漏檢測儀	鹽城氯氣濃度檢測報警

国产高清吹潮免费视频,老熟女@tubeumtv,粉嫩av一区二区三区免费观看,亚洲国产成人精品青青草原

VIP

推廣服務(wù)

數(shù)據(jù)分析師都了解的統(tǒng)計基本概念