我如何知道我的資料是什麼分佈?
評估資料分佈的方式
一系列資料可以按照許多不同的方式分佈或擴散。例如,擲骰子所得到的資料可能會在 1 到 6 之間均勻地變化,製造過程的資料可能會以某個目標值為中心,醫療保健行業的資料可能包括遠離中心值的值。
可以透過圖形、描述性統計或分配辨識工具來評估資料分佈:
直觀評估
透過圖形 (如直方圖),可以即時洞察、直接深入瞭解資料集的分佈情況。直方圖 (Histograms) 可以幫助您觀測:
· 資料聚集是圍繞單個值,還是具有多個高峰值或模式。
· 資料是稀疏散佈於寬廣的範圍,還是位於較小的範圍。
· 資料是偏斜的還是對稱的。
分配度量
用於描述包含數值資料的中心趨勢 (平均數、中位數) 和擴展 (變異數、標準差) 的描述性統計,這些統計量添加了一層細節並且可用於與其他資料集進行比較。
正式或理論定義
最後,一些常見的分佈可以按名稱 (如常態、Weibull 和指數分佈) 標識和識別。例如,常態分佈始終為鐘形,且以平均數為中心。常態分佈中的值的一致百分比在距離平均數任何數量的標準差內:例如,68.26% 的觀測值落在平均數的一個標準差範圍內。
瞭解資料集的分佈即可瞭解有關資料本身的資訊,這在選擇適當分析和解釋其結果方面非常關鍵。
您的實際資料將有可能只是接近於這些完美分佈。如果有接近的配適,則數據可依特定的模型適當地建模。如果資料的分佈保持不變,則可以使用接近的配適來計算未來資料的機率。使用 Stat > Quality Tools > Individual Distribution Identification 可以辨識與您的資料最佳擬合配適的分佈。