雖然火車開走了,還是有人在帶風向。以下說明及程式由chatgpt產生,人工修改。
中央極限定理(Central Limit Theorem,CLT)是統計學中的一個基本概念,它描述了在
一定條件下,大量相互獨立、具有相同分佈的隨機變量的平均值(或總和)的分佈趨向於
正態分佈,即使原始隨機變量的分佈不一定是正態分佈。
信心水準的計算與統計推斷中的置信區間密切相關。一個信心水準通常以百分比形式表示
,常見的有95%、90%、99%等。信心水準描述了對估計參數真實值的信心程度,並用來構
建置信區間。
**信心水準為95%的例子:** 如果我們使用95%的信心水準進行估計,我們可以說,在
一系列相似的實驗或研究中,我們預期有95%的情況下真實參數值會落在我們計算的置信
區間內。換句話說,我們對我們的估計感到相當有信心,但也承認有5%的機會我們的估計
是不準確的。
根據以上兩點,假設做10000次相同的民調,信心水準為95%,支持度會呈現正態分佈,
標準差為0.03/1.96。
誤差範圍指的是在這個範圍內統計不顯著,超過這個範圍為統計顯著。
柯侯 vs. 賴蕭,做10000次民調,柯侯支持率的分佈為set1。
侯柯 vs. 賴蕭,做10000次民調,侯柯支持率的分佈為set2。
在信心水準95%的情形下,柯侯支持率大於侯柯支持率的差距需為多少?
先說結論,相關係數為[0.8, 0,5, 0.0]的情形下,差距大於[1.61%, 2.54%, 3.62%]
即為統計顯著。
import numpy as np
def genSets(mean, delta, corr, samples):
std_dev = 0.03/1.96
covariance_matrix = np.array([[std_dev**2, corr * std_dev**2],
[corr * std_dev**2, std_dev**2]])
data = np.random.multivariate_normal([mean, mean-delta],
covariance_matrix, samples).T
return data[0], data[1]
for delta in np.linspace(0.01,0.06,501):
set1, set2 = genSets(0.5, delta, 0.8, 10000)
if np.sum(set2>set1) > 500:
print(delta)