在許許多多的醫(yī)療器械臨床試驗(yàn)中,我們?cè)O(shè)計(jì)方案、入組受試者、采集研究數(shù)據(jù),整個(gè)過程漫長而艱辛,所有的努力都是為了最后那個(gè)簡單的P值或者置信區(qū)間上。
在許許多多的醫(yī)療器械臨床試驗(yàn)中,我們?cè)O(shè)計(jì)方案、入組受試者、采集研究數(shù)據(jù),整個(gè)過程漫長而艱辛,所有的努力都是為了最后那個(gè)簡單的P值或者置信區(qū)間上。那么P值和置信區(qū)間代表什么意思呢?為什么我們要做計(jì)算P值或置信區(qū)間來做統(tǒng)計(jì)推斷呢?
首先我們要弄清楚兩個(gè)概念,置信度和置信區(qū)間 :
置信度:以測(cè)量值為中心,在一定范圍內(nèi),真值出現(xiàn)在該范圍內(nèi)的幾率。一般設(shè)定在2σ,也就是95%,95%是通常情況下置信度(置信水平)的設(shè)定值。
置信區(qū)間:在某一置信度下,以測(cè)量值為中心,真值出現(xiàn)的范圍。 我們?cè)谡撐睦锝?jīng)常看到CI,CI是置信區(qū)間,一定概率下真值得取值范圍(可靠范圍)稱為置信區(qū)間。其概率稱為置信概率或置信度(置信水平)
在講P值和置信區(qū)間之前,我們先講講樣本與總體。
在《醫(yī)學(xué)統(tǒng)計(jì)學(xué)》中,根據(jù)研究目的而確定的同質(zhì)觀察單位的全體成為總體。觀察單位,又稱個(gè)體,是統(tǒng)計(jì)研究中的基本單位,他可以是一個(gè)人、一個(gè)器官、一個(gè)細(xì)胞。
比如調(diào)查某公司某一天來上班的所有員工的體重,那么一個(gè)員工就是一個(gè)觀察單位,所有員工就是一個(gè)總體。同一家公司、同一天形成了同質(zhì)的基礎(chǔ)。在這個(gè)例子中的總體是一個(gè)“有限總體”,他規(guī)定了時(shí)間、范圍里有限個(gè)觀察單位。
但是在臨床試驗(yàn)中,大多數(shù)情況下我們的總體是“無限總體”,是沒有辦法觀察到所有觀察單位的。比如研究某透析器對(duì)慢性腎衰竭患者的肌酐清除率,這里同質(zhì)的基礎(chǔ)是慢性腎衰竭的患者,但是患者的總數(shù)在理論上是存在的,但是真正是多少我們無法得知。在這種情況下,我們只能抽取其中的部分患者進(jìn)行研究。這部分隨機(jī)抽取的患者稱為樣本,我們通過樣本信息推斷總體特征。
當(dāng)檢驗(yàn)水準(zhǔn)為雙側(cè)0.05時(shí),大多數(shù)情況下P<0.05是我們希望看到的結(jié)果。但是P值本身的含義是什么呢?
以兩組間的差異性檢驗(yàn)為例,P值指的是,如果試驗(yàn)組療效和對(duì)照組療效相同(來自一個(gè)總體),那么得到現(xiàn)有這么大的差別或更大差別的可能性。
打個(gè)比方,研究某微波消融設(shè)備A與另外一種微波消融設(shè)備B在治療肝臟腫瘤的療效,受試者隨機(jī)分組至A組或B組,分別采用設(shè)備A和設(shè)備B進(jìn)行治療,兩組各100人。
表1 兩種微波消融設(shè)備首次消融成功率的比較
A組首次消融成功率為96%,B組首次消融成功率為88%,采用Pearson χ2 計(jì)算P值為0.0371。結(jié)合P值的定義,說明如果A組和B組的首次消融成功率是一樣的,那么得到96%-88%=8%這樣的差別或大于8%的差別的概率為0.0371。0.0371<0.05,說明不太可能得到現(xiàn)有這么大或者更大差別的結(jié)果了,這種差別不是樣本抽樣偶然性導(dǎo)致的,可能是兩組總體不同導(dǎo)致的,所以可以推斷A組和B組的總體首次消融成功率不同。
置信區(qū)間是推斷兩組差別所在的范圍,如果置信區(qū)間包含0,則可以認(rèn)為兩組間差異無統(tǒng)計(jì)學(xué)意義,否則差異有統(tǒng)計(jì)學(xué)意義。接上述例子,兩組樣本的率差為8%,其雙側(cè)95%置信區(qū)間為(0.31%,16.18%),那么兩個(gè)總體的率差會(huì)在這個(gè)范圍內(nèi)。這個(gè)置信區(qū)間不包含0,所以可以認(rèn)為A組和B組的總體首次消融成功率不同。
需要注意的是置信區(qū)間意味著95%的情況下可以估計(jì)到總體率差,還有5%的情況可能估計(jì)不到。比如我們?cè)诳傮w中隨機(jī)抽取100份樣本,每份樣本中有2組,每組100人分別使用設(shè)備A和設(shè)備B,并計(jì)算置信區(qū)間。那么有95份樣本的置信區(qū)間包含總體率差,有5份樣本未包含總體率差。而不是指“該區(qū)間有95%的可能包含總體率差,有5%的可能不包含”。
統(tǒng)計(jì)推斷是樣本信息推斷總體特征的方法,P值和置信區(qū)間是統(tǒng)計(jì)推斷直觀的表現(xiàn)形式。
在抽取的樣本中,A組首次消融成功率為96%,B組首次消融成功率為88%,如果只從樣本的結(jié)果來看確實(shí)是A設(shè)備比B設(shè)備要好。但是我們不知道這個(gè)8%的優(yōu)勢(shì),是由抽樣的偶然性造成的呢,還是兩組的總體確實(shí)不同。我們的研究不僅僅是研究這個(gè)樣本,尤其是藥品或醫(yī)療器械的臨床試驗(yàn),我們是要通過樣本計(jì)算P值和置信區(qū)間,從而推斷出在總體的人群當(dāng)中A設(shè)備的療效比B設(shè)備要好。這就是計(jì)算P值和置信區(qū)間的意義。