天天觀天下！驗證性因子分析是什么意思?什么數(shù)據(jù)適合因子分析?

2022-07-01 09:34:14 來源：環(huán)球信息網(wǎng) 編輯：

驗證性因子分析（什么數(shù)據(jù)適合因子分析）創(chuàng)2021-06-09 11:07·Codewar

快一個月沒更新文章啦，今天收到好幾個粉絲的催更私信，好的吧，實在對不住大家期待的眼神，看樣子不能再拖啦，想想寫啥好呢，大家咨詢比較多的，混合模型算一個，今天就繼續(xù)給大家寫寫混合模型如何做吧。

(資料圖)

混合模型一般都可以用lme4這個包解決，lme4既可以做線性混合模型，也可以做廣義線性混合模型還可以做非線性混合模型，大家有需要可以只研究這一個包就行。

所謂混合模型就是既有固定效應(yīng)又有隨機(jī)效應(yīng)的模型：

“mixedeffects”, denotes a model that incorporates both fixed- and random-effects terms in a linear predictor expression from which the conditional mean of the response can be evaluated

第一部分線性混合模型

直接上例子，數(shù)據(jù)是來自一篇研究睡眠剝奪的文獻(xiàn)，整個數(shù)據(jù)大概長下圖這樣，其中我們的受試者在day0的時候可以睡到自然醒，在之后的日子里所有的受試者就只能睡3個小時了，我們的響應(yīng)變量是Reaction，就是對受試者做的測驗的響應(yīng)時間，我現(xiàn)在關(guān)心睡眠剝奪后，響應(yīng)時間的變化情況：

對于這么一個縱向數(shù)據(jù)，

我們來捋一捋：我們只有18個人受試者，每個受試者隨訪10次，我們需要明白的是，此時我們的每一次測量是嵌套在人的水平上的，我們可以認(rèn)為，不同人自己的10次測量是有強(qiáng)烈的相關(guān)性的，而不同人之間的這種關(guān)系又不一定是相同的。

直觀一點，我們可以畫出來每一天所有人響應(yīng)時間和睡眠剝奪的變化，畫出來就是下圖：

可以看到我們上面的這個大圖是由很多個小圖組成的，每一個小圖中橫軸就是睡眠剝奪的時間，縱軸是反應(yīng)時間。每個小圖就代表著我們要研究的睡眠剝奪和反應(yīng)時間的關(guān)系（具體到人），但是我們也應(yīng)該注意到這種關(guān)系在不同的人上是不同的，體現(xiàn)在：關(guān)系的斜率不同和截距不同。（這個關(guān)系的不同可以很明顯的在圖中看出來）

所以我們就可以擬合一個帶有隨機(jī)效應(yīng)的混合模型：

fm1<-lmer(Reaction~Days+(Days|Subject),sleepstudy)

運(yùn)行代碼后得到下面的結(jié)果：

結(jié)果中有隨機(jī)效應(yīng)的標(biāo)準(zhǔn)差和固定效應(yīng)的β估計，我得到的截距是251.4，斜率是10.5，這兩個系數(shù)就是我們研究的總體關(guān)系的表示，通常需要在文獻(xiàn)中匯報，就意味著睡眠不剝奪的時候人的反應(yīng)時間是251.4，而睡眠每剝奪多一天反應(yīng)時間增長10.5。

上面這個是最簡單的混合模型。我們繼續(xù)看：

lme4包高水平設(shè)置介紹

混合模型公式

對于一個常見的混合模型，我們可以在lme4包中寫出來如下差不多的混合模型公式：

resp~FEexpr+(REexpr1|factor1)+(REexpr2|factor2)+...

這個公式中FEexpr就是固定效應(yīng)，(REexpr1 | factor1)and(REexpr2 | factor2)都是隨機(jī)效應(yīng)，理論上你可以弄很多個隨機(jī)效應(yīng)但是實際操作中我們不會關(guān)心那么多。

理解混合模型公式

我們看到每一個隨機(jī)效應(yīng)在公式中的表達(dá)都是(expr | factor)這樣的。豎杠前面的expr就是一個常規(guī)的回歸公式，豎杠后面的factor就是一個常規(guī)的因子，你可以把豎杠想象成回歸公式和因子的交互：

One way to think about the vertical bar operator is as a special kind of interaction betweenthe model matrix and the grouping factor。This interaction ensures that the columns of themodel matrix have different effects for each level of the grouping factor.

這種交互的意思就是在因子的不同水平，我們的回歸是不一樣的，這也正好和我們前面的解釋相對應(yīng)，就是在不同的人的水平睡眠剝奪和響應(yīng)時間的關(guān)系不一樣。

寫到這，希望大家能記住下面這張表：

這個表就給我們展示了常見的隨機(jī)效應(yīng)的設(shè)置，比如(1 | g)，就是說在因子g的不同水平，我們響應(yīng)變量的截距都不一樣。表中的第二行有個offset，表示沒有固定效應(yīng)。如果我們的數(shù)據(jù)是一個三層嵌套數(shù)據(jù)，我們可以用第三行的設(shè)定來表示隨機(jī)截距；如果你的數(shù)據(jù)沒有直接嵌套但是在g1和g2的不同水平上存在相關(guān)，那么可以用第四行的設(shè)定，這個在項目反應(yīng)理論中比較常見。

在lme4中，默認(rèn)認(rèn)為同一個模型的截距和斜率是存在相關(guān)的，如果你確定截距和斜率無關(guān)那么設(shè)定隨機(jī)效應(yīng)的時候就可以用兩個豎杠，或者把截距和斜率分開來寫，就是說(x || g)和x +(1 | g) + (0 + x | g)表達(dá)的隨機(jī)效應(yīng)都是一樣的。

比如如果我認(rèn)為睡眠剝奪和反應(yīng)時間隨機(jī)效應(yīng)的截距和斜率無關(guān)，我便可以做如下設(shè)定：

fm2<-lmer(Reaction~Days+(Days||Subject),sleepstudy)#截距和斜率無關(guān)的設(shè)定

有時候我們擬合一個后又想嘗試對模型進(jìn)行改變，但又不想重寫，此時就可以直接對相似的模型基礎(chǔ)上進(jìn)行更新：

模型的更新

比如我想在fm1的基礎(chǔ)上去掉隨機(jī)斜率只留隨機(jī)截距，我就可以用updata寫出如下代碼：

fm3<-update(fm1,.~.-(Days|Subject)+(1|Subject))#模型的更新

到底哪一個模型更好呢？

可以用anova方法進(jìn)行模型間的比較：

anova(fm1,fm2,fm3)

運(yùn)行代碼會輸出比較的結(jié)果：

其中，從模型比較的結(jié)果可以看出，給模型增加一個截距和斜率無關(guān)的隨機(jī)效應(yīng)相比會使得模型的deviance變小，進(jìn)一步將隨機(jī)效應(yīng)設(shè)定為相關(guān)，并不能夠顯著地減小deviance，從而我們就可以知道fm2才是對數(shù)據(jù)擬合最好的模型。

第二部分非線性混合模型

非線性混合模型就是通過一個連接函數(shù)將線性模型進(jìn)行拓展，并且同時再考慮隨機(jī)效應(yīng)的模型。

The fixed-effects parameters describe the general patterns of the data and random-effects parameters describe specific clusters. If the model is nonlinear in the parameters,it is called a nonlinear mixed-effects model (Davidian &Giltinan, 2003)

非線性混合模型常常在生物制藥領(lǐng)域的分析中會用到，因為很多劑量反應(yīng)并不是線性的，如果這個時候數(shù)據(jù)再有嵌套結(jié)構(gòu)，那么就需要考慮非線性混合模型了。

看下面這個圖，這個圖描繪了不同人用了茶堿過后的反應(yīng)，時間是橫軸，殘留是縱軸，和開篇線性模型中睡眠剝奪和反應(yīng)時間的例子一樣，我們把每個人的關(guān)系都做了圖出來，不過從圖中可以明顯看出這種關(guān)系并不是簡單線性的。

其實這種不是線性的關(guān)系存在的情況很多。

比如漸進(jìn)回歸：

再比如邏輯增長：

此時我們要注意到像這兩非線性關(guān)系模型的參數(shù)都不是簡單的一個斜率加個截距了。都有φ1，φ2，φ3三個額外參數(shù)。

這兒先給大家寫一個邏輯增長的實際例子：我現(xiàn)在有一個關(guān)于樹木周徑的數(shù)據(jù)集，每棵樹隨訪了7次，每次隨訪記錄數(shù)的年齡age，和周徑，我現(xiàn)在想研究在所有樹木中時間和周徑的關(guān)系。

很自然，我們可以想到不同的樹這個關(guān)系應(yīng)該是不一樣的，我們想探求的一定是考慮了樹水平的變異之后的總體關(guān)系，所以不妨先畫出來每個樹的關(guān)系：

從圖中可以看到我們總共有5棵樹，基本關(guān)系是一致的，但存在些許變異相關(guān)（所以考慮混合模型），而且這個關(guān)系并不是線性的（時間越大周徑基本不改變了），所以我們應(yīng)該考慮非線性的混合模型。

具體地，我們可以用nlmer方法來擬合非線性混合模型，方法參數(shù)包括3部分：首先是響應(yīng)變量，然后是非線性函數(shù)，然后是混合效應(yīng)公式：

The formula argument fornlmeris in three parts: the response, the nonlinear model function depending on covariates and a set of nonlinear model (nm) parameters, and the mixed-effects formula.

比如對我們的數(shù)據(jù)我就可以寫出如下SSlogis方法的代碼：

print(nm1<-nlmer(circumference~SSlogis(age,Asym,xmid,scal)~Asym|Tree,Orange,start=c(Asym=200,xmid=770,scal=120)),corr=FALSE)

此時我們選擇的非線性函數(shù)是邏輯增長函數(shù)SSlogis，剛剛給大家解釋了這個函數(shù)是有3個參數(shù)的，在上面的代碼中，age是我們的預(yù)測變量，Asym, xmid, scal分別是額外的三個參數(shù)（之前的邏輯增長的式子和Asym/(1+exp((xmid-input)/scal))等同）：

進(jìn)一步，擬合邏輯增長是要我們給出這些參數(shù)的初始值的，然后從初始值通過梯度下降尋找各個參數(shù)的最優(yōu)解：

SSlogis has an attribute called "initial", which is a function that nls can call to compute reasonable starting values for fitting a logistic function to the input data.

所以我們看到代碼中都給出了響應(yīng)參數(shù)的初始值。

運(yùn)行上面代碼后輸出如下結(jié)果：

我們可以看到結(jié)果中的固定效應(yīng)里面有Asym，Xmid，scal參數(shù)的估計結(jié)果。

那么這些參數(shù)如何解釋呢？

留個懸念我們下期再更。關(guān)注關(guān)注關(guān)注，嘿嘿。

小結(jié)

很久沒更新了，今天給大家寫了如何用lme4做混合模型，包括線性和非線性的例子，感謝大家耐心看完，自己的文章都寫的很細(xì)，代碼都在原文中，希望大家都可以自己做一做，請關(guān)注后私信回復(fù)“數(shù)據(jù)鏈接”獲取所有數(shù)據(jù)和本人收集的學(xué)習(xí)資料。如果對您有用請先收藏，再點贊轉(zhuǎn)發(fā)。

也歡迎大家的意見和建議，大家想了解什么統(tǒng)計方法都可以在文章下留言，說不定我看見了就會給你寫教程哦，另咨詢代做請私信。

如果你是一個大學(xué)本科生或研究生，如果你正在因為你的統(tǒng)計作業(yè)、數(shù)據(jù)分析、論文、報告、考試等發(fā)愁，如果你在使用SPSS,R，Python，Mplus, Excel中遇到任何問題，都可以聯(lián)系我。因為我可以給您提供好的，詳細(xì)和耐心的數(shù)據(jù)分析服務(wù)。

如果你對Z檢驗，t檢驗，方差分析，多元方差分析，回歸，卡方檢驗，相關(guān)，多水平模型，結(jié)構(gòu)方程模型，中介調(diào)節(jié)，量表信效度等等統(tǒng)計技巧有任何問題，請私信我，獲取詳細(xì)和耐心的指導(dǎo)。

If you are a student and you are worried about you statistical #Assignments, #Data #Analysis, #Thesis, #reports, #composing, #Quizzes, Exams.. And if you are facing problem in #SPSS, #R-Programming, #Excel, Mplus, then contact me. Because I could provide you the best services for your Data Analysis.

Are you confused with statistical Techniques like z-test, t-test, ANOVA, MANOVA, Regression, Logistic Regression, Chi-Square, Correlation, Association, SEM, multilevel model, mediation and moderation etc. for your Data Analysis...??

Then Contact Me. I will solve your Problem...

往期精彩

R數(shù)據(jù)分析：有調(diào)節(jié)的中介

R數(shù)據(jù)分析：用R語言做meta分析

R數(shù)據(jù)分析：用R語言做潛類別分析LCA

R數(shù)據(jù)分析：多分類邏輯回歸

R數(shù)據(jù)分析：如何做聚類分析，實操解析

R數(shù)據(jù)分析：主成分分析及可視化

R數(shù)據(jù)分析：混合效應(yīng)模型實例

R數(shù)據(jù)分析：生存分析的做法與解釋續(xù)

R數(shù)據(jù)分析：如何做潛在剖面分析Mplus

R數(shù)據(jù)分析：中介作用與調(diào)節(jié)作用的分析與解釋

R數(shù)據(jù)分析：生存分析的做法和結(jié)果解釋

R數(shù)據(jù)分析：潛在剖面分析LPA的做法與解釋

R數(shù)據(jù)分析：逐步回歸的做法和原理，案例剖析

R數(shù)據(jù)分析：著名的“三門問題”的R語言模擬

R數(shù)據(jù)分析：潛變量與降維方法（主成分分析與因子分析）

R數(shù)據(jù)分析：雙分類變量的交互作用作圖

R數(shù)據(jù)分析：傾向性評分匹配實例操作

R數(shù)據(jù)分析：ROC曲線與模型評價實例

R數(shù)據(jù)分析：如何用R語言做meta分析，寫給小白

R數(shù)據(jù)分析：多水平模型詳細(xì)說明

R數(shù)據(jù)分析：如何用R做驗證性因子分析及畫圖，實例操練

R數(shù)據(jù)分析：多元邏輯斯蒂回歸的做法

R數(shù)據(jù)分析：嵌套數(shù)據(jù)分析為什么要用加隨機(jī)效應(yīng)？終于解釋清楚了

R數(shù)據(jù)分析：交叉滯后模型非專業(yè)解釋

R數(shù)據(jù)分析：再寫潛在類別分析LCA的做法與解釋

R數(shù)據(jù)分析：如何繪制回歸分析結(jié)果的森林圖

R數(shù)據(jù)分析：傾向性評分匹配完整實例（R實現(xiàn)）

R數(shù)據(jù)分析：手把手教你畫列線圖(Nomogram)及解讀結(jié)果

R數(shù)據(jù)分析：混合效應(yīng)模型的可視化解釋，再不懂就真沒辦法

R數(shù)據(jù)分析：廣義估計方程式GEE的做法和解釋

R數(shù)據(jù)分析：tableone包的詳細(xì)使用介紹

關(guān)鍵詞：驗證性因子分析什么數(shù)據(jù)適合因子分析

相關(guān)閱讀

分享到：

版權(quán)和免責(zé)申明

凡注有"環(huán)球傳媒網(wǎng)"或電頭為"環(huán)球傳媒網(wǎng)"的稿件，均為環(huán)球傳媒網(wǎng)獨(dú)家版權(quán)所有，未經(jīng)許可不得轉(zhuǎn)載或鏡像；授權(quán)轉(zhuǎn)載必須注明來源為"環(huán)球傳媒網(wǎng)"，并保留"環(huán)球傳媒網(wǎng)"的電頭。

新視野

資訊

元?dú)馍滞瓿闪藢π悠げ琛白钕病钡氖召?/a>

新視野

資訊

焦點