❶ 在工具變數的選取中,必須能夠完全替代隨機解釋變數嗎
可以。工具變數和被解釋變數是同等的,可以替換。工具變數也稱為「儀器變數」或「輔助變數」,是經濟學、計量經濟學、流行病學和相關學科中無法實現可控實驗的時候,用於估計模型因果關系的方法。
❷ 請問stata工具變數法怎麼使用啊
用命令ivregress 2sls y x1 x2, robust。y2是內生變數,z1、z2是工具變數。
不過建議使用ivregress2。先安裝:ssc install ivregress2。
Stata操作:工具變數法的難點在於找到一個合適的工具變禪銀量並說明其合理性,Stata操作其實相當簡單,只需一行命令就可以搞定,我們通常使用的工具變數法的Stata命令主要就是ivregress命令和ivreg2命令。
stata如何進行最小二乘法回歸方法步驟?
一般做2sls,使用語句ivreg y (x1=z) x2 x3……xn。假定工具變數為z,控制變數有n-1個,就使用這個就好了。如果你非要自己編程序的話,首先reg x1 z x2……xn。
然後把X1的擬合值predict出來(假定為x11),在做第二階段的回歸。 reg y x11 x2……xn; 這樣得到的結果就是兩階段的回歸結果,但是方差是有問題的。最好使用ivreg,如果還不會用的話,直接help ivreg。
ivregress命令
ivregress命令是Stata自帶的命令,支持兩階段最小二乘(2SLS)、廣義矩估計(GMM)和有限信息最大似然估計(LIML)三種工具變數估計方法,我們最常使用的是兩階段最小二乘法(2SLS),因為歷坦2SLS最能體現工具變數的實質,並且在球形擾動項的情況下,2SLS是最有效率的工具變數法。
顧名思義,兩階段最小二乘法(2SLS)需要做兩個回歸:
(1)第一階段回歸:用內生解釋變數對工具變數和控制變數回歸,得到擬合值。
(2)第二階段回歸:用被解釋變數對第一階段回歸的擬合值和控制變數進行回歸。
如果要使用2SLS方法,我們只需在ivregress後面加上2sls即可,然後將內生解釋變數lnjinshipop和工具變數bprvdist放在一個小括弧中,用=號連接。選項first表示報告第一階段回歸賀爛宴結果,選項cluster()表示使用聚類穩健的標准誤。
❸ 計量經濟學:什麼是工具變數法,被選為工具變數的變數必須具備什麼條件
某一個變數與模型中隨機解釋變數高度相關,但卻不與隨機誤差項相關,那麼就可以用此變數與模型中相應回歸系數得到一個一致估計量,這個變數就稱為工具變數,這種估計方法就叫工具變數法。
在模型估計過程中被作為工具使用,以替代模型中與誤差項相關的隨機解釋變數的變數,稱為工具變數。
作為工具變數,必須滿足下述四個條件:
(1)與所替的隨機解釋變數高度相關;
(2)與隨機誤差項不相關;
(3)與模型中其他解釋變數不相關;
(4)同一模型中需要引入多個工具變數時,這些工具變數之間不相關。
(3)如何選用工具變數擴展閱讀:
缺點
工具變數法的關鍵是選擇一個有效的工具變數,由於工具變數選擇中的困難,工具變數法本身存在兩方面不足:
一是由於工具變數不是惟一的,因而工具變數估計量有一定的任意性;
二是由於誤差項實際上是不可觀測的,因而要尋找嚴格意義上與誤差項無關而與所替代的隨機解釋變數高度相關的變數事實上是困難的。
❹ 工具變數怎麼找
點擊 eclipse 工具欄的 window==>show View ==>Other 找到DEBUG 點擊開 有一個Variables 這個就是調試的時候的變數顯示窗口。 eclipse調試追蹤數據變化窗口如何打開: 1、先看下軟體的正常狀況。 2、但是可能因為不小心,我們將追蹤數據變化的窗口關掉了,就像這樣。 3、點擊windows->show view->variables就可以了。 Eclipse是著名的跨平台的自由集成開發環境(IDE)。最初主要用來Java語言開發,但是目前亦有人通過外掛程式使其作為其他計算機語言比如C++和Python的開發工具。Eclipse本身只是一個框架平台,但是眾多外掛程式的支持使得Eclipse擁有其他功能相對固定的IDE軟體很難具有的靈活性。許多軟體開發商以Eclipse為框架開發自己的IDE。Eclipse最初由IBM公司開發,2001年11月貢獻給開源社區,現在它由非營利軟體供應商聯盟Eclipse基金會(EclipseFoundation)管理。
❺ 如何利用計量經濟學的方法進行因果推斷(一)
本文是在我在這學期聽了北京大學國發院2019年春季學期沈艷老師開設的《高級計量經濟學2》後對因果推斷部分的總結,主要涉及DID、RD、傾向得分匹配、HCW及合成控製法等計量方法。
因為文章包含了很多我個人的理解,免不了有所疏漏或者有理解不到位之處,還請大家批評指正。大家如果有興趣對因果推斷的方法進一步探究,可以閱讀我在文章最下方列出的課程參考文獻以及我自己認為對理解因果推斷很有幫助的一些文章。
首先,什麼是因果推斷?我認為因果推斷是用已有的證據去證明兩件事、兩個變數之間的因果聯系,比如證明教育年限對於工資水平的影響,或者是氣候變化對於農作物產量的影響,這里的教育年限和氣候變化就是因,而工資水平和農作物產量則是果。
用於驗證因果關系最理想的辦法,自然是做實驗。繼續上文教育年限和工資水平的例子,我們如果想證明教育年限對於工資水平有影響,在理想狀態下應該找一群人,控制他們的性別、年齡、智商等等所以可能影響工資水平的因素不變化,段簡譽而只讓教育年限發生變化,來觀察工資水平是否會發生變化以及發生多大的變化。但現實中,尤其是對於社會學科來說,通常的研究對象是人,很難像自然科學一樣在咐晌可以對各變數進行嚴格控制的環境握段下進行實驗,所以就又有了下面我們要講的方法。
第一種是隨機控制實驗(random control trial),也就是近些年比較火的RCT方法。用葯品測試作為例子,為了測試某種新葯到底有沒有效果,葯品公司招募了一批符合條件的被試者,將這些被試者隨機分入控制組或者實驗組。控制組僅發放安慰劑,而實驗組則會發放真正的葯品,但是被試者並不知道發放到自己手中的葯品究竟是安慰劑還是開發的新葯。在實驗結束以後,對比實驗組與控制組的相應身體指標,二者之間的平均差異就是新葯的效果。
第二種是自然實驗(natural experiment)或者准實驗(quasi-experiment)。這類實驗主要是指由於某些外部突發事件,使得當事人彷彿隨機地被分配到了實驗組和控制組,因而可以進行比較,探究是否存在因果關系。通過個體分組是否完全取決於這一突發事件,我們又可以進一步將其分為兩類實驗:第一類個體分組完全取決於突發事件,比如1992年,美國新澤西州通過法律將最低工資從每小時4.25美元提高到5.05美元,但在相鄰的賓夕法尼亞州最低工資依然保持不變,這兩個州的僱主彷彿被隨機地分配到實驗組(新澤西州)與控制組(賓夕法尼亞州)。這類自然實驗可以直接用OLS估計因果效應。第二類個體分組只是部分地由自然實驗所決定,如Angrist(1990) 考察越戰期間的參軍者,當時美國對全國年輕男子以生日抽簽的方式進行徵兵,盡管抽簽完全隨機,但是否參軍取決於體檢,且有些人得到豁免,另一些人未抽中卻自願參軍,此時應以自然實驗所帶來的隨機變動作為工具變數。
那在介紹完以上的實驗之後,我們正式進入因果推斷的框架。我們這里主要用到的是RCM的模型,即Rubin Causal Model (RCM; Rubin 1978)。首先我們引入潛在因變數的概念。
什麼叫做潛在因變數呢?例如一個人上了大學,我們想研究上大學這一事件對於他的收入帶來了多大的提升,這一提升叫做上大學這一事件的處理效應。為了計算這一處理效應,我們就要對這個人上了大學的收入和沒上大學的收入兩者相減。但在實際情況中,我們只能觀察到他上了大學的收入,而無法觀察到他沒上大學的話收入是多少,因為一個人無法像薛定諤的貓一樣同時兼具兩種狀態,要麼是生,要麼是死,一旦一種狀態被確定,另一種狀態下發生的事情就無法觀測到了。此時,這個無法觀測到的因變數就叫做潛在因變數。那我們引入以下的一些notation。
接下來我們就要定義所謂的處理效應。因為總體可以分為實驗組和控制組,相應在總體、實驗組和控制組三個層面上就有三種處理效應。用我們上面提到的總體處理效應是指總體隨機分配個體到實驗組與控制組所得到的處理效應,即 。而實驗組處理效應為 。控制組的處理效應為 。這三者之間的關系是 ,即總體處理效應是實驗組處理效應與控制組處理效應的權重加總。
在現實中由於潛在因變數的問題,我們往往無法估計以上三種處理效應。我們往往通過比較實驗組與處理組的平均差異來近似個體處理效應,即:
當 趨於無窮時,該值依概率收斂於 ,經過一番操作後可以化為
第一個花括弧內即為實驗組的處理效應,第二個花括弧內是由實驗組和控制組解釋變數差異帶來的混淆效應,即實驗組和控制組個體本身的異質性,第三個花括弧內是實驗組和控制組個體不可觀測因素帶來的偏差。
為了使估計的總體處理效應在期望上等於實驗組的處理效應,我們需要引入以下兩個假定:
第一個假定表明在控制了解釋變數之後,實驗組與控制組個體的選擇與潛在因變數獨立。第二個假定叫做重合假定,表明實驗組與控制組應當在一個范圍內都有觀測值。這兩個假定合起來稱為「the strongly ignorable treatment assignment」假定。
如果以上兩個假定成立,那麼我們就可以選用回歸、傾向得分匹配的方法。反之,則根據需要選用工具變數、DID、RD、HCW、合成控製法等。
除了假定以外,實驗組分配機制也是決定我們能否使用因果推斷以及使用哪種因果推斷方法的重要因素。一般而言,我們都需要考慮實驗組分配機制是否存在內部有效性和外部有效性的問題。內部有效性問題主要包含:1)未能完全隨機分組;2)未能完全遵從實驗設計;3)中途退出實驗;4)觀察效應或霍桑效應,即觀察者會給實驗者的行為造成擾動;5)樣本量過小。內部有效性問題主要存在於實驗設計本身,而外部有效性問題影響實驗結果是否能夠推廣,具有參考價值和普遍的代表性,主要包括:1)樣本代表性不足;2)小型實驗的條件與大規模推廣時的現實條件不同;3)一般均衡效應,以市場供需為例,市場在達到均衡與未達到均衡時供需機制顯然是不同的;4)自我選擇效應,以就業培訓項目為例,選擇進入就業培訓項目的人往往在近幾年收入較低,因此研究就業培訓項目對收入的影響就會存在內生性問題。
因為文章比較長,所以我們這部分就先介紹RCM基本框架,接下來依次為大家介紹這一框架下不同的因果推斷方法。
相關網頁:
Rubin Causal Model (RCM) 和隨機化試驗 (作者寫的一系列關於因果推斷的文章可讀性很不錯,大家有興趣可以一覽)
❻ 面板數據如何處理工具變數
解釋變數內生性檢驗
首先檢驗解釋變數內生性(解釋變數內生性的Hausman 檢驗:使用工具變數法的前提是存在內生解釋變數。Hausman 檢驗的原假設為:所有解釋變數均為外生變數,如果拒絕,則認為存在內生解釋變數,要用IV;反之,如果接受,則認為不存在內生解釋變數,應該使用OLS。
reg ldi lofdi
estimates store ols
xtivreg ldi (lofdi=l.lofdi ldep lexr)
estimates store iv
hausman iv ols
(在面板數據中使用工具變數,Stata提供了如下命令來執行2SLS:xtivreg depvar [varlist1] (varlist_2=varlist_iv) (選擇項可以為fe,re等,表示固定效應、隨機效應等。詳見help xtivreg)
如果存在內生解釋變數,則應該選用工具變數,工具變數個數不少於方程中內生解釋變數的個數。「恰好識別」時用2SLS。2SLS的實質是把內生解釋變數分成兩部分,即由工具變數所造成的外生的變動部分,以及與擾動項相關的其他部分;然後,把被解釋變數對中的這個外生部分進行回歸,從而滿足OLS前定變數的要求而得到一致估計量。tptqtp
二、異方差與自相關檢驗
在球型擾動項的假定下,2SLS是最有效的。但如果擾動項存在異方差或自相關,
面板異方差檢驗:
xtgls enc invs exp imp esc mrl,igls panel(het)
estimates store hetero
xtgls enc invs exp imp esc mrl,igls
estimates store homo
local df = e(N_g) - 1
lrtest hetero homo, df(`df')
面板自相關:xtserial enc invs exp imp esc mrl
則存在一種更有效的方法,即GMM。從某種意義上,GMM之於2SLS正如GLS之於OLS。好識別的情況下,GMM還原為普通的工具變數法;過度識別時傳統的矩估計法行不通,只有這時才有必要使用GMM,過度識別檢驗(Overidentification Test或J Test):estat overid
三、工具變數效果驗證
工具變數:工具變數要求與內生解釋變數相關,但又不能與被解釋變數的擾動項相關。由於這兩個要求常常是矛盾的,故在實踐上尋找合適的工具褲巧陪變數常常很困難,需要相當的想像力與創作性。常用滯後變數。
需要做的檢驗:
檢驗工具變數的有效性:
(1) 檢驗工具變數與解釋變數的相關性
如果工具變數z與內生解釋變數完全不相關,則無法使用工具變數法;如果與僅僅微弱地相關,。這種工具變數被稱為「弱工具變數」(weak instruments)後果就象樣本容量過小。檢驗弱工具變數的一個經驗規則是,如果在第一階段回歸中,F統計量大於10,則可不必擔心弱工具變數問胡蠢題。Stata命令:estat first(顯示第一個階段回歸中的統計量)
(2) 檢驗工具變數的外生性(接受原假設好)
在恰好識別的情況下,無法檢驗工具變數是否與擾動項相關。在過度識別(工具變數個數>內生變數個數)的情況下,則可進行過度識別檢驗(Overidentification Test),檢驗原假設所有工具變數都是外生的。如果拒絕該原假設,則認為至少某個變數不是外生的,即與擾動項相關。0H
Sargan統計量,Stata命令:estat overid
四、GMM過程
在Stata輸入以下命令,就可以進行對面板數據的GMM估計。
. ssc install ivreg2 (安裝程序ivreg2 )
. ssc install ranktest (安裝另外一個在運行ivreg2 時需要寬嫌用到的輔助程序ranktest)
. use "traffic.dta"(打開面板數據)
. xtset panelvar timevar (設置面板變數及時間變數)
. ivreg2 y x1 (x2=z1 z2),gmm2s (進行面板GMM估計,其中2s指的是2-step GMM)
❼ 經濟發展與碳排放 怎麼選工具變數
解釋變數內生性檢驗 首雹鬧先檢驗解釋變數內生性(解釋變數內生性的Hausman 檢驗:使用工具變數法的前攜肆前提是存在辯清內生解釋變數。
❽ 使用兩階段最小二乘法時,怎樣選擇工具變數
普通的2sls回歸中的關於喚世工具畢備變和數肢量的命令如下:reg y x1 x2 ( z x2),上述的回歸模型假定x1是內生變數,其中 z x2分別是x1 x2 相對應的工具變數。 版主提出的帶有交叉項的回歸模型中,不知可否 採用 reg y x1 x2*x1 (z z*x2) 僅供參考 ,我也是初學...
❾ 孟德爾隨機化如何獲取工具變數
孟德爾隨機化(Mendelian randomization)是一種利用基因變異來進行因果推斷的方法,可以用於研究某個因變數和某個結果變數之間是否存在因果關系。在使用孟德爾隨機化進行因果推斷時,需要使用工具變數漏改旦來評估因變數對結果殲悉變數的影響。
通常,工具變數是一種與因變數相關,但與結果變數無關的變數。在孟返擾德爾隨機化中,常使用基因變異作為工具變數。基因變異是一種天然的隨機分配方式,可以用來評估因變數對結果變數的影響。例如,如果研究因變數為血液中膽固醇水平對心血管疾病的影響,可以使用基因變異作為工具變數,評估膽固醇水平對心血管疾病的影響。
要獲取工具變數,需要進行基因分型和基因型與因變數之間的關聯分析。通常使用單核苷酸多態性(SNP)作為基因分型標記,然後分析基因型與因變數之間的關聯。如果SNP與因變數之間存在顯著關聯,就可以將該SNP作為工具變數來評估因變數對結果變數的影響。
在使用孟德爾隨機化進行因果推斷時,需要注意控制混淆因素,避免因混淆因素而得到錯誤結論。另外,需要使用多個SNP作為工具變數,以增加模型的可靠性和穩定性。
❿ 全球視角可以選擇什麼工具變數
1 將聚集數據作為工具變數
Card和 Krueger(1996)為了解決同效應( peer effect)的內生性問題,將州、郡等分析層面的集聚數據作為學校、班級以及鄰里等層面解釋變數的工具變數。Evans等(1992)在研究學校貧困生比例是否對學生懷孕或輟學具有顯著影響的實證過程中,為學校貧困生比例選取的工具變數為失業率、貧困率以及家庭收入中位數,認為這三個因素必然與學校貧困生比例有關,但卻不直接影響學生懷孕或輟學等行為;Bentolima等(2010)將聯邦就業率作為「使用社會關系」的工具變數,以考察其對個人收入的影響效應,其理由是:聯邦就業率與收入之間並未存在直接關系,但如果就業率較高,則在聯邦內利用關系求職的必要性相對較低。雖然將集聚數據作為工具變數會克服內生性問題,但由於無法保證集聚數據具有完全外生性,所以可能會引入噪音,甚至導致遺漏偏誤( Grogger,1996; Rivkin,2001),所以,使用該類工具變數的研究呈減少趨勢。
2 將自然現象作為工具變數
通常認為在一定的區域范圍內,河流、降雨、自然災害等現象具有高度的隨機性、外生性等特徵,可被假設為與個人、群體的異質性無關,但與此同時又會影響某些社會過程。Hoxby(2000)將區域內的河流數量作為學校數量的工具變數,用於驗證學區內學校之間的競爭能否提高教學質量。由於歷史積累的某種特徵可能會導致學校數量存在內生性,而將河流數量作為學校數量的工具變數具有很強的說服力,即河流數量發的交通問題會直接影響學校的設立數量,而河流是自然形成,其與教學質量並無直接關系; Culter和 Glaeser(1997)同樣將河流數量作為