《面板數(shù)據(jù)回歸》PPT課件.ppt

下載文檔

下載文檔到電腦，查找使用更方便還剩頁未讀，繼續(xù)閱讀>>

侵權(quán)申訴舉報

1 / 63

此文檔下載收益歸作者所有下載文檔

版權(quán)提示

文本預(yù)覽

常見問題

面板數(shù)據(jù)回歸,時間序列數(shù)據(jù)或截面數(shù)據(jù)都是一維數(shù)據(jù)例如時間序列數(shù)據(jù)是變量按時間得到的數(shù)據(jù)；截面數(shù)據(jù)是變量在截面空間上的數(shù)據(jù)面板數(shù)據(jù)是同時在時間和截面上取得的二維數(shù)據(jù)所以，面板數(shù)據(jù)（panel data）也稱時間序列截面數(shù)據(jù)（time series and cross section data）或混合數(shù)據(jù)（pool data）面板數(shù)據(jù)，簡言之是時間序列和截面數(shù)據(jù)的混合嚴格地講是指對一組個體(如居民、國家、公司等) 連續(xù)觀察多期得到的資料所以很多時候我們也稱其為“追蹤資料”近年來，由于面板數(shù)據(jù)資料的獲得變得相對容易，使其應(yīng)用范圍也不斷擴大1996-2002年中國15個省級地區(qū)的居民家庭人均消費數(shù)據(jù)（不變價格）（例一）,面板數(shù)據(jù)的格式（例二）,當描述截面數(shù)據(jù)時，我們用下標表示個體，如Yi表示第i個個體的變量Y當描述面板數(shù)據(jù)時，我們需要其他符號來同時表示個體和時期為此我們采用雙下標而不是單下標，其中第一個下標i表示個體，第二個下標t表示觀測時間于是Yit表示n個個體中第i個個體在T期中的第t個時期內(nèi)變量Y的觀測值面板數(shù)據(jù)用雙下標變量表示例如 Yit, i = 1, 2, , N； t = 1, 2, , T N表示面板數(shù)據(jù)中含有N個個體。

T表示時間序列的最大長度對于樣本點來說：,Stata中面板數(shù)據(jù)的表示,在stata中，首先使用xtset命令指定個體特征和時間特征，然后可以用xtdes命令顯示面板數(shù)據(jù)的結(jié)構(gòu) use fatality,clear xtset state year xtdes,短面板和長面板,如果面板數(shù)據(jù) T 較小，而n 較大，這種面板數(shù)據(jù)被稱為“短面板”（short panel）大n小T）如fatality.dta 反之，如果T 較大，而n 較小，則被稱為“長面板”（long panel）（大T小n）如Grunfeld.dta,面板數(shù)據(jù)的優(yōu)勢,（1）可以解決遺漏變量問題：遺漏變量偏差是一個普遍存在的問題雖然可以用工具變量法解決，但有效的工具變量常常很難找遺漏變量常常是由于不可觀測的個體差異或“異質(zhì)性”（heterogeneity）所造成，如果這種個體差異“不隨時間而改變”（time invariant），則面板數(shù)據(jù)提供了解決遺漏變量問題的又一利器（2）提供更多個體動態(tài)行為的信息：由于面板數(shù)據(jù)同時有截面與時間兩個維度，有時它可以解決單獨的截面數(shù)據(jù)或時間序列數(shù)據(jù)所不能解決的問題比如，如何區(qū)分規(guī)模效應(yīng)與技術(shù)進步對企業(yè)生產(chǎn)效率的影響。

在截面數(shù)據(jù)中，由于沒有時間維度，故無法觀測到技術(shù)進步然而，對于單個企業(yè)的時間序列數(shù)據(jù)來說，我們無法區(qū)分其生產(chǎn)效率的提高究竟有多少是由于規(guī)模擴大，有多少是由于技術(shù)進步（3）樣本容量較大：由于同時有截面維度與時間維度，通常面板數(shù)據(jù)的樣本容量更大，可以提高估計的精確度面板數(shù)據(jù)的建模方法主要有三種：固定效應(yīng)回歸模型隨機效應(yīng)回歸模型混合回歸模型,實例:交通事故死亡人數(shù)和酒精稅,由此我們就能得出增加啤酒稅收會導(dǎo)致更多的交通事故死亡人數(shù)嗎？不一定，這是因為這些回歸中可能存在著巨大的遺漏變量偏差影響死亡率的因素有很多，包括： 1州內(nèi)駕駛的汽車質(zhì)量； 2高速公路的維修情況是否良好； 3大部分駕駛的路程是在鄉(xiāng)下還是市內(nèi)； 4路上的汽車密度； 5社會文化能否接受酒后駕車等這些因素都有可能與酒精稅有關(guān) 若相關(guān)，則會導(dǎo)致遺漏變量偏差一種解決這些導(dǎo)致遺漏變量偏差潛在根源的方法是收集這些變量的數(shù)據(jù)，并把它們加入到上式中不幸的是，我們很難或不可能度量諸如酒后駕車的文化接受度等變量解決方法：固定效應(yīng)OLS回歸,具有兩個時期的面板數(shù)據(jù)：“前后”比較,特別注意：Zi不隨時間變化,結(jié)論：兩期的變化（差分）表示的回歸消除了隨時間不變的不可觀測變量Zi的效應(yīng)。

換言之，分析Y和X的變化可以控制隨時間不變的變量，于是就消除了這種產(chǎn)生遺漏變量偏差的來源當數(shù)據(jù)是在兩個不同年份里觀測得到的時候，這種“前后”分析很有效但我們的數(shù)據(jù)集中包含7個不同年份里的觀測值，即當T2時不能直接應(yīng)用這種“前后”比較方法為了分析該面板數(shù)據(jù)集中的所有觀測值，我們使用固定效應(yīng)回歸方法固定效應(yīng)模型,對于特定的個體i而言，ai 表示那些不隨時間改變的影響因素，如個人的消費習(xí)慣、國家的社會制度、地區(qū)的特征、性別等，一般稱其為“個體效應(yīng)” (individual effects)如果把“個體效應(yīng)”當作不隨時間改變的固定性因素，相應(yīng)的模型稱為“固定效應(yīng)”模型對于固定效應(yīng)模型，可采用虛擬變量法基本思想：固定效應(yīng)模型實質(zhì)上就是在傳統(tǒng)的線性回歸模型中加入 N-1 個虛擬變量，使得每個截面都有自己的截距項由于固定效應(yīng)模型假設(shè)存在著“個體效應(yīng)”，每個個體都有其單獨的截距項這就相當于在原方程中引入n1個虛擬變量（如果省略常數(shù)項，則引入n個虛擬變量）來代表不同的個體，獲得每個個體的截據(jù)項如何理解個體效應(yīng)、個體截距項的不同以及虛擬變量的引入？我們用一份模擬的數(shù)據(jù)來分析： use example,clear xtset company year xtdes 1。

畫出散點圖和擬合線，并建立OLS回歸方程加入虛擬變量，并重新畫出建立OLS回歸方程reg y x,gen d1=0 gen d2=0 gen d3=0 replace d1=1 if id=1 replace d2=1 if id=2 replace d3=1 if id=3 reg y x d1 d2,固定效應(yīng)模型的估計算法,“個休中心化”O(jiān)LS算法或者組內(nèi)離差估計法假設(shè)原方程為：,(式1),給定第i 個個體，將(式1)兩邊對時間取平均可得，,(式2),(式1) (式2)，得：,可以用OLS方法一致地估計，稱為“固定效應(yīng)估計量”（Fixed Effects Estimator），記為,由于主要使用了每個個體的組內(nèi)離差信息，故也稱為“組內(nèi)估計量”（within estimator）固定效應(yīng)模型的優(yōu)勢和劣勢,面板固定效應(yīng)模型的優(yōu)勢是：即使個體特征ui與解釋變量Xit相關(guān)，只要使用組內(nèi)估計量，就可以得到一致估計，即即使存在不隨時間改變的遺漏變量，也可得到無偏一致的估計面板固定效應(yīng)模型的劣勢是：模型無法估計不隨時間而變的變量之影響，這需要用隨機效應(yīng)模型在交通事故死亡人數(shù)中的應(yīng)用,由于(10. 8)式中的“差分”回歸只用了1982年和1988年的數(shù)據(jù)(具體講就是這兩年的差額)，而(10. 15)式中的固定效應(yīng)回歸用到了所有7年的數(shù)據(jù)，因此這兩個回歸是不同的。

由于利用了更多的數(shù)據(jù)，因此(10. 15)式中的標準誤差小于(10. 8)式中的標準誤差固定效應(yīng)模型的stata實現(xiàn),use fatality,clear xtset state year xtdes xtline FatalityRate 固定效應(yīng)模型： xtreg FatalityRate beertax,fe,回歸結(jié)果解讀,1三個R2哪個重要？ 2固定效應(yīng)為什么有兩個F檢驗？ 3corr(u_i, Xb) 的含義 sigma_u、sigma_e、rho的含義因為固定效應(yīng)模型是組內(nèi)估計量（離差），因此，只有within是一個真正意義上的R2，其他兩個是組間相關(guān)系數(shù)的平方右側(cè)的F統(tǒng)計量表示除常數(shù)項外其他解釋變量的聯(lián)合顯著性最后一個F檢驗，原假設(shè)所有U_i=0，即不存在個體效應(yīng)，不必使用固定效應(yīng)模型首先注意：結(jié)果中的u_i不表示殘差，而是表示個體效應(yīng)corr(u_i, Xb) 個體效應(yīng)與解釋變量的相關(guān)系數(shù)，相關(guān)系數(shù)為0或者接近于0，可以使用隨機效應(yīng)模型；相關(guān)系數(shù)不為0，需要使用固定效應(yīng)模型 sigma_u：表示個體效應(yīng)的標準差 sigma_e：表示干擾項的標準差 rho：rho = sigma_u2 / (sigma_u2 + sigma_e2) 個體效應(yīng)的波動占整個波動的比例。

顯示每個個體截距的方法： tab state,gen(dum) drop dum1 reg FatalityRate beertax dum*,例二,use grunfeld,clear xtset company year xtdes xtline invest 固定效應(yīng)模型： xtreg invest mvalue kstock ,fe,顯示每個個體截距的方法： tab company , gen(dum) reg invest mvalue kstock dum*,nocons drop dum1 reg invest mvalue kstock dum* 分析每個公司的截距,時間固定效應(yīng)回歸,其中St是只隨時間改變，不隨個體改變的變量和個體固定效應(yīng)能控制不隨時問變化但個體間不同的變量一樣，時間固定效應(yīng)能控制個體間相同但隨時間變化的變量由于新車安全性能的提高是發(fā)生在全國范圍內(nèi)的因此它們能夠減少所有州的交通死亡事故故把汽車安全性能視為隨時間變化但對所有州都相同的遺漏變量是合理的于是加入用St表示的汽車安全性能的效應(yīng)后，得：,只有時間效應(yīng),我們暫時假設(shè)Zi不出現(xiàn)，方程變?yōu)椋?我們的目的是在控制St條件下估計1,在上述例子中加入時間固定效應(yīng)。

實際上添加了t-1個時間虛擬變量主要反映隨著時間變化的一些特征 use fatality,clear tab year,gen(yr) edit drop yr1 reg FatalityRate beertax yr* 幾乎所有時間虛擬變量均不顯著，說明FatalityRate不隨時間的變動呈現(xiàn)變動的趨勢個體和時間固定效應(yīng)（雙向固定效應(yīng)模型）,如果某些遺漏變量不隨時間變化但隨州變化(如對酒后駕車的文化接受度)，而其他遺漏變量不隨州變化但隨時間變化(如國家安全標準)，則在模型中同時加入個體(州)和時間效應(yīng)更為恰當，我們稱為雙向固定效應(yīng)模型固定效應(yīng)模型： Yit=ai+Xit1+it 雙向固定效應(yīng)模型：Yit=ai+t+Xit1+it,雙向固定效應(yīng)模型的估計,雙向固定效應(yīng)模型可以通過加入n-1個個體二元變量和T-1個時間二元變量進行OLS估計，但這會使解釋變量的數(shù)目變得極為龐大！所以一般我們還是采用組內(nèi)離差法進行估計方法一：可以通過先從Y和X中減去個體和時間平均值，然后估計被減后的Y關(guān)于被減后的X的多元回歸方程的方法來估計X的系數(shù)這種方法可以避免二元變量的出現(xiàn) 方法二：從Y, X和時間指示變量中減去個體(不是時間)均值然后估計，被減后的Y對被減后的X和被減后的時間指示變量的多元回歸中的k+T個系數(shù)。

在交通死亡人數(shù)中的應(yīng)用,上述形式中包含了啤灑稅，47個州二元變量(州固定效應(yīng))，6個年二元變量(時間固定效應(yīng))和截距項，所以這個模型的解釋變量個數(shù)多達55個，這將帶來大量的自由度的損失因為時間和州二元變量和截距項的系數(shù)不是我們主要感興趣的，所以我們在這里沒有列出比較參數(shù)發(fā)現(xiàn)加入時間效應(yīng)后啤酒稅的系數(shù)由-0.66變?yōu)?0.64，可見加入時間效應(yīng)對結(jié)果影響不大固定效應(yīng)回歸假設(shè)和固定效應(yīng)回歸的標準誤差,本章給出的標準誤差是利用一般異方差穩(wěn)健公式計算得到的當T中等大小或較大時，在稱為固定效應(yīng)回歸假設(shè)的五個假設(shè)條件下面板數(shù)據(jù)中的這些異方差穩(wěn)健標準誤差都是正確的固定效應(yīng)回歸假設(shè),自相關(guān)（序列相關(guān)）,(如果違反，則出現(xiàn)自相關(guān)),固定效應(yīng)回歸的標準誤差,如果重要概念10.3中的假設(shè)5成立，則給定回歸變量條件下，誤差u在時間上不相關(guān)，在這種情況下如果T中等大小或較大時，則常用(異方差穩(wěn)健)標準誤差是正確的如果誤差自相關(guān)，則常用標準誤差公式不正確理解這一點的一種方法是同異方差做類比在截面數(shù)據(jù)回歸中，如果誤差異方差，則由于同方差適用的標準誤差是在同方差的錯誤假設(shè)下導(dǎo)出的，因此是不正確的類似地，如果面板數(shù)據(jù)中的誤差自相關(guān)，則由于常用標準誤差是在它們沒有自相關(guān)的錯誤假設(shè)下導(dǎo)出的，因此也是不正確的。

由于面板數(shù)據(jù)具有潛在異方差且在給定個休的不同時間上潛在相關(guān)時，正確的標準誤差稱為異方差和自相關(guān)一致的標準誤差(HAC)這種標準誤差由稱為群標準誤差在時間序列中使用的命令是newey 在面板數(shù)據(jù)中使用的命令是xtgls,有關(guān)酒后駕車的法律規(guī)定和交通事故死亡人數(shù),酒精稅只是抑制酒后駕車的一種方法，如果某州想要打擊酒后駕車，可以通過增加稅收和嚴酷的法律來做到這一點因此，即使在包含州和時間固定效應(yīng)的模型中遺漏這些有關(guān)酒后駕車的法律也會導(dǎo)致啤酒稅對交通死亡事故效應(yīng)的OLS估計量中存在遺漏變量偏差此外，是否開車也部分取決于司機是否有工作，同時，稅收變化也反映了經(jīng)濟狀況(如州預(yù)算赤字會增加稅收)所以遺漏州的經(jīng)濟狀況也會導(dǎo)致遺漏變量偏差本節(jié)中我們將前面的分析推廣到保持經(jīng)濟狀況不變條件下有關(guān)酒后駕車的法律規(guī)定(包括啤酒稅)對交通死亡事故效應(yīng)的研究為此，我們需要估計包含其他酒后駕車法律和州經(jīng)濟狀況的回歸變量的面板數(shù)據(jù)回歸這些結(jié)果刻畫了一幅抑制酒后駕車和交通死亡事故措施引發(fā)爭議的畫面這些估計值表明嚴厲的處罰和提高最低法定喝酒年齡對死亡率都不會產(chǎn)生重要作用相反，有證據(jù)表明提高類似啤酒稅這樣的酒精稅會減少交通死亡率。

但這個效應(yīng)的估計仍是不精確的隨機效應(yīng)模型,對于面板數(shù)據(jù)而言，除了我們前面講的混合回歸和固定效應(yīng)模型以外，還存在另外一種模型形式：隨機效應(yīng)模型為了區(qū)別固定效應(yīng)模型和隨機效應(yīng)模型，我們把兩個模型的方程分別寫成：,固定效應(yīng)模型,隨機效應(yīng)模型,兩個模型看似一樣，但模型形式截然不同：在固定效應(yīng)模型中：作為一個隨機變量（解釋變量），標示模型的個體效應(yīng) 而在隨機效應(yīng)模型中：隨機誤差項分成兩部分，一部分是不隨時間變化的誤差項，另一部分是隨時間變化的誤差項，即其中,關(guān)于隨機效應(yīng)模型： 1隨機效應(yīng)模型將固定效應(yīng)模型的個體效應(yīng)歸入到隨機誤差項中，因此更加靈活固定效應(yīng)模型通過組內(nèi)離差的方法消除掉不隨時間改變的變量，這一方面保證了模型的無偏性，另一方面模型無法估計不隨時間改變的變量之影響，這在隨機效應(yīng)模型中可以實現(xiàn)回歸的結(jié)果是隨機效應(yīng)模型的所有的個體具有相同的截距項，個體的差異主要反應(yīng)在隨機干擾項的設(shè)定上由于上述特性，隨機效應(yīng)模型比固定效應(yīng)模型結(jié)果更加有效，同時，條件更加苛刻隨機效應(yīng)模型必須滿足下列條件：,一般在固定效應(yīng)模型中,隨機效應(yīng)模型： xtreg invest mvalue kstock ,re 回歸結(jié)果解讀。

與固定效應(yīng)模型的結(jié)果比較固定效應(yīng)還是隨機效應(yīng)？ Hausman檢驗基本思想：如果 , Fe 和 Re 都是一致的，但Re更有效如果 , Fe 仍然一致，但Re是有偏的因此原假設(shè)：即應(yīng)該采用隨機效應(yīng) 備則假設(shè) 應(yīng)該采用固定效應(yīng)xtreg invest mvalue kstock ,fe est store fixed xtreg invest mvalue kstock ,re est store random hausman fixed random 本題接受原假設(shè)，即應(yīng)該用隨機效應(yīng)多數(shù)實證研究都采用固定效應(yīng)模型或雙向固定效應(yīng)模型,。

點擊閱讀更多內(nèi)容