STATA nedir?

Stata veri analizi, veri yönetimi, veri işleme, istatistik, görselleştirme,grafikler ve otomatik raporlama için ihtiyacınız olan her şeyi sağlayan eksiksiz ve entegre bir istatistiksel yazılım paketidir. Temel olarak Stata, verileri saklamanıza ve yönetmenize, verileriniz üzerinde istatistiksel analizler yapmanıza ve anlaşılır görselliğe sahip grafikler oluşturmanıza olanak sağlayan bir yazılımdır. Genel amaçlı bir yazılım programı olan Stata, StataCrop tarafından 1985 yılında geliştirilmiştir. Günümüzde, başta ekonomi, siyaset bilimi, biyotıp gibi birçok alanda yapılan araştırmalarda Stata programından yararlanılmaktadır. Program, istatistiksel analiz, veri yönetimi, grafik, simülasyon ve özel programlama gibi alanlarda kullanılmaktadır.

Niçin Stata?

Günümüz dünyası artık çok daha hızlı veri üretir hale gelmiştir. Bu verilerin analiz edilmesi bireyler, şirketler ve ülkeler için stratejik kararlarını almak noktasında çok önemlidir. Panel veri zaman serileri ve kesit verilerinin kombinasyonundan oluşan veriyi ifade eder. Birimler (bireyler, haneler, firmalar, şehirler, ülkeler, eyaletler, pazarlar, ülkeler vb.) üzerinde birkaç farklı zaman dilimindeki (yıllık, üç aylık, aylık vb.) toplu veriden oluşur. Birçok ülkeye, birçok şirkete ve binlerce birey ya da hane halkına ait her biri farklı zamanlarda gözlenmiş dikey veri setleri yayınlanmaktadır. Özellikle OECD, Eurostat gibi uluslararası kurumların ya da ülkelerin ulusal istatistik kurumlarının yayınladığı istatistiklerde birçok ülke için belirli bir zaman dönemi bazında oluşturulmuş çok sayıda ekonomik seriler mevcuttur. Ayrıca ülkelerin ulusal istatistik kurumlarında farklı şehir, şirket ve bireyler için veriler yayınlanmaktadır. Bu panel veri setlerinin stratejik kararlar açısından analiz edilmesi ve politika oluşturulması anlamlı sonuçlar vermektedir. Böylece panel veri analizi ile yalnızca yatay kesit veya zaman serisi analizi kullanılarak ele alınamayan dinamikleri ele almak mümkün hale gelmektedir. Panel veri analizi, farklı birimlerarası farklılıkları anlamak için bir yol gösterici olabilmektedir. Ekonometrik analizleri gerçekleştirmek için Stata,SPSS, SAS, Eviews, R, Matlab ve Gauss programları kullanılmaktadır. Bu durumda aklınıza gelen ilk soru neden Stata’yı tercih ediyoruz olacaktır. Stata’yı tercih etmemizin başlıca nedenleri arasında büyük veri setlerinin kullanımına ve düzenlenmesine izin vermesi ve panel ve zaman serisi regresyon analizleri için sürekli gelişme göstermesidir. Ayrıca Stata belirli bir ihtiyacı olan kullanıcılar tarafından sürekli olarak güncellenmekte veya geliştirilmektedir. Bu güncellemeler kendi yazılımınızla kolayca entegre edilebilmektedir. Veri Girişi Stata xls, xlsx, csv, dta, txt ve bazı istatistik programlarının kendi uzantılı dosyalarında yer alan veri setlerini çekebilmektedir. Burada dikkat edilmesi gereken durum ise farklı uzantılı dosyaları Stata’da açabilmek için yazılacak kodun farklılaşmasıdır. Veri Setine Ait Tanımlayıcı İstatistikler Ekonometrik analize başlamadan önce, elinizdeki veri setini tanımanız gereklidir. Ekonometrik analize başlamadan önce, her zaman tüm değişkenlerin frekanslarını, kategorik değişkenlerin nasıl kodlandığını, minimum, maksimum değerleri ve kayıp gözlem sayısını kontrol etmelisiniz. Bu, veri setindeki uç noktaları ve olası hataları ortaya çıkarmanın en iyi yoludur. Veri Seti ile Yapılan Temel İşlemler Stata, veriyi numerik veya metin (string) olmak üzere iki şekilde saklar. Stata’nın metin olarak sakladığı veriler belirli bilgiler vermek için kullanılır. Stata’da eğer bir veri metin olarak saklanmıyorsa o veri mutlaka numerik olarak saklanmaktadır. Grafik Çizme Değişkenler arasında nasıl bir ilişki olduğunu görmek için tercih edilen yollardan biri grafik çizmektir. Stata’da bar, nokta, kutu, pasta ve dağılım grafikleri çizilebilmektedir. Stata çizilen grafikler üzerinde değişiklik yapmak, not ve başlık eklemek açısından oldukça esnektir.

Panel Veri Analizi ve Uygulama Alanları

Zamana göre değişen veriler ile hayatımızın her noktasında karşılaşıyoruz. Firmaların, ülkelerin, hastanelerin; kısacası çok sayıda birimin farklı zamanlarına ait değişkenlerini analiz etmek istiyoruz. Panel veri analizi, zamana göre elde ettiğimiz değişkenler üzerinden analiz yapmamızı sağlayan biricik ekonometrik yöntemler topluluğunu içeriyor. Öncelikle panel verinin ne olduğuna örneklendirmeler ile bir göz atalım. Farz edelim, ülkemizde faaliyet gösteren tekstil alanındaki 5 firmanın net satışlarına yönelik bir araştırma gerçekleştirmek istiyoruz. 2019 yılında 5 firmaya ait net satış değerlerini tek tek elde edelim. Yalnızca 2019 yılındaki 5 firmanın net satış verileri çapraz kesitsel veriler olarak tanımlanır. Kısacası yalnızca tek bir zaman periyoduna ait verilerimiz çapraz kesitsel verilerdir. Kısacası zamana göre çapraz kesitsel verilerin birleşiminden oluşan veri türlerine panel veri; bu tür verileri analiz etmek için kullandığımız ekonometrik-istatistiksel analiz tekniklerinin birleştiği alana da panel veri analizi diyoruz. Panel veri analizi hangi alanlarda uygulanıyor? Özellikle ekonomi ve finans alanında yoğun olarak kullanıldığını görüyoruz. Bu alanların dışında da sağlık, endüstri, işletme gibi alanlarda da panel veri analizi karşımıza çıkıyor. Panel veri analizi için bazı uygulamalar şunlardır: 2010-2020 yılları arasında OECD ülkelerindeki işsizlik oranlarını etkileyenler faktörlerin belirlenmesi 2019 yılında aylık bazda hastanelerin doluluk oranları üzerinde etkisi olan göstergelerin incelenmesi 2000-2020 yılları arasında farklı döviz kurlarının (Dolar, Euro vs.) hisse senetlerinin getiri tutarları üzerindeki etkilerinin değerlendirilmesi Panel Veri Analizi ve Yazılımları Panel veri analizini uygulamak için farklı ekonometrik analiz programlarından yararlanabiliriz. Yaygın olarak kullanılan yazılımdan söz edebiliriz: Stata yazılımı E-Views yazılımı R Programı Stata yazılımında çok sayıda farklı seçenek bulunuyor. Programda hem sayısal, hem de kategorik bağımlı değişkene sahip olan panel veriler için analiz seçenekleri bulunuyor. Kategorik bağımlı değişkenlerin yer aldığı panel veri analizi yaklaşımları için Stata’da Probit tahminci seçeneği mevcut. Stata programında ister kod yazarak, ister menüler üzerinden panel verilerimizi analiz edebiliyoruz. Stata’da kod yazarak alternatif modellere yönelik panel veri analizlerini uygulamak mümkün. E-Views programında da farklı analiz seçeneklerini kullanabiliyoruz. Sabit etki modeli, rassal etki modeli, birleştirilmiş (pooled) tahmin modeli gibi alternatif teknikleri kullanabiliriz. R Programında da panel verilerimizi analiz edebilmek için kullanacağımız onlarca farklı yaklaşım bulunuyor. Diğer programlarda olan tahmin teknikleri, varsayımsal sınamaları ve alternatif modelleri R programı sayesinde kolaylıkla uygulayabiliyoruz. Örneğin; (0,1) aralığındaki oran türü bağımlı değişkenler ile bir panel regresyon modeli tahmin etmek istediğimizde, fraksiyonel panel modellerini kullanabileceğimiz biricik yazılım R. Ayrıca R programında bağımlı değişkenin farklı dağılımları için Genelleştirilmiş Lineer Modeller kapsamında panel veri analizi yöntemleri bulunuyor. Bu tür farklı teknikler için tasarlanmış plm, pglm gibi muhteşem R paketlerini kullanabiliyoruz. Ancak R programı henüz yaygın olarak kullanılmadığı için araştırmacılar tarafından pek tanındığını söyleyemeyiz. Şu an Türk araştırmacılar için en favori yazılım Stata gibi gözüküyor. Türkçe yayınlanan makalelerin büyük çoğunluğunda, panel veri analizi sonuçlarının Stata tarafından alındığını gözlemliyoruz. Stata ile panel veri analizi, özellikle akademik makalelerde dikkat çekiyor. Stata, E-Views ve R dışında Gauss gibi farklı yazılımları da kullanabiliriz. Stata ile panel veri analizi tekniklerinin uygulanması, en sık başvurulan yolların başında geliyor. Ancak Minitab, SPSS gibi klasik istatistiksel analiz programlarında panel verilere özgü yaklaşımlar mevcut değil. Bu tür klasik yazılımlar için sentaks kullanmak da faydasız… Panel veri analizi oldukça kapsamlı bir konu ve model seçiminden varsayımların test edilmesine değin uzanan farklı konu başlıkları bu analiz kapsamında yer alıyor. Panel veri analizine başlamadan önce durağanlık, otokorelasyon, değişen varyans gibi çeşitli varsayımların da test edilmesi gerekiyor. Söz konusu varsayımların sağlanmadığı durumlar için de ekonometri literatüründe özel dayanıklı (robust) tahmin teknikleri öneriliyor. Dayanıklı teknikler kapsamında Driscoll-Kraay gibi mükemmel sonuçlar verebilen tekniklere başvurabiliyoruz. Etki türünün seçimi de panel veri analizinde önemli bir yer tutuyor. Hausman testi, Lagrange Çapranı testi gibi farklı test isimleri bu noktada bilimsel yayınlar içerisinde görülebiliyor. Panel verilerin dengeli mi, dengesiz mi olduğu da analiz noktasında önem arz ediyor. Özetle zamana bağlı kesitsel veriler ile çalıştığımızda, dikkat etmemiz gereken çok nokta var. Bu yazımızda panel veri analizine ilişkin kısa bir giriş yapmak istedik ve bu analiz teknikleri ile ilgili başlıca ekonometrik analiz programlarını tanıtmaya çalıştık. Panel veri analizinin başlı başına bir analiz dünyasına sahip olduğunu söylesek, abartmış sayılmayız. Gelecek yazılarımızda Haussman testi, Breusch-Pagan testi, en uygun modelin seçimi ve modellerin yorumlanması üzerine farklı içerikleri paylaşmaya devam edeceğiz.

Stata ile Regresyon Analizi

Tek Değişkenli Regresyon Analizi Regresyon analizi bağımlı değişken ile bir veya daha fazla bağımsız değişken arasındaki ilişkiyi inceleyen bir analiz yöntemidir. Analiz bir bağımsız değişkenle gerçekleşirse tek değişkenli regresyon analizi olarak adlandırılır. Hata Terimleri İçin Normallik Testi Hata terimlerinin normal dağılıp dağılmadığını test etmek için Jarque-Bera testi kullanılmaktadır. Stata’da bu testi yapmak için hazır bir komut bulunmamaktadır. Yapısal Farklılaşma için Chow Testi Stata’da Chow testi yapmak için yine hazır bir komut bulunmamaktadır. Bu test birkaç adımda yapılabilmektedir. Çok Değişkenli Regresyon Analizi Analiz birden fazla bağımsız değişken ile gerçekleşirse çok değişkenli regresyon analizi olarak adlandırılır.

Tahmin Sonrası Testler

Çoklu Doğrusallık Çoklu doğrusallık sorunu ekonometrik bir modelde açıklayıcı değişkenler arasındaki ilişkinin derecesi yüksek olduğunda ortaya çıkar. Çoklu doğrusallığın varlığı Korelasyon Katsayıları ve Varyans Şişirme Faktörü ile araştırılmaktadır. 1.1 Korelasyon Katsayısı Açıklayıcı değişkenler arasındaki ilişkinin derecesini gösteren korelasyon katsayısı 1’e eşit ise tam çoklu doğrusallık, 0.8 ve 1 arasında değer alıyorsa tam olmayan çoklu doğrusallık sorununun var olduğu anlamına gelmektedir. Varyans Şişirme Faktörü Varyans şişirme faktörü çoklu doğrusallık sorununun varlığını araştırmak için kullanılan diğer bir yöntemdir. Her bir değişken için hesaplanan VIF değerleri 10’dan yüksek değer alıyorsa bu çoklu doğrusallık sorununun olduğunu gösterir. VIF değerlerini elde etmek için önce ele alınan model tahmin edilir. Değişen Varyans Testi Değişen varyans, hata terimlerinin varyanslarının birbirinden farklı olmasıdır, Değişen varyansın belirlenmesi için Grafik İncelemesi’ne gidilebileceği gibi White ve ARCH-LM testleri de kullanılabilmektedir. 2.1 Grafik İnceleme Değişen varyansın varlığını belirlemek için kullanılabilecek bir yöntem hata terimleri ile bağımlı değişkenin tahmini değerleri arasındaki ilişkinin incelenmesidir. White Testi White testi asıl denklem ve bağımlı değişkeni, hata terimlerinin tahmini değerlerinin karesi açıklayıcı değişkenleri ise asıl denklemde kullanılan açıklayıcı değişkenlerin kendisi, karesi ve çarpımlarından oluşan bir yardımcı denklem ile gerçekleştirilir. Değişen varyans testlerini gerçekleştirmeden önce Stata’ya elimizdeki veri setinin zaman serisi olduğunu tanıtmamız gerekmektedir. ARCH-LM Testi Değişen varyansın varlığını tespit etmek için kullanlan bir diğer test ARCH-LM Testi’dir. Bu test yöntemi regresyon denkleminin yanında bağımlı değişkeni, hata terimlerinin tahmini değerlerinin karesi açıklayıcı değişkenleri ise hata terimlerinin tahmini değerlerinin gecikmeli değerlerinden oluşan bir denklem yardımıyla değişen varyansı test etmektedir. Genelleştirilmiş En Küçük Kareler (GEKK) Genelleştirilmiş En Küçük Kareler, değişen varyansın formunun tam olarak bilindiği takdirde, değişen varyans sorununu ortadan kaldırmak için kullanılan bir tahmin yöntemidir. GEKK yöntemi ile asıl denklemden dönüştürülmüş bir denklem elde edilir ve daha sonra bu dönüştürülmüş denklem EKK ile tahmin edilir. Dönüştürülmüş denkleme EKK uygulanması Ağırlıklı EKK (weighted least squares) olarak adlandırılır. Ardışık Bağımlılık Testi Ardışık bağımlılığın nasıl tespit edileceği hakkında bilgi vermeye geçmeden önce ardışık bağımlılığın ne olduğunu tanımlayalım. Ardışılık bağımlılık, hata terimleri arasında ilişki olması (E(ui , uj ) ̸= 0, i ̸= j) durumudur. Burada ardışık bağımlılığın varlığı Grafik İncelemesi ve iki farklı ardışık bağımlılık testi kullanılarak araştırılacaktır. Bu testlerden ilki Durbin-Watson, ikincisi ise Breusch-Godfrey LM testidir. Grafik İnceleme Hata terimlerinin zaman içindeki seyri ardışık bağımlılığın varlığı hakkında bizlere bilgi verebilmektedir. Bu doğrultuda aşağıdaki adımlar takip edilerek hata terimlerinin zamana karşı grafiği çizdirilebilir. Durbin-Watson Testi Durbin-Watson testi, hata terimlerinde birinci sıra AR(1) ardışık bağımlılık olup olmadığını kontrol etmek için kullanılan bir testtir. Bu testler bir takım varsayımlar altında çalışmaktadır. Breusch-Godfrey LM Testi Breusch-Godfrey LM testi, Durbin-Watson testindeki sınırlamaları aşan daha yüksek derecede ve AR sürecinin yanında MA sürecini de dikkate alan bir testtir. Bu testi gerçekleştirmek için yine öncelikle ele alınan modelin tahmin edilmesi gereklidir.