STATA 变量描述性统计

发布时间 2023-05-30 09:49:28作者: myrj
变量描述性统计
在进行经济现象的研究中,我们对两个变量或两个以上的变量之间的关系更感兴趣。(定性—定性)变量的描述统计分析就是当两个或两个以上的变量均为定性变量时,应用描述统计分析方法考察两个变量的关系。我们可以用 tab 命令,添加 row 选项可以显示百分比,添加 chi2 命令可以进行卡方检验。下表考察不同性别的受教育程度分布差异及并卡方检。从结果中可以看出,在初中教育水平上(文化程度为 3 以上)的占比中,男性一直高于女性。卡方检验也表明两类个体具有显著差异。

. *定性——定性变量描述统计
. tab gender edu,row chi2             //不同性别的受教育程度分布差异,并卡方检验

+----------------+
| Key            |
|----------------|
|   frequency    |
| row percentage |
+----------------+

RECODE of |
  a2003 |
((新样 |
 本)家 |
 庭成员 |                             家庭成员的文化程度
  性别) |      1       2       3       4       5        6        7       8      9 |   Total
--------+--------------------------------------------------------+-------------------------
      0 |  8,944  12,401  15,660   7,176   3,052    3,966    4,690     419     49 |  56,357 
        |  15.87   22.00   27.79   12.73    5.42     7.04     8.32    0.74   0.09 |  100.00 
--------+--------------------------------------------------------+-------------------------
      1 |  3,606  11,371  18,969   8,779   3,316    4,490    5,454     479    108 |  56,572 
        |   6.37   20.10   33.53   15.52    5.86     7.94     9.64    0.85   0.19 |  100.00 
--------+--------------------------------------------------------+-------------------------
  Total | 12,550  23,772  34,629  15,955   6,368    8,456   10,144     898    157 | 112,929 
        |  11.11   21.05   30.66   14.13    5.64     7.49     8.98    0.80   0.14 |  100.00 
       Pearson chi2(8) =  2.9e+03   Pr = 0.000
我们还可以进行更加多维度的频次分析。可以考察不同性别、教育程度在工作单位性质的区别。总体而言,无论性别如何,受教育程度越高,进入国企的比率越大。


. by gender, sort:tab edu department,row   //不同性别、教育程度在工作单位性质的区别

-----------------------------------------------------
-> gender = 0

+----------------+
| Key            |
|----------------|
|   frequency    |
| row percentage |
+----------------+

           |   RECODE of a3014a
    家庭成 |     (家庭成员工作
    员的文 |      单位的类型)
    化程度 |         0          1 |     Total
-----------+----------------------+----------
         1 |       365         40 |       405 
           |     90.12       9.88 |    100.00 
-----------+----------------------+----------
         2 |     1,525        180 |     1,705 
           |     89.44      10.56 |    100.00 
-----------+----------------------+----------
         3 |     3,252        660 |     3,912 
           |     83.13      16.87 |    100.00 
-----------+----------------------+----------
         4 |     1,244        530 |     1,774 
           |     70.12      29.88 |    100.00 
-----------+----------------------+----------
         5 |       737        459 |     1,196 
           |     61.62      38.38 |    100.00 
-----------+----------------------+----------
         6 |     1,116      1,045 |     2,161 
           |     51.64      48.36 |    100.00 
-----------+----------------------+----------
         7 |     1,059      1,606 |     2,665 
           |     39.74      60.26 |    100.00 
-----------+----------------------+----------
         8 |        86        201 |       287 
           |     29.97      70.03 |    100.00 
-----------+----------------------+----------
         9 |         6         27 |        33 
           |     18.18      81.82 |    100.00 
-----------+----------------------+----------
     Total |     9,390      4,748 |    14,138 
           |     66.42      33.58 |    100.00 


-----------------------------------------------------
-> gender = 1

+----------------+
| Key            |
|----------------|
|   frequency    |
| row percentage |
+----------------+

           |   RECODE of a3014a
    家庭成 |     (家庭成员工作
    员的文 |      单位的类型)
    化程度 |         0          1 |     Total
-----------+----------------------+----------
         1 |       294         37 |       331 
           |     88.82      11.18 |    100.00 
-----------+----------------------+----------
         2 |     2,274        276 |     2,550 
           |     89.18      10.82 |    100.00 
-----------+----------------------+----------
         3 |     5,901      1,270 |     7,171 
           |     82.29      17.71 |    100.00 
-----------+----------------------+----------
         4 |     2,133      1,217 |     3,350 
           |     63.67      36.33 |    100.00 
-----------+----------------------+----------
         5 |       985        654 |     1,639 
           |     60.10      39.90 |    100.00 
-----------+----------------------+----------
         6 |     1,235      1,408 |     2,643 
           |     46.73      53.27 |    100.00 
-----------+----------------------+----------
         7 |     1,173      1,901 |     3,074 
           |     38.16      61.84 |    100.00 
-----------+----------------------+----------
         8 |        84        235 |       319 
           |     26.33      73.67 |    100.00 
-----------+----------------------+----------
         9 |         8         70 |        78 
           |     10.26      89.74 |    100.00 
-----------+----------------------+----------
     Total |    14,087      7,068 |    21,155 
           |     66.59      33.41 |    100.00 

 

定性—定量)变量描述性统计
当一个变量是定性变量,一个变量为定量变量时,考察二者的关系就是(定性—定量)描述性统计分析。具体而言,即分组变量是定性变量时,要描述的变量是定量变量。我们可以用 tabstat 命令,通常需要加两个选项,一个是 by()选项,界定分组变量;另一个是 statistics ()可以加上需要报告的统计量。例如 mean (平均值)、p50 (中位数)等。下表考察了不同性别的收入、标准差、中位数、最大值和最小值。可以看出男性的平均收入要高于女性,标准差也较女性高。


. *定性——定量变量描述统计
. tabstat income,by(gender) statistics(mean sd p50 max min)   //不同性别收入

Summary for variables: income
     by categories of: gender (RECODE of a2003 ((新样本)家庭成员性别))

  gender |      mean        sd       p50       max       min
---------+--------------------------------------------------
       0 |  26641.69  22954.32     22000  209999.9 -8000.007
       1 |  32493.44  27502.74  26597.04  229999.9    -20000
---------+--------------------------------------------------
   Total |  30119.07  25913.57     24000  229999.9    -20000
------------------------------------------------------------
下表表示不同教育程度的平均收入差异。结果显示,随着教育程度提高,平均收入也相应提高。但收入差异(标准差)在硕士学历中最大(教育程度为 8 的个体中)。

. tabstat income,by(edu) statistics(mean sd)           //不同教育程度的平均收入

Summary for variables: income
     by categories of: edu (家庭成员的文化程度)

     edu |      mean        sd
---------+--------------------
       1 |  16622.82   14846.1
       2 |  22053.84  17984.86
       3 |  25752.82  19361.01
       4 |  28169.85  21516.89
       5 |  29786.09  23356.15
       6 |  36311.05  27473.99
       7 |  47925.91  37661.57
       8 |  69558.22  49129.55
       9 |  85211.61  44959.43
---------+--------------------
   Total |  30185.23  25950.62
------------------------------

. log close                                //关闭 log 文件
      name:  <unnamed>
       log:  E:\CHFS\Logfiles\Stata连享会_CHFS数据处理.log
  log type:  text
 closed on:   3 Jun 2021, 21:12:49
 --------------------------------------------------------------