?p=34203

原文出处：拓端数据部落公众号

本文使用Matlab编程语言中的决策树和模糊C-均值聚类算法，帮助客户对大学教师职称、学历与评分之间的关系进行深入分析。

背景

随着高等教育的快速发展，教师队伍的素质和能力成为了影响高校发展的重要因素。职称和学历是衡量教师能力和水平的重要指标，而评分则是评估教师工作表现和教学质量的重要依据。

数据来源与处理

本文所使用的数据来自某高校教师信息数据库，包括教师的姓名、职称、学历和评分等信息。在数据处理阶段，我们首先对原始数据进行清洗和预处理，确保数据的质量和准确性。部分数据如下：

%% 读取数据

[~, ~, raw] = xlsread('I:\kp1.csv','kp1');

决策树分析

在决策树分析阶段，我们以教师的职称、学历为特征，以评分为目标变量，构建决策树模型。通过不断调整模型参数和剪枝策略，我们得到了最优的决策树模型。

% 根据训练集数据创建决策树
mytree = classregtree(inDatriterion',     ......
 'gdi')

查看决策树

决策树算法结果：

从查看器中我们可以看到，毕业时间作为根节点对评分的影响最显著，也最重要，首先跑上来！针对毕业时间早于1983年的样本，如果样本的职位 "馆长" 、 "纪委副书记、监审处处长" 、"书记" 、 "院长" 、 "院长(主任)"那么他们总分很可能在90分左右，如果不是这些职位的人来讲，总分就相对较低，很可能在87分左右。

误差：

abs( sum( (label- y_est)) / length(outData));

模糊C-均值聚类分析

在模糊C-均值聚类分析阶段，我们将教师的职称、学历和评分作为特征变量，采用模糊C-均值聚类算法将教师分为不同的类别。通过不断调整聚类中心的数量和迭代次数，我们得到了最优的聚类结果。

%% 建立聚类规则 
     mydata=untitled  
 
     %%2个类
      data =mydata; 
      [center,U,obj_fcn] = FCMClu     ......

横坐标为职位，纵坐标为总分。聚成两个类别

  plot(data(:, j), data(:,16),'o'); 
      hold on; 
     ......
      index1 = find(U(1,:) == maxU);

详细分析分为2类的情况：

第一类（红色）：总分明显低于第二个类别（绿色），都是低于91，由此可以看出绿色的类别总分是相对较高的。同时可以看到红色类别的任教时间年份相比于绿色类比较早。

聚成三个类别：

图片1.png

第一类（蓝色）总分明显高于第二个类别（绿色）和第三个类别（红色），都是低于91，由此可以看出蓝色的类别总分是相对较高的，红色的总分范围最广，相对蓝色较低。

结果分析与讨论

通过决策树和模糊C-均值聚类分析，我们发现教师的职称、学历与评分之间存在密切关系。在决策树模型中，我们发现教师的职称和学历对于评分的预测具有重要影响。而在模糊C-均值聚类分析中，我们发现不同类别的教师在职称、学历和评分方面存在明显差异。这些结果对于高校管理者了解和评估教师队伍的整体水平具有重要意义。