测评技术最新进展研究报告

无领导小组讨论：

　　无领导小组讨论的缺点是结构化不足，以及容易受到团体特征的影响。人们想了一些方法来改进。最常见的就是采用指定角色的小组讨论（assigned-role group task，见George Thornton III，1991），每一位测评对象被指定扮演背景材料中的一个比较固定的角色，例如某部门的经理，来参与讨论。这就要求测评对象不仅就讨论问题提出意见，还要站在自己部门的立场上发表观点。我们（风里（李峰）和我，2003）还提出了一种更强调结构化的方法，被称为结构化工作会议（structured meeting simulation），将讨论设计成高度结构化的任务布置会议。高度结构化的会议非常有利于测评师对行为的观察、界定和评价。不过，这两种方法尽管解决了无领导小组讨论结构化不足的问题，但如何平衡角色间的任务难度成为了新的难点。

商业游戏：

　　商业游戏在评鉴中心发展初期得到较为广泛的应用，但这种应用逐渐减少，到了1990年，全球只有大约25%的评鉴中心仍然运用这种方法。这主要因为大型的商业游戏容易导致观察和评分上的困难。

公文筐测验：

　　公文筐测验是目前评鉴中心的一个热点。传统的公文筐测验是以测评对象扮演管理者，批阅公文的形式进行的。目前越来越多的公文筐测验开始改用邮件处理来进行，即通过让测评对象扮演背景材料中的角色，并作为这个角色处理收到的邮件。这些邮件中的一些包含了日常管理和其他工作中常见的问题（例如，下属提议改进流程），测评师根据测评对象如何回复这些邮件而做出评价。另外，一些公文筐测验还被计算机化（例如上海人才的CITTM和Wilson Learning的AMC技术）。

案例分析和演讲：

　　案例分析和演讲原本属于独立的两个工具。现在则既有将两者单独使用得评鉴中心，又有两相结合的例子。对于后者，在书面完成案例分析后（或准备一定时间后），测评对象将面对测评师的提问和质疑。测评师提问的结构化程度将决定整个情境模拟的质量。根据我们施测的经验，案例分析和演讲本身能够测量的指标范围都比较狭窄，但两者结合能使测评范围得以扩大。一些原本难以测量的指标（如面对质疑的应变能力）能够得到充分的测量。

角色扮演：

　　角色扮演提供了一种一对一的人际情境。较之小组讨论，这种方法更能够体现测评对象的一些人际技巧，如人际理解、行为塑造和说服能力等等。角色扮演面临的两个难点是：首先，如何保证角色扮演进程受到严格的控制；其次，如何保证行为取样的准确性，换言之，测评对象在角色扮演中的表现是否和平时的行为一致。

　　对于前一个问题，除了严格训练角色扮演者外，准备细致的背景材料也是很有好处的。对于后面的问题，我们的经验是，如果角色扮演的时候没有任何测评师在场，而通过摄像或单向玻璃的方式记录行为，那么测评对象的表现会更接近于他平时的真实情况。

评鉴中心的整体改进

　　总的来看，情境模拟的改进有两大特点：更加强调仿真程度，以及尝试使情境模拟变得结构化。仿真性的加强有利于更准确地对测评对象进行行为取样，而结构化的尝试则能够有效降低评鉴中心的评分难度和施测成本。

　　除了对单个情境模拟的改进外，对于评鉴中心整体的改革尝试还有如下几个方面：

　　1．加入计算机和其他辅助设备。这方面的实践包括：
　　a) 将情境模拟的呈现计算机化（公文筐和案例）；
　　b) 用录像等协助施测（通过录像呈现人际情境，并要求测评对象作出反应）；
　　c) 通过软件对测评师评分进行自动汇总

　　2．采用“整体情境”（total simulation）。传统的评鉴中心是由独立的情境模拟构成的，换言之不同的情境模拟采用毫无关联的背景材料。现在，越来越多的评鉴中心采用跨练习的材料，即所有情境模拟采用相同的背景材料。如此的好处是，测评对象不用花过多时间准备新的材料，同时也能够有效提升不同情境模拟的仿真性和评分一致性。根据Gaugler的研究，大约有20%的评鉴中心采用这一方法。

　　3．越来越多的引入情境模拟以外的技术，如行为访谈和心理测验，来作为补充。行为访谈可以用于测量一些通过情境模拟较难测评的资质，例如成就动机和坚韧性。同时，行为访谈也可以作为回顾测评对象在评鉴中心里的行为动机的手段。

　　4．对评鉴中心应用的强化。评鉴中心依据其施测目的不同，会有不同的设计、容量和成本，并结合其它人力资源管理技术。

　　a) 对于招聘或晋升决策，我们可以依据测评指标数量、岗位级别和效度要求等决定评鉴中心设计的复杂性。
　　b) 对于诊断培训需求，我们通常会设计大容量的评鉴中心，以达到充分、全面地衡量测评对象资质的目的。
　　c) 对于职业生涯规划、继任计划和人岗匹配等环节，我们会将才干-角色匹配技术（talent-role matching）融入评鉴中心的施测过程。
　　d) 另外，评鉴中心越来越多地和建立资质模型（competency modeling）、战略性工作分析（strategic job analysis）、绩效管理（performance management）等相结合，应用于人力资源的各个方面。

　　商业化评鉴中心的发展经过了将近50年，但评鉴中心的内核仍然没有改变。仍然是以多个情境模拟为主体，仍然有多名测评师参与整合讨论，仍然强调情境的仿真性。一直在变化的是，在不损害评鉴中心的出发点和内核的前提下，人们修改和改进其设计和操作流程，使它符合人力资源管理发展的需要，符合企业自身的需求。随着人们对评鉴中心的实质理解更为深入，这种改革的步伐将会越来越快，越来越有成效。

结构化访谈：拒绝“选美”

　　上面提到，访谈可以作为评鉴中心工具的一种，并且是对情境模拟的一种有益补充。那么访谈或面试可以单独作为一种测评手段吗？答案是肯定的。但并非所有的面试都是测评。事实上，绝大部分的面试问题都很随意而松散，根本不具备成为测评的条件。常见的问题如：“你为什么选择我们？”，以及“你经历过的最令你自豪的一件事是什么？”都不是作为一种测评技术的行为访谈所问的问题。因为它们无法避免所谓的主试效应，即一千个面试官对这些问题会有一千种评判标准，而不同的评判标准得到的最终结果也大相径庭。

　　访谈技术目前的发展趋势是，越来越多的访谈开始具备作为测评工具的条件。这些条件包括：

　　1. 访谈包括多个独立或相关的问题，针对若干个独立的测评指标（必须是访谈对象的个性、能力、价值观等和工作相关的个人特征）
　　2. 基于访谈对象对自己行为的叙述或对问题的解决过程进行评判
　　3. 对访谈对象的回答有统一和明确的评判标准，并通过该标准对访谈对象在不同指标上的表现作定性或定量的评价
　　4. 在一定程度上避免访谈对象伪装自己。

　　符合以上标准的访谈技术被认为能够较有效地衡量一个人多方面的能力。这种访谈技术的一个典型的例子是结构化可计分行为访谈（structured scorable behavior interview）。这种技术的特点如下：

　　1. 问题数量大（一般每一个指标上有5-8个问题）
　　2. 每一道问题都有明确的评价标准（单一的或发散性的）
　　3. 对问题的评判大都依据访谈对象对自己行为的回顾和举例
　　4. 对测评对象的整体和各个指标上的表现形成定量的评价

　　这种方法通过大量提问和要求举例的方式防止测评对象伪装，同时访谈问题具有多样性，可以基于行为（如询问过去的经历并要求举例）、情境（例如给出特定的工作情境并要求做出决策）、价值判断（对事物或观点阐述自己的意见）或问题解决（类似于智力题）。

　　基于行为的访谈有设计简单、和工作紧密结合等优点。这种方法在过去30多年中得到了广泛的应用。然而，这种方法本身也有一些缺陷，包括：无法保证测评对象的回答是完全真实的；大量的行为回顾和举例会占用较多的时间；对事例的评判较难标准化等等。

　　基于情境的访谈是目前比较流行的一种访谈形式。Gallup的Strength Finder和上海人才的Work Maturity TestTM等都用到了这种形式。有人称这种形式为“迷你评鉴中心”，虽有言过其实之嫌，但这种方法的优点毋庸置疑。基于情境的访谈主要的不足恐怕就是设计上比较困难。

　　基于价值判断的访谈是一种测量测评对象和企业契合度的有效手段。例如，某企业倡导“形式和内容并重”，那么在面试时就可以加入关于形式与内容孰重孰轻的问题。

　　基于问题解决的访谈包括：智力题和考量发散性思维的问题。微软的面试中经常会出现智力题（例如著名的“U2过桥”问题）。发散性思维的题目通常要求对方穷举各种事物的用途、产生某种现象的原因等等。就智力题而言，部分题目的确是测量一个人逻辑思维等能力的有效手段，问题在于不少智力题题目本身很不严谨（甚至荒诞），而且和工作的相关程度很低。发散性思维的题目则很难用来测量思维流畅性之外的指标。而且这两种方法还有共同的弊病：容易泄密，且一旦泄密便毫无用处。

　　总的来看，基于行为和情境的结构化可计分访谈是目前的主流，也代表了访谈技术的发展趋势。而访谈问题和评判标准的设计是当前测评技术的难点。

传统的心理测验：退一步，海阔天空

　　相比现代测评技术的其他两个“兄弟”（评鉴中心和访谈）而言，心理测验从年龄上是老大哥。然而，在商业化测评中，它却是最不成熟的一个。

　　造成这种现象的原因是，除了作为评鉴中心的补充之外，心理测验更多地单独用来预测测评对象在目标岗位上的表现，而这种运用到了今天毫无疑问地变成了滥用。我们的观点是，尽管心理测验仍然是一种有效的测评手段，但是用它来测量一个人的资质或预测一个人的成功是不负责任的做法。

　　最早的人格测验要数卡特尔的16PF，是用于测量一个人的人格特征的。如今16PF却被很多人用于商业测量。类似遭滥用的还有MBTI。对两者的预测效度最乐观的估计也就是0.15（几个数据供参考，评鉴中心平均0.65，结构化行为访谈0.35-0.45，单个情境模拟0.4左右），0.15的效度意味着这种预测和随机预测几乎没有差别。

　　无论是商业界还是学术界对于心理测验的应用都进行了大量的尝试。尝试的结果就是，只有极少数人还坚持认为心理测验能成为一种对测评对象资质的有效测量。更多的人则将注意力转移到了测评对象的其他特质上。人们开始注意到，心理测验最适合测量的，仍然是多年之前它们最初用来测量的内容：和工作相关的个性特征、职业兴趣、工作基本能力以及态度和价值观等变量。

　　对和工作相关的个性特征的测量。这种测量是心理测验功能在工作情境中的外延。其要点就是，通过要求测评对象报告和判断自己在工作中的行为，从而总结其行为取向和工作特征。在这里值得一提的是SHL的OPQ?（Occupational Personality Questionnaire），作为一种发展至今20多年仍然广受欢迎的职业人格测验，这种测验内部结构和理论的严谨性值得我们尊敬。OPQ针对的是测评对象内在行为特质的测量，作为职业人格测量的另一种不同思路的代表，我们开发的WSITM（Work Style Inventory）是对外显行为取向的测量。两者的共同之处是都基于测评对象的自我判断，以及都是全部或部分基于迫选配对式的测量方法。而这种测量方法被证明能比较有效地避免测评对象伪装自己。

　　对职业兴趣和价值观的测量。这也是心理测验的一个主要方向。国外的一些优秀的职业性去调查表（如SSI，斯特朗兴趣调查表和VII，职业偏好调查表）很早就被引入我国。在这方面心理测验还有较大的提升空间，因为传统的调查表大都只能帮助测评对象了解自己的兴趣所在（我喜欢什么？），而不能真正帮助他们理解自己适合什么样的职业（我该做什么？）。真正的职业兴趣问卷应当基于测评对象对自身能力、个性和职业偏好的综合理解之上。

　　关于工作基本能力的测验。需要指出的是这种测验越来越朝接近工作本质的能力上发展。典型的测评指标包括知觉速度、反应时、数理逻辑、听力、阅读能力等等。这些能力相比一般智力而言和实际工作中的能力结合更为紧密，预测效度也更高。是否通过近似于工作的情境科学地测量这些指标，是衡量工作基本能力测验价值的主要依据。

　　态度、价值观和其他。这类工具包括众多的员工满意度调查表、工作价值调查表、工作适应度调查表、雇佣价值调查表和组织文化调查表等等。这些工具的共同特点是测量在职员工，并帮助一个企业的管理者更好地了解他们的员工、企业文化以及审视他们自己的领导行为。这类的心理测验仍然有较为广阔的前景。

　　心理测验尽管在商业领域中的应用遇到了困难，但这并不意味着它在这个领域没有价值。施测成本低，便于大规模施测的特性以及纯粹客观的评价方式（投射测验除外）使它具有得天独厚的优势。人们所要注意的只是避免对它的滥用和对它怀有不切实际的期望。

总结

　　写到这里，对测评技术的发展已经有了一个粗略的描述。最后需要指出的是，测评领域非常广泛，所涉及的问题也相当繁复，笔者不可能在短短数千字中一一阐述这些问题。很多问题有很强的技术背景，限于水平，笔者也很难将这些问题论述得非常透彻。但无论如何，有一点相信你和我，以及所有相信测评的人都会赞同，即所有的技术改进的尝试——无论成功还是失败——都是很有意义的，因为这些尝试正是测评技术发展的动力所在。

作者系上海人才有限公司咨询顾问。上海人才有限公司致力于以世界级的理念和方法树立管理咨询服务品牌，在多个领域已经成为人力资源管理咨询方面的领导者。欢迎与作者探讨您的观点和看法。邮件地址： [email protected]

欢迎您就此文发表观点，与作者和更多的读者交流，请将您的观点写入本页评论处。
本站文章来源标注“本站原创”或“首发原创”字样均为本站作者原创文章，任何网站或媒体未经许可不得用于商业目的。如果您希望转载此文，请注明作者和出处，否则谢绝转载。

上一篇：测评：为管理系统故障报警
下一篇：擦边球：纪念贺卡夹着人民币卖