如何做好公益项目评估？

08月

32871 2 5

评估正在成为一种流行。不论是传统公益，还是社会创新，不论善款是来自基金会、企业、政府采购、公众募捐还是来自社会投资，人们都越来越爱追问“你所取得的社会影响是什么？”可以预见，人们对社会影响评估的需求会越来越旺盛。

但是，评估和社会影响，这两个词含义都比较模糊，即使在专业的研究和咨询领域，也没有标准的定义。不同的语境下，人们所指不同，这造成了沟通的障碍，也妨碍了人们正确认识和发挥评估的价值。

什么是评估？

假如我们分析了社会问题，构建了变革理论，通过监测加强了项目的执行，并且取得了不错的近期成果。此时，我们能不能宣布项目成功了呢？

还不能！

我们还需要追问，项目的中期和长远成果如何？我们实现了项目的中期和长远目标了吗？要知道，近期成果通往中长期成果的路径，并不一定像逻辑上那样畅通无阻。它有待检验。近期成果良好，但中长期成果不理想，此类现象在真实世界中并不鲜见。

柯氏四级法是培训领域的专业评估方法。它把培训的成果分成四个递进的层级：

生活上的变化。结果层则是行为变化之后给所在组织带来的绩效改变，比如对组织战略、项目、筹款、管理、团队等造成的影响。

在一些培训中，培训师语言幽默、素材有趣，反应层效果可能不错，但学员并不一定能学习到什么深刻的知识。而有些培训，虽然教给了学员很多知识，学员却不能应用在自己以及组织身上，这样行为层和结果层的就没有影响产生。

对一个培训类项目的最终考验，至少要到行为和结果层。因此，在前一章介绍的监测，因为只能关注到近期成果，也即只能考察到反应层和学习层，实际上并不能对项目的价值做出最终判断。

农村教育行动项目（REAP）曾做过一场营养实验。西部农村地区的孩子贫血现象比较严重，这影响到了孩子的发育和学习。为了解决这一问题，他们设计了若干种不同的干预。其中一种是为家长提供培训，目的是通过家长改善学生的膳食结构，增加营养，从而改善学生的贫血状况。该干预的近期和中长期的成果链条是这样的：

此类项目在公益领域很常见。我们在各式各样的项目中，为校长、老师、家长、社区等提供五花八门的短期培训，以至于当我们想起公益项目的时候，第一个冒出的想法可能就是培训。REAP 在后期评估时发现，上述影响链条，在第一个环节就断了，很多家长回去之后，并未为孩子改善膳食，或者改善行为并不能持续，孩子贫血状况也没有发生改变。因此，即使项目组为家长提供了优质的培训，聘请专业的教师，开发了有趣的课程，甚至也采用参与式的方法，然而影响的链条在家长培训结束后就断了。这种干预，虽然近期上家长反映很好，但中长期的成果递进过程中孩子的贫血状况并没有改变。

这些情景都清晰地告诉我们关注中长期成果的重要性。监测不能实现此项功能，我们需要评估！

此处，我们把评估定义为：评估是一种系统性研究工作，针对的是项目在中长期时限内所带来的社会改变做出分析和判断，从而为项目策略调整提供可靠的以事实为基础的决策依据。

监测与评估的差别

需要注意的是，很多时候，人们把“监测”和“评估”结合在一起看，他们把监测理解为一种“过程评估”。而此处则把评估界定为一种与监测不同的事物，我们认为这种相互区分而不是相互交融的概念更有利于行动者理解和应用。

何时需要评估？

评估在方法论上是回溯性的。它特别强调系统搜集项目过往或者正在发生的影响信息，从而以事实为基础，做出尽量客观的判断和建议。

评估在应用上又是前瞻性的，评估必须对项目未来的发展决策产生影响才有意义。但是，评估所影响的决策绝不是关于项目执行的细节决策，那是监测的主要功能。在具体工作中，评估发挥作用的场景大概有如下几种：

第一种情景

项目已经运营了一段时间，监测结果显示，项目的近期成效不错，我们希望大规模复制，从而让更多的地方更多的人可以受益。然而，在规模化之前，我们需要评估确认项目的中长期成果也是正向且有效的，不然我们可能会贸然推广一种错误的项目模式。另一方面，我们也需要第三方出具的客观的评估报告，这样更容易赢得众多利益相关方，如不同地方的政府和企业的信赖。

第二种情景

和第一种情景一样，项目已经运转一段时间，监测近期成果不错。不同的是，我们并不想采用自己开连锁店式地扩展规模，而是希望提炼出一些原则、方法和模式，以便为其它机构参考借鉴。此种情境下，我们同样需要通过评估来确认项目中长期是有效的。另外，我们还需要进一步分析项目的成功要素是什么，它适用于哪些内外部条件，这样也有利给其它机构更好的借鉴应用。

第三种情景

政府希望出台某种政策，或者出资大力推广某种项目。在正式大范围推广之前，较为谨慎的做法是首先小范围试点，然后通过评估判断政策或项目的社会影响。如果评估结果良好，才进行大规模推广。这种基于评估的以事实为依据的政策制定方法，是一种避免国家资源浪费的审慎做法，已经被不少国家采纳。目前中国政府大力推动政府型的公益项目，有些项目并未经过评估论证，很可能造成了大量资源浪费。有些项目虽然从投入上看轰轰烈烈，但长远上由于效果不佳，反而可能会引起公众对公益的不信任，对公益的发展是不利的。

第四种情景

我们的项目已经运转了几年，近期效果通过监测感觉也不错，接下来，我们希望在未来几年里延续并升级原有的项目模式。这样，我们需要通过评估来确信项目的基本内核在中长期上是有效的，我们还需要分析哪些是项目成功的要素，将来需要保持；哪些是不那么有效的部分，将来需要剔除；哪些内外部的假设已经发生变化，我们需要调整。在这种情景下，评估成为了策略或战略规划的重要工具。

前三种场景，不管是自身复制，还是推广给别人，抑或是政府借行政之力进行推广，都和大规模应用有关。我们可以称之为“为规模化而评估”。

第四种场景，则可以称为之“为策略升级而评估”。这两种评估情景，都源于我们对中长期成果产生了不确信，或者需要论证项目中长期效果，而这是由评估的定义所决定的。

另外，四种场景下，评估可能影响的决策，都在“项目模式”层面。规模化是针对模式的，升级也是针对模式的。不管哪种类型的评估，我们都需要项目有一个较为稳定的模式。这是一个基本前提。如果模式不稳定，服务对象、目标、活动内容等都可能在变，此时需要的不是评估，而是能够提供及时信息的监测。

因此，评估并不是一种持续性的行为，不是所有项目都需要做评估，一个项目也不经常年年做评估，只有在项目模式基本稳定，而且在策略升级以及规模化的前夕才需要进行评估。

评估什么？

不论哪种情境下，评估都有两项基本任务。其一是“总结判断”，也就是判断项目是否成功，是否产生了正向的积极的社会影响，是否值得延续、升级或推广；其二是“分析原因”，也即分析项目为什么成功或失败，项目值得延续、升级和推广的主要成分是什么。

这两项基本工作任务，它们所关注的问题也有所不同：

“总结判断”是评估任务的基础。“分析原因”目前还没有结构化的方法可以遵循，因此，我们将在下文重点介绍评估执行“总结判断”任务的工作方法。对项目价值做总结判断，从逻辑上大致可以分为三层递进的分析过程：

第一，目标对象在中长期上发生了哪些变化？（成果）

第二，这些变化有哪些是由项目带来的？（影响）

第三，与成本相比，项目投资是否划算？（效率）

三层分析分别对应着评估金字塔的三个层次，即成果评估、影响评估和效率评估。

其中，成果评估针对的是目标人群在中长期的成果变化；影响评估则是归因于项目的，扣除其它因素之后，纯粹由项目带来的“净成果”，而效率等于“净成果”除以投入，也即投入产出比。

我们不难看出，在评估金字塔中，下层是上层的基础，如果下层没有做，或者不牢靠，上层的评估就无法开展，或者效果将大打折扣。

首先，成果评估是所有评估的基础。大多数公益项目，如果能够将服务人群身上发生的变化讲清楚，那已经相当不错了。

其次，这里的影响评估采用的是比较严格的定义，它需要做归因分析，而归因分析则是公认的评估难点。严格定量化的归因分析需要很强的技术和大量资源的投入，是大多数公益项目不能承受的。我们鼓励大家，在成果评估的基础上进行定性的归因分析，以便对项目的社会影响做出尽可能公允的判断。

最后，效率评估，也即人们经常谈论到的“社会投资回报率”，位于评估层次中的最顶端。人们当然关心，针对特定的社会影响，花那么多钱，投入那么多人力，到底值不值。这也是萦绕在众多慈善家以及社会投资家们头脑中的问题。

文章来源｜南都公益基金会

图片来源｜南都公益基金会

网站编辑｜瞿艳梅

标签：公益基础管理

你还没有登录，请先登录或注册！

还没有人评论，欢迎说说您的想法！