吴雨豪:量刑自由裁量权的边界:集体经验、个体决策与偏差识别

来源:《法学研究》2021年第6期,第109-129页。 发布时间:2022-02-17 12:00

【摘要】在量刑规范化改革中,如何在赋予法官自由裁量权的前提下,将 “案件由谁审理” 这一因素所导致的量刑偏差控制在合理限度内,是理论和实务要解决的问 题。一种可行的方案是,将法官个体的刑罚裁量与法官量刑集体经验进行对比,对靠近集体经验量刑的法官的自由裁量权采取肯定和尊重的态度,而对量刑显著偏离集体经验的法官的量刑决策进行识别并纠正其偏差。基于北京地区五类案件近 5 万份刑事 判决书,对盗窃、诈骗、抢劫、故意伤害和交通肇事案件的刑罚裁量展开实证研究后发现: “案件由谁审理” 这一变量能够解释 5%-11%的量刑差异; 大多数法官的量刑结果在集体经验附近浮动,只有少部分法官的量刑结果显著偏离集体经验; 更有少部分法官在多个罪名的刑罚裁量中均出现量刑偏差。量刑结果显著偏离集体经验的法官应成为自由裁量权规制中重点关注的对象,尤其是在多个罪名的刑罚裁量中均出现 偏差的法官。量刑自由裁量权的规制方案,彰显了大数据与算法在量刑规范化改革中的应用前景,在引入“算法的程序控制” 理念的前提下,具有推广价值。

【关键词】量刑规范化;自由裁量权;集体经验;偏差识别

一、问题的提出

在罪刑相适应原则的制约下,法官群体的量刑决策应当具有稳定性。犯罪严重程度、责任刑情节轻重相近的被告人,即使由不同法官进行裁判,其量刑结果应当相近。这不但是司法公正的具体表现,也符合人类朴素的正义观念。2009年,最高人民法院发布《人民法院第三个五年改革纲要(2009-2013)》,提出规范自由裁量权,研究制定量刑指导意见,由此开启了量刑规范化改革的序幕。此后,我国的量刑指导意见历经多次修订,成为影响基层法官量刑行为最重要的规范性文件之一。实证研究也显示,在量刑指导意见颁布后,基层法院刑罚裁量的明确性和稳定性均显著提高。

然而,不可否认的是,即使规范性文件对量刑步骤和方法作了精细化规定,在司法实践中,量刑仍然是法官基于自由裁量权的个体决策行为。一方面,虽然量刑指导意见对所要考虑的量刑情节和裁量幅度作了列举式规定,但具体到每一个量刑情节,量刑指导意见仍然赋予了法官相当的自由裁量空间。当多个这样的情节叠加时,自由裁量权所引发的量刑结果差异就相当可观。另一方面,量刑决策是规范判断和价值判断的有机统一,法官作为社会公众的一员,在裁量刑罚时,不可避免地会受到自己的生活常识、司法潜见乃至刑事政策价值取向的影响。这些非法律因素很可能隐秘地存在于量刑决策的过程中,最终对量刑结果产生显著影响。

由于上述原因的存在,法官自由裁量权所导致的量刑差别广泛存在于司法实践中。但是,如果量刑差别超过了合理限度,势必会对司法公信力产生冲击。首先,根据责任主义的原则,被告人承受的刑罚应当与其行为的法益侵害程度相适应。在其他因素相同的情况下,具有相似违法事实的被告人应当承担相似程度的刑事责任。如果法官个人因素对量刑的影响超过一定的幅度,“案件由谁审理”这一与犯罪事实不相关的因素就会显著影响量刑结果,导致同案不同判的结局,进而违背报应主义的观念。其次,根据特殊预防理论,刑罚处罚的目的之一是通过惩戒和教育手段降低犯罪人的再犯危险性。如果被告人意识到决定自己刑罚轻重的因素中有相当一部分并不来源于自己的犯罪事实和量刑情节,其就有可能不再信服自己所承担的刑事责任的正当性和合理性,从而导致刑罚的特殊预防功能落空。最后,根据积极的一般预防理论,刑罚的任务是“在法律共同体中证明法律秩序的牢不可破,并且由此加强人民的法律忠诚感”。如果量刑轻重过度依赖裁判者的个人因素,社会一般公众就会认为法律的适用缺乏稳定性和可预期性,这对于法忠诚的信念树立会有不利影响。

因此,一个合理的刑罚裁量体系应当在赋予法官自由裁量权的前提下,将“案件由谁审理”所导致的量刑偏差控制在合理限度内。这不但是量刑规范化的制度要求,也是刑罚功能和目的的应然之理。由此引出两个基础性问题:第一,如何识别自由裁量权所导致的量刑偏差;第二,以何种方法定义“合理限度”。

一方面,与定罪决策中事实与规范之间的涵摄关系不同,在量刑决策中,法官不但要在定性上考虑各种因素的有无,还要在定量上权衡各种因素影响量刑的程度。由于多种情节和影响幅度组合的复杂性,量刑裁量过程存在难以计数的可能性。同时,量刑的结果输出又是一个简单的数值,在遵循法定刑幅度和量刑指导意见的前提下,量刑结果妥当与否,并没有进一步的规范判断标准,从而为纯粹从法律推理角度界定量刑偏差设置了障碍。因此,不得不转换视角,从经验和事实的角度定义量刑偏差。本文提出,法官量刑的集体经验可以成为衡量量刑个体决策的重要参照系。基于量刑规范化和同案同判的理念,在控制了所有量刑情节之后,如果某一法官的量刑结果仍然与法官量刑集体经验存在显著偏离,这种偏离就可以定义为个人因素所导致的量刑偏差。

另一方面,法官的刑罚裁量不是一个纯粹机械的行为,刑罚个别化原理要求法官在量刑时必须考虑个案的情境因素,作出符合个案正义的判决。因此,即使在控制了所有可能的法定量刑情节之后,由于自由裁量权的存在,所有的量刑结果也不可能严格趋同于一个所谓的符合集体经验的特定数值。所以,在量刑决策的规制中,又需要为个体决策与集体经验的偏离赋予一定的容忍度。其体现在操作层面,就是要为上述量刑偏离设定阈值。在这个阈值内,刑罚裁量偏离集体经验会被认定为自由裁量权的合理体现,法官的个体决策应当受到肯定和尊重。若超出这个阈值,则自由裁量权的行使超越合理限度,存在被滥用的风险,应当予以识别并纠正其偏差。综上所述,在对法官量刑自由裁量权进行规制的过程中,需要比对个体的量刑决策与群体的集体经验,运用定量研究方法计算量刑偏离,并判断其是否超越合理限度。在明晰了这一基础性问题后,本文将以裁判文书数据为样本,基于特定的统计算法展开实证研究

二、作为参照系的量刑集体经验

(一)量刑集体经验的测量与呈现:从均值估计到量刑分布

白建军最早提出量刑集体经验的概念,并将其表述为“司法案件大样本中实际法律问题与法律实践之间实然联系的科学综合与归纳”。在具体操作上,白建军基于裁判文书数据,以法定情节为自变量、以刑期为因变量,对量刑大样本进行回归分析,得到刑期与法定情节之间关系的统计模型。这一统计模型本身,构成了法官集体经验的具体呈现方式。以交通肇事案件为例,如果统计模型的计算结果显示,“有逃逸、负事故全部责任、致死一人等三个情节”的预测值为有期徒刑1036天,这一结果就是量刑实践中法官集体经验的具体呈现。

本文遵循上述思路,认为从司法裁判大样本中总结出的量刑统计模型能够测量和呈现量刑集体经验。然而,一个无法忽视的事实是,如果仅简单地以多元线性回归模型作为集体经验的载体,研究者不可避免会忽视蕴藏于个体决策中的量刑行为的复杂性。这是因为,在统计学意义上,线性回归所呈现的结果只是对集体经验的均值估计。例如,如果量刑模型发现,累犯情节会导致20%的刑罚加重效应,那么,其真实意义是,从平均意义上说,被告人是累犯这一事实会使其刑罚加重20%。但事实上,一些被告人的累犯情节所对应的刑罚加重幅度可能低于这个值,也可能高于这个值。同样,量刑预测模型输出预测结果,也只是特定情形下量刑结果的均值估计。例如,在前述交通肇事案件“有逃逸、负事故全部责任、致死一人等三个情节”的情形下,虽然模型预测的有期徒刑均值是1036天,但白建军同样发现,在实际的司法裁判中,部分裁判结果远低于这个模型预测值(如510天),另一些裁判结果则显著高于这个预测值(如1530天)。这两个极端结果显然无法为均值估计所涵盖。

更为重要的是,从量刑模型中获得的均值估计,无法实现本文期望达到的“通过集体经验识别个体决策偏差”的研究目标。例如,量刑模型呈现,在控制了所有量刑情节后,法官量刑实践中的集体经验将某一罪名的基准刑设定为3年有期徒刑,即使发现一位特定的法官将量刑基准刑的均值设定为4年有期徒刑,在法官量刑结果聚集的情况下,该法官个体决策的偏离程度(高于集体经验均值1年的量刑偏离)也可能已经超越了合理限度;而在量刑结果分散时,1年的量刑偏离也可能仍然在自由裁量权的合理限度内。

因此,本文认为,一个完整的量刑集体经验的建构,应当同时包括对量刑实践中均值的测量和对个体决策离散程度的呈现。由此,量刑集体经验的测度分为两个部分:(1)在量刑大样本下,控制了所有量刑情节之后,通过一般化量刑模型,测量出法官集体的量刑均值。这一量刑均值将是量刑集体经验的基准。(2)在量刑模型中加入法官个体决策的因素,计算出每位法官相对于集体经验均值的偏离值,并由此得到关于所有法官个体决策的量刑分布。例如,基于某一罪名的量刑大样本,在通过量刑模型控制了所有可能的量刑情节之后,得出“所有法官量刑结果的均值为3年有期徒刑”的结论。“3年有期徒刑”就是该罪量刑集体经验的均值。如果恰好有一位法官的量刑结果等于这个均值,这位法官的个体决策与集体经验不存在任何偏离,该法官就会被我们认定为“基准法官”。而对于大多数法官,其量刑决策与集体经验均值之间都会存在一定程度的偏离,这种偏离就会被认定为相对于集体经验的量刑偏离。例如,量刑均值为4年有期徒刑的法官决策,相对于集体经验的量刑偏离就是1年。同时,由于量刑分布汇集了所有法官的量刑决策,我们就能够从该分布中获取有关该法官量刑偏离严重程度的信息。比如,如果我们发现该法官的量刑结果虽然与集体经验均值相差1年,但其量刑决策仍然处于量刑分布中较为中心的位置,就意味着该法官自由裁量权的行使很可能并未超越合理限度(见图1)。反之,如果我们发现该法官的量刑结果显著靠近量刑分布的两端,其自由裁量权的行使就很可能已经超越了合理边界。

(二)通过集体经验规制个体决策:蕴藏于实然中的应然

不难看出,当量刑集体经验能够同时以“集体经验均值”和“个体决策分布”两个方面呈现时,本文倡导的“通过集体经验规制个体决策”就有了可行性。因为,一方面,我们可以将每位法官的量刑结果与法官群体的集体经验均值进行对比,计算出个体决策相对于集体经验的量刑偏离值。另一方面,我们能够从所有法官个体决策的分布中,获得这种偏离是否严重的信息,并最终将之作为量刑自由裁量权是否超过合理限度的判断依据:当某一个体决策处在集体经验分布中较中心的位置时,即使其与集体经验均值存在一定的偏离,也应被认为属于合理行使自由裁量权;反之,如果个体决策处在集体经验分布中的极端位置,则自由裁量权存在被滥用的风险。在这一宏观思路下,关于量刑集体经验这一参照系的建构,仍有以下三点需要专门说明。首先,量刑集体经验的建构,需要建立在尽可能排除个案差异的基础上。由于一系列法定和酌定量刑情节对量刑结果具有决定性作用,即使发现不同量刑情节组合的案件具有不同的量刑结果,也无法将之归结为不同量刑主体的决策差异。因此,无论集体经验均值,还是法官量刑决策分布,都需要排除量刑情节的客观影响,从而使不同量刑主体能够在相同的标准下公平比较。幸运的是,统计学工具的发展能够帮助我们实现这一目标,使我们能够在控制了所有可能的量刑情节之后,完成量刑集体经验的建构。

其次,量刑集体经验与个体决策之间,存在着一种整体与个体的辩证关系。一方面,整体的方向是由所有个体的合力方向牵引,量刑集体经验的建构建立在对大量具体量刑决策进行综合与归纳的基础之上。因此,集体经验本身并不先于个体决策而存在,没有法官群体量刑实践的聚沙成塔,就不存在所谓的量刑集体经验。另一方面,对于特定个体的量刑决策而言,其在整体中的位置又具有重要的评价意义。因为,在大数据的语境下,法官的量刑实践必然存在着向集体经验中央聚集的趋势(后文的实证研究也证实了这一形态的客观存在)。这一中间聚集的规律,并不会因为少量的量刑决策而改变。因此,在评价某个具体量刑决策时,衡量其对于量刑集体经验中央聚集趋势的偏离程度,具有重要的现实意义。

事实上,这种通过衡量个体在整体中的相对位置,从而得出评价结论的思维方法,在社会科学领域已经被广泛运用。例如,在社会学领域,有学者将城镇居民年人均收入的25%分位点与95%分位点作为定义我国城镇居民中等收入群体的下限和上限。这意味着,一方面,我国城镇居民收入是由大量个体收入情况汇总而成的。另一方面,这一收入分布对于衡量个体的收入水平具有重要意义,当某一个体的收入水平处于整体收入分布的极端位置时,例如低于收入的25%分位点,该个体就会被定义为低收入人群。在刑事司法领域,也已经有学者通过这种内部基准法(internal bench marking)来衡量执法人员的自由裁量权。例如,里奇韦和麦克唐纳以美国辛辛那提市的警察执法为背景,衡量个体执法行为在整体执法状况中的相对位置,并以此评价执法是否公正。这与本文“通过集体经验规制个体决策”的设计思路不谋而合。

最后,一种可能存在的对“通过集体经验规制个体决策”思路的顾虑是,作为参照系的集体经验同样是对量刑经验的实然总结,而量刑自由裁量权规制要回答的却是“刑罚裁量应当怎么样”的问题。换言之,以实然的集体经验为判断标准,为何能得出一个应然的结论?

一方面,无论是罪刑相适应原则,还是量刑指导意见中体现的“对于同一地区同一时期案情相似的案件,所判处的刑罚应当基本均衡”的理念,都要求量刑情节组合相似的被告人,即使由不同法官进行裁判,也应该得到相似的量刑结果。因此,在认为刑罚裁量的稳定性和法的确定性是一个应然的价值诉求的前提下,在控制了量刑情节之后,类似案件中不同法官个体的刑罚裁量结果应当相近。在具体形态上,个体决策应当呈现出向集体经验中央聚拢的趋势。反之,如果个体决策之间的差异过大,或者某一决策过于偏离集体经验均值,就可能预示着刑罚裁量违背上述应然价值。

另一方面,虽然量刑指导意见对量刑基准和量刑情节的作用幅度作了具体规定,但量刑指导意见也提出“量刑要客观、全面把握不同时期不同地区的经济社会发展和治安形势的变化”。由此可见,在一个应然的刑罚裁量体系中,量刑决策不但要符合实体量刑规范规定的幅度,还要具有回应社会现实之审时度势、因地制宜的特性。事实上,既有的实证研究已经发现,如果仅以量刑是否符合具体规范作为评价标准,法官的量刑决策大多会在规范规定的幅度之内。因此,评价量刑是否正当,就聚焦到“量刑是否符合社会现实”的考量。

本文认为,正是在这个意义上,从法官量刑实践中总结出的集体经验具有重要价值。法官作为刑罚裁量的主体,其会在日常的司法实践中直观地感受到社会经济变化、犯罪治理状况、民众态度的变更等一系列可能影响刑罚裁量的社会因素。由于司法活动是一个能动的过程,法官在具体案件的量刑过程中会对这些因素作出价值判断,并由此根据经验对量刑决策作出调整。当多个这样的调整形成合力时,个体的选择就汇聚成了集体智慧,从而反过来成为量刑决策是否合理的重要参照对象。例如,量刑指导意见将累犯加重的幅度设定为10% -40%。设想随着社会治安状况的改善、一般预防必要性的降低,累犯问题不再突出,法官群体出于刑罚经济性的考虑,会更倾向于靠近下限10%进行量刑,而此时如果有一位法官仍将加重的幅度设定为40%,那么,这一个体决策虽然没有违背实体规范,却不符合法官的集体经验、也不利于这种情形下刑罚目的的实现,因此同样要受到规制和纠正。这就是所谓“用经验去校准经验”的意涵。

三、研究假设与检验方法

(一)检验逻辑

在明晰了“通过集体经验规制个体决策”的基本思路后,对量刑自由裁量权边界的检验分为宏观和微观两个层次。宏观上,本文将检验,在一个刑事司法体系内部,法官的自由裁量权总体上对量刑结果会产生何种程度的影响。微观上,本文将定位于每一位具体的法官,将每一位法官的量刑决策放在法官量刑的集体经验中进行考察,并检验特定法官的量刑自由裁量权是否超越了合理边界。

这两个层面的问题看似关注的对象不同,实则前后递进。宏观层面的检验立足于发现问题。如果发现法官个人因素对量刑的影响具有普遍性,我们才要反思如何设定这一影响的合理边界。微观层面的检验立足于解决问题。因为只有发现特定法官的量刑偏差,我们才能创建一套规制量刑自由裁量权的识别和纠偏系统,进而从整体上减少法官个人因素对量刑公正产生的冲击。依循上述逻辑,本文将依次检验三个假设:

假设1:宏观上,如果法官个人因素是影响量刑的重要因素,那么,“案件由谁审理”这一要素将能解释个案之间一部分的量刑差异。

在既有的实证研究中,学者广泛使用量刑预测模型来刻画量刑情节与量刑结果之间的关系。但是,无论研究者如何穷尽各种量刑情节,从量刑模型中推导出的预测值与实际刑期,在个案中依然会存在一定的差距。这种残差可能是各种复杂原因的结果,包括未写入判决书的法律因素与其他非法律因素。在这些因素之外,还有一个可能的重要原因———不同法官的量刑裁量模式不同。因此,如果认为法官自由裁量权是影响量刑的重要因素,那么,在量刑情节之外,“案件由谁审理”将能解释一部分的量刑差异。

假设2:微观上,某一法官的量刑越是靠近法官集体量刑分布的某一极端,就意味着该法官个人因素对量刑结果的影响越有可能超过合理边界。

正如前文所示,在同案同判和量刑稳定性的价值指引下,在控制了相关量刑情节之后,法官的量刑决策应当呈现出向集体经验均值聚拢的趋势。而对于每一位特定的法官,我们允许其在不过分偏离集体经验的前提下行使自由裁量权。但是,如果其量刑决策过于偏离集体经验而位于法官集体量刑分布的某一极端位置,其自由裁量权就可能超越了合理边界,因而有纠偏的必要。

假设3:微观上,如果法官在不同罪名的刑罚裁量中均偏离集体经验,则对于该法官个人因素对量刑的影响更有纠偏的必要。

法官个人因素对量刑结果可能存在多种影响机制。经验表明,如果某一法官仅在某个罪名上存在显著量刑偏离,在其他罪名上则趋近集体经验,那么,我们更倾向于认为该法官只是在某一罪名的社会危害性认识或者特定量刑情节的适用上有不同的理解。然而,如果发现某一法官在所有罪名的量刑裁量上均显著偏离集体经验,那么,我们更倾向于认为该法官很可能在量刑步骤和方法、刑罚裁量的价值判断乃至刑事政策的宏观理解上存在偏差。相对于前者,后一种情形更有纠偏的必要。

值得说明的是,这三个假设虽然均来自“通过集体经验规制个体决策”的理论构想,但三者均要经过特定的实证检验后,才能转化为最终的结论。其中,假设1检验量刑大样本的总体状况,即只有数据和实证结果展示了“案件由谁审理”能够解释相当程度的量刑差异时,才能在证成假设1的基础上得出“法官个人因素是影响量刑的重要因素”的结论。假设2、假设3检验每一位法官的具体量刑决策,即只有实证结果显示某法官的量刑结果显著偏离集体经验时,才能得出“某法官的量刑结果超越合理边界”的评价结论,否则,针对特定法官量刑自由裁量权的规制也无从提起。

(二)样本介绍与变量设置

1.样本构成

在通过集体经验规制个体决策的操作过程中,一个前置性的问题是,集体经验的范围应当如何设定。换言之,应当以什么样的量刑样本去评价具体的量刑决策。

一方面,我国幅员辽阔,各地社会经济发展水平不一;同时,在全国性的量刑指导意见之外,各地又颁布了不同的量刑实施细则以指导当地的量刑实践。这些因素共同作用的结果是,我国法官的量刑决策很可能呈现出明显的地区差异。因此,如果将全国的量刑样本作为识别量刑偏差的参照系,一个可能的结果是,某一法官群体的量刑偏差并不是自由裁量权所导致的,而是特定司法环境或者地区性量刑规范所作用的结果。由于本文的研究目标是通过个体决策与集体经验的比对,发现量刑自由裁量权的合理边界,所以,需要划定一个相对同质化的法官集体作为识别量刑偏差的参照系。所谓同质化,是指该样本中法官集体所在的司法环境相似,处理的刑事案件类型相近,适用的量刑规范相同。只有满足这一前提,通过量刑差异识别法官自由裁量权影响程度的研究目标才能实现。因此,不同于大多数以全国范围内案件作为数据库的实证研究,本文将以某一特定地区、同一层级法院法官审理的刑事案件为样本来源,以满足样本同质性的要求。

另一方面,既有的量刑实证研究多聚焦于某一个罪,探究法官集体在该罪中所呈现的行为模式。但是,在量刑偏差的识别中,发现某一法官在某一个罪中出现量刑偏差,其意义十分有限。一种可能的解释是,这种量刑偏差只是因为不同法官对某一个罪特定量刑情节的适用有不同理解。相反,在实践中,那些最需要引起关注的量刑决策群体,恰恰是那些面对不同类型刑事案件,其量刑始终畸重或者畸轻的法官。如同前文假设3所述,这类法官在价值取向和刑事政策选择上存在一定偏差,因而更有纠偏的必要。因此,为了构建跨案件类型的量刑偏差识别系统,本文的样本需要涵盖不同罪名的刑事案件,以此检验法官个体自由裁量权所导致的量刑偏差是否稳定地出现在不同案件类型中。

基于上述理由,本文的原始数据包括中国裁判文书网公布的所有北京市基层法院20142020年审理的五类刑事案件(盗窃、诈骗、故意伤害、抢劫和交通肇事)的裁判文书。第一,样本中所有的近5万个刑事案件都在北京地区审理,我们有理由期待,审理案件的法官所处的司法环境、所适用的量刑规范基本相同。第二,样本中所有的案件都来自基层法院,这将那些特别重大的刑事案件排除在外,从而增加了案件的同质性。第三,在罪名的选择上,五个罪名均属最常见的犯罪类型。这些罪名既涵盖财产犯罪、也涵盖人身犯罪,既包括故意犯罪、也包括过失犯罪,法官在这些常见犯罪中的量刑决策,可以较完整地体现其在不同类型案件中的量刑偏好。

笔者通过特定的计算机软件对这些裁判文书进行了分析和读取,剔除了部分不披露具体内容的裁判文书。对于一个案件中包括数名被告人的情况,每一个被告人被单独提取作为一个独立的观测值。最后,为了保证量刑结果衡量的同一性,本文将样本限定在犯上述罪之一并被判处有期徒刑的被告人。经过上述处理和筛选后,本文样本构成如表1所示。

2.变量设置

本文的因变量是被告人获得的量刑结果,即其被判处的有期徒刑刑期;本文最关键的自变量是案件的主审法官。根据刑事诉讼法的规定,案件审理分为独任审判和合议庭审判两种。因此,对案件主审法官的提取分为两种情况:在独任审判中,唯一的审判员就是该案的主审法官;在合议庭审判中,对整个审判活动起主持和协调作用的审判长是该案的主审法官。基于这一原则,笔者通过计算机软件对每一份裁判文书的落款部分进行分析读取,提取出每个案件的主审法官。根据前文表1所示的分布情况可以发现,340名主审法官中的大多数都参与了多个罪名案件的审理,这为我们检验量刑偏差在不同案件类型之间是否存在稳定性提供了可能。根据2015年《最高人民法院关于完善人民法院司法责任制的若干意见》第5条,法院审理案件应当“实行随机分案为主、指定分案为辅的案件分配制度”。但不可否认的是,不同法官审理的刑事案件仍然存在区别。为了实现前文提及的在控制了量刑情节的基础上建构量刑集体经验的目标,针对每类案件,笔者在所有裁判文书中从基本犯罪事实和其他量刑情节两个方面,提取了所有可能影响量刑结果的法定情节和酌定情节作为统计分析的控制变量。这些变量的构成如表2所示。

(三)统计模型与方法

本文需要测量两个参数:第一,在不同案件的量刑结果差异中,有多大比例的差异来源于案件所分配的法官的不同。第二,针对每一位主审法官,在控制了相关量刑情节之后,以法官集体经验为参照系,在每一个罪中法官量刑偏离的具体数值是多少。为了完成上述两个任务,本文要运用特定的统计模型。

针对第一个问题,本文将运用多层线性模型(multilevel models),对法官个体不同所导致的量刑差异的比例进行估计。多层线性模型从上世纪80年代被统计学家发明以来,在教育学、社会学和心理学等领域被创新性地应用。在刑事司法领域,也已经被犯罪学学者使用,用来测量法官个体差异对量刑结果的影响。多层线性模型的核心理念是,将多层结构数据在因变量上的总变异明确区分成组内和组间两个层次,然后分别在不同的层次上引入自变量来解释组内变异和组间变异。以样本中的盗窃案件为例,我们关注的因变量是案件的量刑结果,其变异可以分为两个层次:第一,数据库中存在23300个盗窃案件,这是最底层的数据单位(层1),即组内分析单位。第二,这些案件被275位法官分别审理,每位法官审理的全部盗窃案件构成一个专门的数据组,案件的主审法官就是组间分析单位(层2)。在明晰了数据结构之后,就开始运用多层线性模型,通过以下步骤对参数进行估计:(1)通过使用最大似然估计的方法,获得模型的方差和协方差,从而分解出被估计参数的变异构成;(2)将结果变量的方差分为组间方差和组内方差;(3)根据两部分的方差成分估计值,可以计算得出组内相关系数,以衡量层2单位之间的差异在层1结果变异的总方差中的影响。

因此,通过使用多层线性模型,能够将数据库中某一类刑事案件的量刑差异分解为两个部分:(1)案件本身所导致的量刑结果差别(组内方差 δc2);(2)案件分组所产生的量刑差别,也就是由不同法官审理所导致的量刑差异(组间方差 δ2)。组内相关系数 ρ 的公式为:

该系数刻画了,在不同被告人的量刑差异中,有多大比例是由审理法官的不同所导致的。该系数的值越小,意味着层2单位之间相对差异不大,即不同法官的量刑结果不具有显著差异。反之,该系数的值越大,意味着由不同法官审理而导致的量刑差异很大,法官的自由裁量权存在被滥用的风险。

在宏观上估算了法官自由裁量权对量刑差异的影响比例之后,还需要在微观上对每位法官的量刑偏离进行识别。由此涉及前述第二个参数的估计,即如何计算每位法官在每一种案件类型中的量刑偏离。为了实现量刑集体经验的测量,我们通过以下步骤完成参数估计:(1)以量刑结果为因变量,前文表2中的变量体系为自变量,建立量刑预测模型。(2)通过计算机循环程序,寻找在控制相关量刑情节之后量刑结果恰好等于集体经验的基准法官(在模型中称为“法官0”)。(3)将案件的其他主审法官(在模型中称为“法官1”到“法官N”)作为自变量纳入模型,测算出在控制了量刑情节之后,每位法官相对于基准法官的量刑偏离值。由于基准法官的量刑结果恰好等于集体经验,所以,其余法官与这位法官的量刑均值偏离就是与集体经验的偏离。关于量刑偏离的统计模型,可以表示为如下形式:

(有期徒刑刑期(月))= α0+ α1量刑情节1+ α2量刑情节2+……+ αn量刑情节n+β1法官1+ β2法官2+……+ βN法官N

这一多元线性回归模型的分析单位是每一个量刑决策。其中,因变量是该案中被告人被判处的有期徒刑刑期(月); α0是模型的截距项,其是指在所有的自变量均为0时,因变量的均值; α1到 αn是关于所有可能影响量刑的情节的回归系数,它们与量刑情节变量一起构成了有关量刑情节的控制变量矩阵。法官1到法官N是一系列有关“案件由谁审理”的虚拟变量(只有0和1两个取值)。其中, β1到 βN刻画的是,相对于集体经验均值,在控制了相关量刑情节后,从法官1到法官N相对于集体经验均值的量刑偏离值。例如,如果 β1的值为3,意味着在控制了相关情节后,法官1的量刑均值比集体经验的量刑均值重3个月。

最后,由于各个罪名的量刑幅度不同,法官审理不同类型案件时的量刑偏离绝对值的变动幅度,也会发生相应变化。例如,盗窃罪基本犯的量刑幅度是3年以下有期徒刑,而抢劫罪基本犯的量刑幅度是3年至10年有期徒刑,由此,法官在抢劫案件中的量刑偏离绝对值一般会大于盗窃案件中的量刑偏离绝对值。为了使量刑偏离值在不同罪名之间能够横向比较,需要对上述量刑偏离值作标准化处理,即计算出它们的z值,其公式为:

这一公式将每位法官的量刑偏离值与审理同一类案件其余法官的量刑偏离值进行比较,获得其偏离均值的标准差数量。例如,如果得出某一法官在某一类案件中量刑偏离的z值为2,就意味着,从平均意义上说,该法官的量刑偏离值高于所有法官量刑偏离值2个标准差。

四、量刑差异的宏观解构

运用多层线性模型,本文分别计算出每类刑事案件中量刑差异由案件本身所导致的部分和由审理法官不同所导致的部分,并以此对量刑差异进行解构。其结果如下文表3所示。以盗窃罪为例,案件本身所导致的量刑结果,组内方差估计值是214.2;审理法官不同所导致的量刑结果,组间方差估计值是18.08。基于上述结果,计算出一个组内相关系数 ρ ="18.08/(18.08+214.2)=0.078。这就是说,在北京地区盗窃案件的量刑差异中,案件层次的量刑差异中大约有7.8%是由法官层次的差异造成的。关于其他案件类型,我们获得以下结论:在诈骗罪的量刑中,审理法官的不同可以解释6.1%的量刑差异;在故意伤害罪中,可以解释11.2%;在抢劫罪中,可以解释7%;在交通肇事罪中,可以解释5.3%。

从统计结果中,可以获得以下两个有关量刑差异宏观解构的实证结论。

第一,“案件由谁审理”能够解释相当一部分的案件量刑差异,法官自由裁量权对量刑结果的影响程度值得重视。统计结果发现,在北京地区审理的五类刑事案件中,案件审理法官不同所导致的量刑差异均在5%以上,在个别类型案件中,这一数值甚至达到10%以上。值得说明的是,这部分量刑差异均是案件被分配给不同法官所致,与案件本身的情况并不直接相关。举例而言,在不同法官的量刑差异可以达到10%的情况下,一个宣告刑在3年有期徒刑上下浮动的被告人,其可能由于案件被分配给不同的法官审理,而面临4个月左右的刑期浮动。从被告人的视角看,这4个月的刑期浮动与其犯罪事实和人身危险性无关,而仅仅与案件由谁审理有关,因此,该部分量刑结果具有相当的不可预知性。另一方面,通过将这里的数值与其他特定量刑情节进行比较,法官个体量刑差异过大所导致的后果将进一步显现。例如,量刑指导意见规定,对于当庭自愿认罪的被告人,“可以减少基准刑的10%以下”;对于有前科的被告人,“可以增加基准刑的10%以下”。如果法官自由裁量权所导致的量刑差异达到一定幅度,那么,体现在最终的量刑结果上,该类量刑情节的实际效果就可能被消弭。例如,在不同法官的量刑差异可以达到10%的情况下,即使其他因素相同,却仅仅因为案件的主审法官不同,一个当庭认罪的被告人仍有可能被判处和另一个未当庭认罪的被告人一样甚至更重的刑期,一个有前科的被告人仍有可能被判处和另一个没有前科的被告人一样甚至更轻的刑期。这明显背离量刑指导意见所追求的量刑公正目标和罪刑相适应原则。

第二,法官个体导致的量刑差异幅度,在不同类型案件之间呈现出差异性。我们发现,在五类案件中,法官个体之间量刑差异最小的是交通肇事罪,在5%左右。一种可能的解释是,交通肇事罪作为典型的过失犯罪,不同案件的被告人在主观恶性和人身危险性上不存在显著差别。同时,大量交通肇事案件的犯罪事实比较简单,法官很可能仅依据犯罪造成的实际后果对量刑结果作相应调整。因此,在交通肇事案件的刑罚裁量中,法官自由裁量权的施展空间相对狭窄,从而导致法官之间量刑差异普遍较小。在盗窃、诈骗和抢劫案件的刑罚裁量中,法官之间的量刑差异虽然较交通肇事案件要大,但维持在较低水平———在6%到8%之间。其原因同样可能是,法官的自由裁量权容易受到特定量刑情节的规范约束。例如,在盗窃和诈骗这类纯粹财产犯罪案件的刑罚裁量中,犯罪数额对刑罚裁量起到决定性作用。在抢劫这样的人身财产犯罪复合型案件的刑罚裁量中,法官也多以涉案金额和被告人所受人身侵犯严重程度进行刑罚裁量,自由裁量权的空间同样受到严格约束。

我们发现,法官量刑个体差异最大的案件类型,是故意伤害这样的纯粹侵犯人身的暴力犯罪案件。一种可能的解释是,在故意伤害案件中,除了伤害结果这一相对客观的情节外,还存在大量缺乏客观标准的法定和酌定情节,这些情节的存在给法官量刑自由裁量权的充分发挥提供了空间。例如,相当数量的故意伤害案件中存在错综复杂的案情缘由和情境因素,其中涉及被害人过错、家庭琐事、领里纠纷、被告人冲动犯罪等多种因素的排列组合,这类因素均可能对量刑结果产生一定程度的影响。同时,由于生活经历和价值观不同,不同法官很可能对这些潜在的量刑情节存在不同的认知和评价,并以此行使自由裁量权,从而导致法官群体在故意伤害案件中呈现出最大的量刑差异性。

五、量刑偏差的微观识别

宏观部分的实证研究表明,在北京地区五类案件的刑事审判中,“案件由谁审理”能够在总体上解释相当一部分量刑差异。如前所述,法官自由裁量权导致的量刑差异过大,势必会对司法公信力产生冲击。同时,审理法官不同所导致的量刑结果不可预知性,也违背了基本的量刑公正理念。

因此,需要根据前文提出的“通过集体经验规制个体决策”的方案,对部分法官的量刑自由裁量权进行规制。具体而言,在对大多数与集体经验偏离不大的法官量刑决策采取肯定和尊重态度的同时,我们应当将目光聚焦于那些量刑显著偏离集体经验的少数法官。统计世界的经验法则表明,这些显著偏离集体经验的量刑结果理应属于小概率事件,因此,我们倾向于认为,在这些法官的量刑决策中很可能存在规范理解和价值判断上的偏差。通过纠正这些偏差,最终可以实现不断减少量刑畸重或者畸轻的情况,将法官群体的量刑自由裁量权控制在合理限度内的目标。

(一)单一案件类型的量刑偏差识别

通过前文“统计模型与方法”部分介绍的步骤,本文利用软件计算出每位法官在特定案件类型中相对于集体经验均值的量刑偏离值。值得说明的是,这里的量刑偏离值是在控制了所有可能的量刑情节之后,不同法官在个案审理中呈现出的量刑特征,因而被归为纯粹由自由裁量权所导致的量刑偏离。对量刑偏离值作标准化处理后,下文图2呈现了不同案件类型中法官量刑偏离的统计分布。

从图2可以发现,在所有案件类型中,法官的量刑偏离值均符合类正态分布。这意味着:第一,大多数法官的量刑结果均在集体经验均值附近。我们发现,不同案件类型中法官量刑偏离值分布的顶点的横坐标都在0附近———在控制了所有的量刑情节后,被告人最可能获得的量刑裁判结果就是接近集体经验均值的量刑值。同时,大多数法官的量刑偏离值都在距离集体经验均值1个标准差之内。这证明了我们的如下猜测:大多数法官的量刑结果与集体经验差别不大,因而不存在纠偏的必要。第二,有少部分法官的量刑结果与集体经验有较大偏离。在每一个案件类型的分布中,我们均发现,有一部分法官的量刑结果显著不同于法官群体的集体经验。其量刑结果或者显著重于集体经验均值(分布的右端),或者显著轻于集体经验均值(分布的左端)。但是,相较于在集体经验均值附近量刑的法官,这部分法官出现的频率显著较低。

因此,图2中的定性描述完全可以进一步证明如下论点:在量刑自由裁量权的规制中,我们要把目光聚焦于那些量刑畸重或者畸轻的少数法官,而对量刑结果在集体经验均值附近浮动的大多数法官的自由裁量权采取肯定和尊重的态度。但问题在于,如何确定这里的“少数法官”的范围。换言之,法官的量刑结果与集体经验偏离到何种程度时,才能被认定为量刑畸重或者畸轻?这一问题实际上涉及如何设定量刑自由裁量权的合理边界,而这又与量刑自由裁量权规制的政策选择息息相关。当我们倾向于压缩法官量刑自由裁量权的空间时,就会将偏离的阈值调整到一个较低的水平,即法官的量刑结果与集体经验的偏离达到一个较小的数值时,就被认定是量刑畸重或者畸轻的征兆,从而有纠偏的必要。反之,如果我们倾向于赋予法官群体更多的量刑自由裁量权,就会将偏离的阈值调整到较高的水平,即只有当法官的量刑结果较大幅度地偏离集体经验均值时,才有纠偏的必要。