0

0

Dunn's Post Hoc检验P值对称性解析:理解秩次计算原理

碧海醫心

碧海醫心

发布时间:2025-09-05 11:02:01

|

338人浏览过

|

来源于php中文网

原创

Dunn's Post Hoc检验P值对称性解析:理解秩次计算原理

本文深入探讨了Python中Dunn's Post Hoc检验在特定情况下出现p值对称性的现象。我们将揭示Dunn检验的核心机制——基于数据秩次而非原始数值进行计算。通过具体代码示例,文章解释了当数据秩次模式一致时,不同组间比较可能产生相同p值的原因,并演示了如何通过改变秩次分布来观察p值的变化,强调了理解非参数检验底层原理的重要性。

1. 引言:非参数多重比较与Dunn's Test

在统计分析中,当我们比较三个或更多独立组的均值时,如果数据不满足参数检验(如anova)的假设(例如,数据不服从正态分布或方差不齐),我们通常会选择非参数方法。kruskal-wallis h检验就是这样一种用于比较多组中位数是否存在显著差异的非参数检验。

然而,Kruskal-Wallis检验只能告诉我们至少有一组与其他组存在显著差异,但不能指出具体是哪几组之间存在差异。为了进一步探究组间的具体差异,我们需要进行事后(Post Hoc)多重比较。Dunn's Post Hoc检验是Kruskal-Wallis检验后常用的一种非参数事后检验,它通过比较各组的平均秩次来评估它们之间的差异,并通常会进行多重比较校正以控制第一类错误率(Type I error rate)。

2. Dunn's Test中P值对称性的观察

在使用Python的scikit_posthocs库进行Dunn's Post Hoc检验时,有时会观察到一种有趣的现象:不同组对之间的p值可能完全相同。考虑以下示例代码,它使用了一个简单的数据集来演示Kruskal-Wallis检验和Dunn's检验:

import pandas as pd
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn

# 原始数据集
data = {
    'Group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'Values': [10, 15, 12, 18, 20, 22, 25, 28, 30]
}

df = pd.DataFrame(data)

# 执行Kruskal-Wallis检验
statistic, p_value_kruskal = kruskal(df[df['Group'] == 'A']['Values'],
                                     df[df['Group'] == 'B']['Values'],
                                     df[df['Group'] == 'C']['Values'])

print(f"Kruskal-Wallis p-value: {p_value_kruskal:.6f}")

# 执行Dunn's Post Hoc检验,使用Holm校正
posthoc_results = posthoc_dunn(df, val_col='Values', group_col='Group', p_adjust='holm')

print("\nDunn's Test Results:")
print(posthoc_results)

运行上述代码,我们可能会得到如下Dunn's Test结果:

Kruskal-Wallis p-value: 0.038990

Dunn's Test Results:
          A         B         C
A  1.000000  0.359425  0.021871
B  0.359425  1.000000  0.359425
C  0.021871  0.359425  1.000000

在这个结果中,我们注意到比较A与B的p值(0.359425)与比较B与C的p值(0.359425)是完全相同的。这可能会让初学者感到困惑,误以为是计算错误。

3. 核心原理:Dunn's Test的秩次计算

实际上,这种p值对称性并非错误,而是Dunn's Test计算机制的直接体现。Dunn's Test是一种非参数检验,它不直接使用原始数据值进行计算,而是基于数据的秩次(ranks)。其核心原理如下:

  1. 数据排序与秩次分配: 首先,将所有组的数据合并,并对合并后的所有数据点进行排序(从小到大或从大到小),然后为每个数据点分配一个秩次。如果存在并列值,则分配平均秩次。
  2. 秩次和的比较: 接着,Dunn's Test会计算每个组内数据点的秩次和(或平均秩次)。
  3. 计算检验统计量: 最后,它通过比较不同组的秩次和(或平均秩次)来构建检验统计量,进而计算p值。

当数据集中的秩次模式具有某种对称性时,就会出现p值对称的现象。在上面的例子中,原始数据是[10, 15, 12] for A, [18, 20, 22] for B, [25, 28, 30] for C。如果我们将所有数据合并并排序,你会发现组A、B、C的数值是连续递增的,且每组内部的相对大小关系也保持一致。这种“秩次距离”的模式(例如,从A到B的秩次变化模式与从B到C的秩次变化模式相似)导致了计算出的p值相同。

存了个图
存了个图

视频图片解析/字幕/剪辑,视频高清保存/图片源图提取

下载

简单来说,Dunn's Test关心的是数据点的相对位置(秩次),而不是它们的绝对数值大小。如果两个不同的组对(如A vs B和B vs C)在秩次上的“距离”或差异模式是相同的,那么它们将产生相同的p值。

4. 通过改变秩次验证原理

为了进一步证明Dunn's Test是基于秩次而非原始值,我们可以修改数据集,使其原始值发生变化,但关键在于改变其秩次模式

import pandas as pd
from scipy.stats import kruskal
from scikit_posthocs import posthoc_dunn

# 修改后的数据集:交换了A组和B组的一个值,改变了秩次模式
data_modified = {
    'Group': ['A', 'A', 'A', 'B', 'B', 'B', 'C', 'C', 'C'],
    'Values': [10, 18, 12, 15, 20, 22, 25, 28, 30] # 原始A组的15与B组的18互换
}

df_modified = pd.DataFrame(data_modified)

# 执行Kruskal-Wallis检验
statistic, p_value_kruskal_modified = kruskal(df_modified[df_modified['Group'] == 'A']['Values'],
                                              df_modified[df_modified['Group'] == 'B']['Values'],
                                              df_modified[df_modified['Group'] == 'C']['Values'])

print(f"Modified Kruskal-Wallis p-value: {p_value_kruskal_modified:.6f}")

# 执行Dunn's Post Hoc检验,使用Holm校正
posthoc_results_modified = posthoc_dunn(df_modified, val_col='Values', group_col='Group', p_adjust='holm')

print("\nModified Dunn's Test Results:")
print(posthoc_results_modified)

运行上述修改后的代码,我们将得到不同的Dunn's Test结果:

Modified Kruskal-Wallis p-value: 0.038990

Modified Dunn's Test Results:
          A         B         C
A  1.000000  0.296718  0.033810
B  0.296718  1.000000  0.272074
C  0.033810  0.272074  1.000000

可以看到,在修改后的数据集中,A与B的p值(0.296718)与B与C的p值(0.272074)不再相同。这是因为我们通过交换两个值,改变了整体数据的秩次排列,进而改变了组间秩次模式的“距离”,导致了不同的p值。

进一步的例子: 即使原始数值的绝对差异非常大,只要它们的秩次模式与原始示例相同,Dunn's Test的结果也会与原始示例相同。例如,使用数据[0, 1, 2, 15, 20, 22, 250, 280, 300](分别属于A, B, C组),其秩次模式与初始示例完全一致,因此Dunn's Test也会返回与初始示例相同的p值对称结果。

5. 注意事项与总结

  • 非错误现象: Dunn's Test中出现的p值对称性并非软件错误或计算错误,而是其基于秩次计算的固有特性。
  • 理解秩次: 深入理解非参数检验(如Dunn's Test)是基于数据秩次而非原始数值进行计算,对于正确解释结果至关重要。
  • 数据模式的影响: 数据的排列顺序和秩次模式直接影响非参数检验的结果。当不同组对之间的秩次“距离”相似时,可能导致p值相同。
  • 适用场景: Dunn's Test适用于Kruskal-Wallis检验后,需要进行多重比较以确定具体哪些组之间存在显著差异的场景,尤其当数据不满足参数检验的假设时。

总之,Dunn's Post Hoc检验通过比较各组的秩次来评估差异。当观察到p值对称时,这通常意味着被比较的组对在整体数据中的秩次分布模式具有相似性。理解这一底层原理有助于研究者更准确地解读统计结果,避免不必要的困惑。

相关专题

更多
python开发工具
python开发工具

php中文网为大家提供各种python开发工具,好的开发工具,可帮助开发者攻克编程学习中的基础障碍,理解每一行源代码在程序执行时在计算机中的过程。php中文网还为大家带来python相关课程以及相关文章等内容,供大家免费下载使用。

727

2023.06.15

python打包成可执行文件
python打包成可执行文件

本专题为大家带来python打包成可执行文件相关的文章,大家可以免费的下载体验。

630

2023.07.20

python能做什么
python能做什么

python能做的有:可用于开发基于控制台的应用程序、多媒体部分开发、用于开发基于Web的应用程序、使用python处理数据、系统编程等等。本专题为大家提供python相关的各种文章、以及下载和课程。

747

2023.07.25

format在python中的用法
format在python中的用法

Python中的format是一种字符串格式化方法,用于将变量或值插入到字符串中的占位符位置。通过format方法,我们可以动态地构建字符串,使其包含不同值。php中文网给大家带来了相关的教程以及文章,欢迎大家前来阅读学习。

617

2023.07.31

python教程
python教程

Python已成为一门网红语言,即使是在非编程开发者当中,也掀起了一股学习的热潮。本专题为大家带来python教程的相关文章,大家可以免费体验学习。

1237

2023.08.03

python环境变量的配置
python环境变量的配置

Python是一种流行的编程语言,被广泛用于软件开发、数据分析和科学计算等领域。在安装Python之后,我们需要配置环境变量,以便在任何位置都能够访问Python的可执行文件。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

547

2023.08.04

python eval
python eval

eval函数是Python中一个非常强大的函数,它可以将字符串作为Python代码进行执行,实现动态编程的效果。然而,由于其潜在的安全风险和性能问题,需要谨慎使用。php中文网给大家带来了相关的教程以及文章,欢迎大家前来学习阅读。

576

2023.08.04

scratch和python区别
scratch和python区别

scratch和python的区别:1、scratch是一种专为初学者设计的图形化编程语言,python是一种文本编程语言;2、scratch使用的是基于积木的编程语法,python采用更加传统的文本编程语法等等。本专题为大家提供scratch和python相关的文章、下载、课程内容,供大家免费下载体验。

702

2023.08.11

php源码安装教程大全
php源码安装教程大全

本专题整合了php源码安装教程,阅读专题下面的文章了解更多详细内容。

194

2025.12.31

热门下载

更多
网站特效
/
网站源码
/
网站素材
/
前端模板

精品课程

更多
相关推荐
/
热门推荐
/
最新课程
最新Python教程 从入门到精通
最新Python教程 从入门到精通

共4课时 | 0.6万人学习

Django 教程
Django 教程

共28课时 | 2.7万人学习

SciPy 教程
SciPy 教程

共10课时 | 1.0万人学习

关于我们 免责申明 举报中心 意见反馈 讲师合作 广告合作 最新更新
php中文网:公益在线php培训,帮助PHP学习者快速成长!
关注服务号 技术交流群
PHP中文网订阅号
每天精选资源文章推送

Copyright 2014-2026 https://www.php.cn/ All Rights Reserved | php.cn | 湘ICP备2023035733号