频率 (统计学)

统计学里,一事件频率,可以表示为,是在实验中观测到事件的次数与总实验次数的比值[1]。例如在掷骰子100次的随机实验中,有16次掷出6点,则在该实验中,“掷出6点”事件的频率为0.16。

事件频数(或次数),即为实验中观测到事件的次数[1][2]

实务上,常会将各事件的频率用图表或是表格方式表示。

种类

累计频率(cumulative frequency)是事件经排序后,在特定点以下之事件的频率总和。[3]

可以将所有事件的频率 绘出,即为频率分布(frequency distribution)。

频率分布

美国2000年通勤所需时间的直方图
条形图,其中以国家为分类变量
水平3D条形图
世界各国人口分布的圆饼图
各种描绘频率分布的方法

频率分布(frequency distribution)可以呈现一个分为各互斥分组资料的情形,以及各组的数量。这是呈现未组织资料(例如选举结果、某区域的的人口收入、毕业生助学贷款金额)的方式。呈现频率分布的图表有直方图条形图折线图圆饼图。频率分布可以用在量化和质化的资料。

建构频率分布

  1. 决定分组组数。若统计的是量化的资料,需要决定分组的组数。组数太多或是太少会无法呈现资料的特性,也有可能很难依该组数来进行分组和分析。理想的分组组数可以参考: (log是以10为基底),或是依直方图的“方根公式” ,其中n是资料的总数(若是像人口资料的统计,用后者会分太多组)。不过这些公式只是作为参,还是需要依实际情形作调整。
  2. 用资料最大值和最小值计算资料全距(全距=最大值 – 最小值)。全距会用来决定每一组的宽度。
  3. 决定每一组的宽度,以h来表示,公式为 (假设每一组的宽度都相同)。

一般来说每一组的宽度会相同。所有的组总和需要从数据中的最小值到最大值都包括在内。在频率分布上一般会倾向使用相同的组宽,不过有些时候使用不同的组宽(例如使用对数区问),才能完整的看到数据的资讯,避免有许多区间没有资料,或是只有极少量资料的情形[4]

  1. 决定第一组的下限。一般会小于或等于最小值。
  2. 每观测一个资料,就在其对应的分组加上一个记号,直到所有的资料都记录完为止。
  3. 依需求计算频率、相对频率、累计频率等资讯。

以下是一些常用来呈现频率分布的图表[5]

直方图

直方图是用相邻的长方形呈现频率分布情形的图表,每一个长方形对应某一区间内的事件,其长方形的高度会对应此区间内的频率密度(频率除以区间宽度),因此长方形面积即对应其频率。直方图的总面积即为资料的笔数。也可以用直方图显示标准化后的相对频率,可以呈现各分类下的比例,总面积对应1。一般来说会将分类划分为数个连续不重叠的区间,各区间多半是等宽度的[6]。绘图时会将直方图的各长方形绘成是相邻的,以表示其原始变数的连续性[7]

条形图

条形图(bar chart、bar graph)是用长方形的长度表示变量的统计图表。长方形长条可以水平放置,也可以垂直放置。

频率分布表

频率分布表是用表格表示抽样中一个或是多个变数的情形。表格的每一横行是某个特殊分组或是区间出现的频率或是次数,这个表可以总结抽样中的统计分布。

以下是一个单变数的频率表,会列出问卷每一种回应的频率。

排名 同意程度 频数 频率
1 强烈同意 22 0.216
2 有些同意 30 0.294
3 不确定 20 0.196
4 有些不同意 15 0.147
5 强烈不同意 15 0.147

以下是班上学生的身高的频率表

身高范围 学生人数 累计数量
小于 5.0 英尺 25 25
5.0-5.5 英尺 35 60
5.5-6.0 英尺 20 80
6.0-6.5 英尺 20 100

联合频率分布

诠释

频率论英语Frequentist probability(Frequentist probability)诠释的概率下,会假设随着样本数量的一直增加,特定事件出现的比率最终会接近一个定值,称为有限相对频率(limiting relative frequency)[8][9]

此一诠释和贝氏几率的结论相反。频率学派(frequentist)一词最早是由Maurice Kendall英语Maurice Kendall在1949年开始使用,和Bayesian相对(Maurice称为是非频率学派,non-frequentists)[10][11]。他观察到

3....我们可以大致区分两种主要的态度。一种将概率视为是“理性信念的程度”,或是其他类似的概念...另一种将概率定义成某事件发生的频率,或是在整体中的相对比例(p. 101)
...
12. 可能会有人认为,频率学派和非频率学派(若我这样称呼那些人的话)的差异主要是因为个自声称涵盖领域的不同(p. 104)
...
我断言不是这样的 ... 我认为,频率学派和非频率学派本质上的差异是,前者为了避免任何观点问题,用客观的特性(可能是真的,也可能是假想的)来定义概率,而后者就不然

应用

处理和操作表格化的事件频率资讯,比处理原始资料会简单多了。有简单的算法可以根据表格计算中位数、平均、标准差等。

假说检定可以用来评估二个频率分布的差异和类似性。评估包括量测集中趋势,像是平均数中位数,也会评估离散程度,像是标准差方差

若频率分布的平均和中位数有显著差异,会称为频率分布具有偏度,另一种说法则是非对称。频率分布的峰度是量测在频率分布两侧的量在总量中的比例。若其分布比常态分布要分散,则称为高狭峰(leptokurtic),反之,则为低狭峰(platykurtic)。

字母频率分布可以用在频率分析上,用以破解密码,也可以用来比较不同语言之间(例如希腊文、拉丁文)的字母相对频率。

相关条目

参考资料

  1. ^ 1.0 1.1 茆诗松,程依明,濮晓龙.概率论与数理统计教程 [M]. 3版.北京:高等教育出版社, 2019 (2022): 13-14. 978-7-04-051148-2.
  2. ^ 频数 [DB/OL] [2024] // 陈至立辞海. 7版网络版.上海:上海辞书出版社, 2020.
  3. ^ Kenney, J. F.; Keeping, E. S. Mathematics of Statistics, Part 1 3rd. Princeton, NJ: Van Nostrand Reinhold. 1962: 17–19. 
  4. ^ Manikandan, S. Frequency distribution. Journal of Pharmacology & Pharmacotherapeutics. 1 January 2011, 2 (1): 54–55. ISSN 0976-500X. PMC 3117575 . PMID 21701652. doi:10.4103/0976-500X.77120 . 
  5. ^ Carlson, K. and Winquist, J. (2014) An Introduction to Statistics. SAGE Publications, Inc. Chapter 1: Introduction to Statistics and Frequency Distributions
  6. ^ Howitt, D. and Cramer, D. (2008) Statistics in Psychology. Prentice Hall
  7. ^ Charles Stangor (2011) "Research Methods For The Behavioral Sciences". Wadsworth, Cengage Learning. ISBN 9780840031976.
  8. ^ von Mises, Richard (1939) Probability, Statistics, and Truth (in German) (English translation, 1981: Dover Publications; 2 Revised edition. ISBN 0486242145) (p.14)
  9. ^ The Frequency theory Chapter 5; discussed in Donald Gilles, Philosophical theories of probability (2000), Psychology Press. ISBN 9780415182751 , p. 88.
  10. ^ Earliest Known Uses of Some of the Words of Probability & Statistics
  11. ^ Kendall, Maurice George. On the Reconciliation of Theories of Probability. Biometrika (Biometrika Trust). 1949, 36 (1/2): 101–116. JSTOR 2332534. doi:10.1093/biomet/36.1-2.101.