近年可以看到愈来愈多的医学文献以「ROC curve」做为标题或关键词,常用的医学文献查询系统--MEDLINE已经把它列为「医学标题」(Medical Subject Heading)。放射线科医师使用ROC曲线分析计算机断层摄影术与核医扫描的诊断能力【1-4】,精神科医师用它来决定问卷的决策点【5】,泌尿科医师用它来检定前列腺专一抗体密度(PSA density)是否比前列腺专一抗体浓度(PSA concentration)更能诊断出前列腺癌【6】。1989年和1990年在MEDLINE中可以查到178篇以「ROC曲线」为标题的文献【7】,1994年略微减少,但仍可找到20篇。本文将对ROC曲线的基本概念加以介绍。
历史回顾
ROC曲线的全名为Receiver Operating Characteristic Curve,中文或可译为「接收器运作指针曲线」,这项技术起初是为了增进军事雷达的敌我侦测能力而发展的。举例而言:雷达接收的无线电波可能只是噪声,也可能是噪声加上真正的电磁波,如果把噪声判为敌机,或把敌机误判为噪声,都会使我方蒙受损失,因此选择一个合理的指标做为判断标准,显然是极具军事价值的。在1954年的情报理论研讨会上,哈佛大学的Meter及Middleton和密西根大学的Peterson、Birdsall及Fox同时提出了应用概算比(likelihood ratio)做为决策法则的报告【8】。随后,这项决策法则被整合为ROC曲线。
1971年,Lusted把ROC曲线的观念引介给医学界【9】。他指出ROC曲线是以「X轴与Y轴分别代表伪阳性诊断与真阳性诊断」的点状图【9】。
1973年,Simpson及Fitter提出以「ROC曲线下的面积」做为诊断工具分辨能力的指标【10】。根据此一理论,要了解一个诊断工具是否优于另一工具,只要比较两者「ROC曲线下的面积」就可以得到答案了。
1975年,Bamber【11】指出「ROC曲线下的面积」的意义。他认为这个面积(大于0,小于1的一个数字)代表「强迫二选一」(two-alternative-forced-choice, 2AFC)的情形下,诊断工具猜对有病者、无病者的机率。
1988年Hanley提出「ROC曲线下的面积」的计算方法【12】。
1983年Hanley及McNeil提出二条「ROC曲线下的面积」的统计检定方法【2】。 Centor在1991年的论文【7】中,对ROC曲线的发展有更详细的描述,有兴趣者可自行参考。
从阳性预测值到ROC曲线
在临床实务上,我们几乎不可能找到百分之百「正确」的诊断工具。一般认为可以做为「黄金标准」的长期追踪、组织切片检查、造影摄影术和尸体解剖【13】,除了最后一项外,也不是绝对正确。因此,「阳性预测值」、「阴性预测值」、「敏感度」、「精确度」、「概算比」等概念纷纷被提出来。医师较喜欢使用「阳性预测值」(或「阴性预测值」),因为这项指标是以具有某种检验结果的人数做为分母,以真实健康状态与检验结果相符的人数做为分子。医师如果知道某检验的阳性预测值是90﹪,他就可以告诉一个检验结果为阳性的人说:「你有90﹪的机会得了某病。」预测值的缺点是会受到盛行率的影响。如果甲、乙两医院的某病盛行率不同,这两家医院同一检验的阳性预测值也会不同。「敏感度」与「精确度」是以真实的健康状态人数为分母,以检验结果与该健康状态相符的人数做为分子,不会受到盛行率的影响,各医院同一检验的「敏感度」与「精确度」是相同的。而其缺点在于「敏感度」与「精确度」彼此之间有交换性,当诊断标准趋于严格时(检验为阳性的人数减少),「敏感度」会降低,但「精确度」会升高,例如:把血糖的「正常值」从140mg/dl提高到180mg/dl,敏感度的分母(真正的糖尿病患者人数)不变,但分子减少,所以敏感度会下降,而精确度则正好相反,因此这两个指标会随着「正常值」的改变而一升一降,我们无法由这两个指标中的任何一个知道最适当的「正常值」该定在那里。「阳性概算比」的定义是:「具有某一状态者被检验为阳性」的机率和「不具有某一状态者被检验为阳性」的机率之比值。因此「阳性概算比」就是真阳性率与伪阳性率的比值,由于真阳性率等于敏感度,伪阳性率等于一减去精确度,所以「阳性概算比」是整合敏感度与精确度的一个指标。不同的正常值就会产生不同的「阳性概算比」,当我们以一项检验工具,各个不同「正常值」下的「阳性概算比」的分母、分子画入X-Y坐标,即可得到一条以伪阳性率为X轴,真阳性率为Y轴的曲线,这条曲线即是ROC曲线。
ROC曲线的制成
假设图一的横轴代表某项检验的数值,纵轴代表人数比例(机率),h(x)代表无病者的分布曲线,d(x)代表有病者的分布曲线,hf(x)与d(x)底下的面积均为1(100%),且H(x)代表无病者的检验值小于或等于X的机率(即自负无限大至x之间h(x)的积分),D(x)代表有病者的检验值小或等于X的机率。
则 伪阳性率=1-H(x)..... (1)
真阳性率=1-D(x)..... (2)
(1-H(x),1-D(x))的点集合即构成图二的ROC曲线。
上述观念,也可以扩展到离散机率函数。假设某项检验的结果可以分为五级,有病组与无病组被分到各级的人数如表一,则以不同级为诊断标准时,即可得到如表二的敏感度与伪阳性率,根据表二的资料,即可得到图三的ROC曲线。
临床上可用的诊断工具,其ROC曲线是一条凸向左上方的曲线,而且愈偏离45度对角线愈好【14】。45度对角线(图二)被称为「无讯息线」(Line of no information),这条线代表诊断工具的诊断结果,对医师判断病人是否有病,没有提供任何有效的讯息,也就是说,做这项检验的效用和扔铜板(指正反面出现机率相等的铜板)决定有病、没病是一样的。因此,早期判断一项诊断工具是否可用的指针,就是ROC曲线偏离45度对角线多远。Peterson和Birdsall提出的d'指数【8】,Lusted所提的de'(敏感指标)【9】都是属于这方面的研究。
继敏感指标后,被提出的指针是「ROC曲线下的面积」,这面积是指在「强迫二选一」的情形下,猜对有病者、无病者的机率。「强迫二选一」是指从有病组中挑出一个人,再从无病组中挑出一人,做一项检验后,「必须」指出两人中那一个是有病者【1,7】。「ROC曲线下的面积」就代表诊断工具猜对的机率有多大。猜对的机率愈大代表诊断工具愈好。
读者若对于「ROC曲线下的面积」的计算及多条「ROC曲线下的面积」的统计检定有兴趣,可以进一步参考Hanley及McNeil所写的论文【1,2】。
Catalona等【6】的论文则是选定,每条ROC曲线最好的反折点来进行比较。因为有些医师觉得,临床上不必去考虑敏感度或精确度太差的情形,因此比较整条ROC曲线,在临床上是没有意义的。
选择反折点
ROC曲线的用处之一,是提供研究者找出一个较好的反折点(或正常值),使诊断工具的敏感度与精确度能有合理的平衡。
对一位求诊者而言,如果把有病误诊为无病,和把无病误诊为有病视为同样重要,这时的反折点应是使敏感度与精确度的和有最大值的检验值。这个最大值是Youden在1950年提出的。
如果h(x)与d(x)是平均值不同,变异数相同的两族群的常态分布曲线,则由图一可知:x=c*,使H(x)=1-D(x),这条线是图一中的-45度对角线,也就是说:(1-H(c*),1-D(c*))正好是ROC曲线与-45度对角线交点。但ROC曲线不是平滑曲线时,最好的反折点则不一定是(1-H(c*),1-D(c*))。Chong及Wilkinson【5】, Catalona【6】等的论文就是以这种方法选择反折点的。
Sox等提出了选择最佳反折点的另一种想法【15】。他们认为最好的反折点是与下列斜率直线相切的ROC曲线上的一点: 治疗无病者的净成本无病者盛行率
与ROC曲线相切之斜率: ------------------- × --------------
治疗有病者的净利润有病者盛行率 Sox等的观念比Yuden的观念更合理。但可能因为损益数据不易取得,而较少(或没有?)被采用。
计算机程序
Centor指出:Metz曾开发多种可用于微电脑的ROC曲线相关程序【7】。
我们曾为个人计算机使用者以SAS/PC写过可计算ROC曲线各点及找出Yuden index 最佳反折点的程序。应用我们的程序的研究者,必须确认他的每笔数据至少有检验值、真实健康状态及各真实健康状态的人数等项。
结语
在临床上,由于新的检验技术不断地推陈出新,如果这个新技术是以数字呈现检验结果,则必须订出一个「正常值」的范围,作为医疗人员解读的依据。而ROC曲线正是许多研究者用以决定「正常范围」的工具。因此了解ROC曲线的原理,将有助于临床医疗人员对各种检验数据的理解与诠释。
REFERENCES
1. Hanley JA, McNeil BJ: The meaning and use of the area under a receiver operating characteristic (ROC) curve. Radiology, 1982;143:29-36.
2. Hanley JA, McNeil BT: A method of comparing the areas under receiver operating characteristic curve derivedfrom the same cases. Radiology 1983;148:839-843
3. Swets JA, Pickett RM, Whitehead SF et al. Assessment of diagnostic technologies. Science 1979;205:753-759.
4. Somoza E, Mossman D: Comparing and optimizing diagnostic tests: an information-theoretical approach
5. Chong MY, Wilkinson G: Validation of 30-and 12-item versions of the Chinese health questionnaire(cHQ) in patient admitted for general health screening. Psychol Med 1989;19:495-505.
6. Catalona WJ, Richie JP, deKernion JB et al: Comparison of prostate specific antigen concentration versus prostate specific antigen density in the early detection of prostate cancer: receiver operation characteristic curves. J Urol 1994;152:2031-2036.
7. Centor: Signal detectability: the use of ROC curves and their analyses. Med Decis Making 1991; 11:102-106.
8. Swets JA: The relative operating characteristic in psychology-- a technique or isolating effects of response bias finds wide use in the study of perception and cognition. Science 1973;182:990-1000.
9. Lusted LB: Signal detectability and medical decision-making. Science 1971;171:1217-9.
10. Simpson AJ, Fitter MJ: What is the best index of detectability?Psychol Bull 1973;80:481-8.
11. Bamber D: The area above the ordinal dominance graph and the area below the receiver operating characteristic graph. J Math Psych 1975;12:387-415.
12. Hanley JA: The robustness of the "binominal" assumptions used in fitting ROC curves. Med Decis Making 1988;8:197-203.
13. Fletcher RH, Flether SW, Wagner EH: Clinical epidemiology. Baltimore: Williams & Wilkins 1988; 2nd:43-45.
14. Murphy JM, Berwick DM, Weinstein MC: Performance of screening and diagnostic tests. Arch Gen Psychiatry 1987;44:550-555.
15. Sox HC, Blatt MA, Higgins MC et al: Medical decision making. singapore: PE Publishing Pte Ltd. 1990;1st ed:134-138.
| < 上页 | 下页 > |
|---|

