Jornal Vascular Brasileiro
https://www.jvascbras.org/article/doi/10.1590/1677-5449.200186
Jornal Vascular Brasileiro
Editorial

Aplicações da curva ROC em estudos clínicos e experimentais

Use of ROC curves in clinical and experimental studies

Tatiana Cristina Figueira Polo; Hélio Amante Miot

Downloads: 2
Views: 200


Tanto as decisões da prática clínica como a operacionalização da pesquisa dependem de definições precisas e objetivas dos fenômenos ou dos desfechos (p. ex., doente vs. saudável, grave vs. leve, operável vs. inoperável). Entretanto, nem sempre essa classificação é direta ou inequívoca, podendo necessitar de elementos secundários para a categorização. Muitas condições, ainda, apresentam diferentes sistemas de diagnósticos, como diabetes mellitus (glicemia de jejum vs. teste oral de tolerância à glicose), isquemia crítica (parâmetro clínico vs. percentual de obstrução arterial) ou depressão (critérios DSM V vs. escala de Beck), o que repercute em diferentes sensibilidades e especificidades para cada classificação1-3.

Na verdade, na maior parte dos casos, os critérios utilizados para a classificação de desfechos não são completamente preditivos, levando à categorização incorreta de uma fração de doentes (falsos negativos) ou de indivíduos saudáveis (falsos positivos), tornando importante a comparação da eficiência dos sistemas classificatórios empregados.

Há uma série de estimadores estatísticos que são empregados na análise do desempenho de modelos classificatórios, e um dos mais utilizados é a curva ROC (receiver operating characteristic), que consiste em uma representação gráfica da performance de um modelo de dados quantitativos segundo sua taxa de sensibilidade (fração dos verdadeiros positivos) e a fração dos falsos positivos (1-especificidade), segundo diferentes valores do teste4,5. Sistemas classificatórios baseados em sintomas clínicos, escalas diagnósticas, achados radiológicos, dosagens de substâncias e, principalmente, escolha de pontos de corte para otimizar o desempenho de exames diagnósticos são as indicações mais usuais das curvas ROC6-11.

A Figura 1A exemplifica a representação de um exame de alta sensibilidade e alta especificidade para a classificação diagnóstica. Um teste hipotético (teste 1) apresenta duas curvas de distribuição de resultados para doentes e saudáveis. O ponto A1 representa o valor com melhor desempenho, considerado taxas de falsos positivos e falsos negativos (ponto de máxima entropia). O ponto A2 apresenta a maior especificidade, pois os valores superiores a ele não classificam nenhum falso negativo. Já o ponto A3 apresenta a maior sensibilidade, e os valores inferiores a ele não classificam nenhum falso positivo. Um exemplo de teste com essa performance é o dúplex de carótida, com alta preditividade de seus achados para estenose de carótida12.

A) Representação das curvas de distribuição de resultados para um teste hipotético que visa classificar pacientes como doentes ou saudáveis. B) Curva ROC dos resultados do teste 1 segundo sua sensibilidade e taxa de falsos positivos. O ponto A1 representa o valor do teste (ponto de corte) com maiores sensibilidade e especificidade (maior proximidade do canto superior esquerdo do gráfico). O ponto A2 representa o valor do teste a partir do qual se atinge a máxima sensibilidade (ausência de falsos positivos). O ponto A3 é o valor de máxima especificidade, abaixo do qual não deve haver falsos negativos.: A curva ROC do teste 1 (Figura 1B) possibilita acompanhar a variação da sensibilidade e da especificidade à medida que evoluem os pontos de corte, permitindo identificar facilmente os pontos A1, A2 e A3. À medida que se escolhe um ponto de corte com maior sensibilidade, necessariamente, se penitencia a classificação diagnóstica por sua menor especificidade e vice-versa.

Quanto mais a curva ROC se aproxima do canto superior esquerdo, melhor é a qualidade do teste quanto à capacidade para discriminar os grupos. Ainda, a linha de referência diagonal da curva ROC representa uma região de completa aleatoriedade do teste, incapaz de classificar tanto doentes como saudáveis (sensibilidade = especificidade).

É também possível comparar o desempenho de dois ou mais modelos classificatórios (ou exames diagnósticos), simultaneamente, a partir de suas curvas ROC. A Figura 2 acrescenta dois outros testes (testes 2 e 3) para classificar doentes e saudáveis. As curvas dos resultados do teste 2 (Figura 2A) mostram certa sobreposição entre os valores dos casos e controles, porém, apresentam um bom desempenho para valores baixos (alta sensibilidade). Um exemplo de exame com esse comportamento é a dosagem do dímero-D para o diagnóstico da trombose venosa profunda: valores muito baixos excluem o diagnóstico com segurança, enquanto valores altos exigem comprovação adicional (risco de falsos positivos)13.

A e B) Representação das curvas de distribuição de resultados para testes (testes 2 e 3) que visam classificar pacientes como doentes ou saudáveis. C) Curva ROC dos resultados dos Testes 1, 2 e 3 segundo as suas sensibilidades e taxas de falso-positivos.: O teste 3 (Figura 2B), por outro lado, classifica adequadamente os doentes (alta especificidade), mas é comprometido pela possibilidade de inclusão de falsos negativos. Um exemplo de exame com esse comportamento é o índice tornozelo-braquial, que apresenta grande preditividade de desfechos cardiovasculares quando seus resultados estão alterados, mas resultados normais não afastam o risco14. As curvas ROC dos testes 1, 2 e 3 (Figura 2C) permitem evidenciar, simultaneamente, os valores para os quais existe maior otimização da sensibilidade em função da especificidade.

Além da análise dos pontos da curva propriamente dita, é possível utilizar um indicador de dimensão do efeito para as curvas ROC. O mais empregado é a área sob a curva [area under the curve (AUC)]. A AUC é o resultado da integração de todos os pontos durante o trajeto da curva, e computa simultaneamente a sensibilidade e a especificidade, sendo um estimador do comportamento da acurácia global do teste15. A AUC fornece uma estimativa da probabilidade de classificação correta de um sujeito ao acaso (acurácia do teste); uma AUC de 0,7 reflete uma chance de classificação correta de 70% do caso. De forma geral, os valores da AUC são interpretados como: 0,5-0,6 (péssimo), 0,6-0,7 (ruim), 0,7-0,8 (pobre), 0,8-0,9 (bom), > 0,9 (excelente)5. Há diferentes algoritmos para calcular a AUC: quando a curva ROC tem trajeto curvilíneo simétrico e suave (p.ex., Figura 1B), pode-se empregar a estimativa paramétrica; por outro lado, quando a curva apresenta “degraus” e assimetrias, deve-se optar pelo método não-paramétrico, que é mais usual em experimentos biomédicos.

Tanto os pontos de sensibilidade e especificidade como a estimativa da AUC possuem propriedades inferenciais cujos erros-padrão dependem das suas dimensões do efeito e do tamanho da amostra. As estatísticas da AUC devem ser referidas, portanto, segundo seu intervalo de confiança de 95%, permitindo sua comparação com a hipótese nula, de AUC = 0,515.

Na Figura 2C, pode-se observar que o teste 1 apresenta melhor desempenho global, e a sua AUC é de 0,96 [intervalo de confiança (IC) 95% 0,95-0,97; p < 0,01]. Já para o teste 2, a AUC é de 0,77 (IC 95% 0,75-0,79; p < 0,05); e, no teste 3, a AUC é de 0,87 (IC 95% 0,85-0,89; p < 0,05).

Há diversas circunstâncias em que um teste pode ser optado por sua alta sensibilidade, mesmo com menor especificidade (ou vice-versa), desde que sejam mais baratos ou disponíveis, como ocorre com os testes rápidos para triagem do HIV16. No caso dos testes 2 e 3, eles atingem alta sensibilidade ou especificidade a partir de certos valores de corte, apesar de não apresentarem comportamento global superior ao teste 15. Por esse motivo, o pesquisador deve estar atento para não generalizar unicamente o valor de AUC como a utilidade do teste. Nessas situações, é possível, inclusive, calcular o valor parcial da AUC, dentro de uma faixa de valores do teste, o que maximiza a comparação de diferentes metodologias classificatórias. Entretanto, essa análise ultrapassa o escopo deste texto17-20.

A construção de uma curva ROC não depende de que os dados apresentem distribuição normal e não é substancialmente afetada pela assimetria amostral de casos positivos ou negativos. Entretanto, depende fundamentalmente da inequívoca classificação a priori de casos e controles, geralmente a partir de um exame padrão-ouro para o diagnóstico (p.ex., autópsia ou anatomopatologia)5,21,22. A estimativa do tamanho de amostra de estudos que utilizem curvas ROC depende principalmente dos erros tipo I, II (poder) e da AUC estimada para cada teste23,24. O tamanho amostral e as principais características de curvas ROC podem ser estimados on-line a partir do site easyROC (http://www.biosoft.hacettepe.edu.tr/easyROC/)23,25.

O emprego das curvas ROC foi estendido para a avaliação do desempenho de modelos multivariados para diagnósticos, prognósticos, aprendizado de máquinas (p.ex., reconhecimento de imagens ou de voz) e mineração de dados. Recentemente, Amato et al.26 conduziram um estudo transversal que utilizou informações clínicas e um banco de imagens de 110 pacientes submetidos a angiotomografias de aorta para prever a identificação da artéria de Adamkiewicz. A partir da análise multivariada, foi criado um modelo de predição cuja discriminação foi avaliada pela curva ROC, permitindo a correta identificação em 61% dos pacientes a partir da combinação de nove covariáveis.

É possível ainda se utilizar curvas ROC para representar classificações ordinais (p.ex., leve, moderado e grave; estágio I-IV; intensidade 0 a 4+) ao invés de binárias27, para duas ou mais classificações simultâneas (ROC surface)28-30, assim como se pode ajustar o resultado de curvas ROC para outras covariáveis a partir de modelos multivariados (p.ex., regressão logística múltipla)31. Esses procedimentos, no entanto, demandam a assistência de um estatístico experiente.

Finalmente, as curvas ROC são alternativas bastante robustas e intuitivas para a descrição e comparação de modelos classificatórios, além de subsidiar a escolha de pontos de corte para otimizar a categorização de um fenômeno. Seu emprego na pesquisa exige descrição precisa na metodologia quanto aos parâmetros de uso.

References

1 Forkmann T, Vehren T, Boecker M, Norra C, Wirtz M, Gauggel S. Sensitivity and specificity of the Beck Depression Inventory in cardiologic inpatients: How useful is the conventional cut-off score? J Psychosom Res. 2009;67(4):347-52. http://dx.doi.org/10.1016/j.jpsychores.2009.04.003. PMid:19773028.

2 Rodríguez-Morán M, Guerrero-Romero F. Fasting plasma glucose diagnostic criterion, proposed by the American Diabetes Association, has low sensitivity for diagnoses of diabetes in Mexican population. J Diabetes Complications. 2001;15(4):171-3. http://dx.doi.org/10.1016/S1056-8727(01)00150-7. PMid:11457667.

3 De Los Monteros AE, Parra A, Hidalgo R, Zambrana M. The after breakfast 50-g, 1-hour glucose challenge test in urban Mexican pregnant women: its sensitivity and specificity evaluated by three diagnostic criteria for gestational diabetes mellitus. Acta Obstet Gynecol Scand. 1999;78(4):294-8. http://dx.doi.org/10.1034/j.1600-0412.1999.780404.x. PMid:10203295.

4 Hoo ZH, Candlish J, Teare D. What is an ROC curve? Emerg Med J. 2017;34(6):357-9. http://dx.doi.org/10.1136/emermed-2017-206735. PMid:28302644.

5 Metz CE. Basic principles of ROC analysis. Semin Nucl Med. 1978;8(4):283-98. http://dx.doi.org/10.1016/S0001-2998(78)80014-2. PMid:112681.

6 Corey D, Chang CK, Cembrowski GS. Disheartened: need ROC curve. Am J Clin Pathol. 1984;81(4):542-4. http://dx.doi.org/10.1093/ajcp/81.4.542b. PMid:6702761.

7 Barraclough K. Diagnosis: shifting the ROC curve. Br J Gen Pract. 2012;62(602):452-3. http://dx.doi.org/10.3399/bjgp12X653796. PMid:22947554.

8 Sherwood EM, Bartels PH, Wied GL. Feature selection in cell image analysis: use of the ROC curve. Acta Cytol. 1976;20(3):255-61. PMid:775870.

9 Kumar R, Indrayan A. Receiver operating characteristic (ROC) curve for medical researchers. Indian Pediatr. 2011;48(4):277-87. http://dx.doi.org/10.1007/s13312-011-0055-4. PMid:21532099.

10 Park SH, Goo JM, Jo CH. Receiver operating characteristic (ROC) curve: practical review for radiologists. Korean J Radiol. 2004;5(1):11-8. http://dx.doi.org/10.3348/kjr.2004.5.1.11. PMid:15064554.

11 Wei RJ, Li TY, Yang XC, Jia N, Yang XL, Song HB. Serum levels of PSA, ALP, ICTP, and BSP in prostate cancer patients and the significance of ROC curve in the diagnosis of prostate cancer bone metastases. Genet Mol Res. 2016;15(2):15. http://dx.doi.org/10.4238/gmr.15027707. PMid:27323113.

12 Jahromi AS, Cina CS, Liu Y, Clase CM. Sensitivity and specificity of color duplex ultrasound measurement in the estimation of internal carotid artery stenosis: A systematic review and meta-analysis. J Vasc Surg. 2005;41(6):962-72. http://dx.doi.org/10.1016/j.jvs.2005.02.044. PMid:15944595.

13 Stein PD, Hull RD, Patel KC, et al. D-dimer for the exclusion of acute venous thrombosis and pulmonary embolism: a systematic review. Ann Intern Med. 2004;140(8):589-602. http://dx.doi.org/10.7326/0003-4819-140-8-200404200-00005. PMid:15096330.

14 Doobay AV, Anand SS. Sensitivity and specificity of the ankle-brachial index to predict future cardiovascular outcomes: a systematic review. Arterioscler Thromb Vasc Biol. 2005;25(7):1463-9. http://dx.doi.org/10.1161/01.ATV.0000168911.78624.b7. PMid:15879302.

15 Hanley JA. Receiver operating characteristic (ROC) methodology: the state of the art. Crit Rev Diagn Imaging. 1989;29(3):307-35. PMid:2667567.

16 Koblavi-Deme S, Maurice C, Yavo D, et al. Sensitivity and specificity of human immunodeficiency virus rapid serologic assays and testing algorithms in an antenatal clinic in Abidjan, Ivory Coast. J Clin Microbiol. 2001;39(5):1808-12. http://dx.doi.org/10.1128/JCM.39.5.1808-1812.2001. PMid:11325995.

17 Hsu MJ, Chang YC, Hsueh HM. Biomarker selection for medical diagnosis using the partial area under the ROC curve. BMC Res Notes. 2014;7(1):25. http://dx.doi.org/10.1186/1756-0500-7-25. PMid:24410929.

18 Ma H, Bandos AI, Rockette HE, Gur D. On use of partial area under the ROC curve for evaluation of diagnostic performance. Stat Med. 2013;32(20):3449-58. http://dx.doi.org/10.1002/sim.5777. PMid:23508757.

19 Walter SD. The partial area under the summary ROC curve. Stat Med. 2005;24(13):2025-40. http://dx.doi.org/10.1002/sim.2103. PMid:15900606.

20 McClish DK. Analyzing a portion of the ROC curve. Med Decis Making. 1989;9(3):190-5. http://dx.doi.org/10.1177/0272989X8900900307. PMid:2668680.

21 Miot HA. Assessing normality of data in clinical and experimental trials. J Vasc Bras. 2017;16:88-91. http://dx.doi.org/10.1590/1677-5449.041117. PMid:29930631.

22 Miot HA. Agreement analysis in clinical and experimental trials. J Vasc Bras. 2016;15:89-92. http://dx.doi.org/10.1590/1677-5449.004216. PMid:29930571.

23 Kawada T. Sample size in receiver-operating characteristic (ROC) curve analysis. Circ J. 2012;76(3):768. http://dx.doi.org/10.1253/circj.CJ-11-1408. PMid:22251753.

24 Hanley JA, McNeil BJ. A method of comparing the areas under receiver operating characteristic curves derived from the same cases. Radiology. 1983;148(3):839-43. http://dx.doi.org/10.1148/radiology.148.3.6878708. PMid:6878708.

25 Goksuluk D, Korkmaz S, Zararsiz G, Karaagaoglu AE. easyROC: An interactive web-tool for ROC curve analysis using R language environment. R J. 2016;8(2):213-30. http://dx.doi.org/10.32614/RJ-2016-042.

26 Amato ACM, Parga Filho JR, Stolf NAG. Development of a clinical model to predict the likelihood of identification of the Adamkiewicz artery by angiotomography. J Vasc Bras. 2018;17:19-25. http://dx.doi.org/10.1590/1677-5449.006317. PMid:29930677.

27 Miot HA. Analysis of ordinal data in clinical and experimental studies. J Vasc Bras. 2020;19: e20200185. https://doi.org/10.1590/1677-5449.200185.

28 Yang H, Carlin D. ROC surface: A generalization of ROC curve analysis. J Biopharm Stat. 2000;10(2):183-96. http://dx.doi.org/10.1081/BIP-100101021. PMid:10803724.

29 Ramos PM, Gumieiro JH, Miot HA. Association between ear creases and peripheral arterial disease. Clinics (São Paulo). 2010;65(12):1325-7. http://dx.doi.org/10.1590/S1807-59322010001200016. PMid:21340222.

30 Miot HA, Medeiros LMd, Siqueira CRS, et al. Association between coronary artery disease and the diagonal earlobe and preauricular creases in men. An Bras Dermatol. 2006;81:29-33. http://dx.doi.org/10.1590/S0365-05962006000100003.

31 Schisterman EF, Faraggi D, Reiser B. Adjusting the generalized ROC curve for covariates. Stat Med. 2004;23(21):3319-31. http://dx.doi.org/10.1002/sim.1908. PMid:15490426.
 


Submitted date:
09/23/2020

Accepted date:
09/25/2020

5fcf7a590e88257b594ac229 jvb Articles

J Vasc Bras

Share this page
Page Sections