3.3 Factores de riesgo para el cáncer de cuello uterino (Clasificación)

El conjunto de datos sobre el cáncer cervical contiene indicadores y factores de riesgo para predecir si una mujer tendrá cáncer cervical. Las características incluyen datos demográficos (como edad), estilo de vida e historial médico. Los datos se pueden descargar desde el repositorio de UCI Machine Learning y Fernandes, Cardoso y Fernandes lo describen. (2017)¹⁵.

El subconjunto de características utilizadas en los ejemplos del libro son:

Edad en años
Número de parejas sexuales
Primera relación sexual (edad en años)
Número de embarazos
Fumar o no
Años fumando
Anticonceptivos hormonales si o no
Anticonceptivos hormonales (en años)
Dispositivo intrauterino sí o no (DIU)
Número de años con un dispositivo intrauterino (DIU)
¿Ha tenido alguna vez una enfermedad de transmisión sexual (ETS) sí o no?
Número de diagnósticos de ETS
Tiempo desde el primer diagnóstico de ETS
Tiempo desde el último diagnóstico de ETS
La biopsia resulta “Saludable” o “Cáncer”. Objetivo de clasificación.

La biopsia sirve como estándar para diagnosticar el cáncer cervical. Para los ejemplos en este libro, el resultado de la biopsia se utilizó como objetivo. Los valores faltantes para cada columna fueron imputados por la moda (valor más frecuente), que probablemente sea una mala solución, ya que la respuesta verdadera podría estar correlacionada con la probabilidad de que falte un valor. Probablemente hay un sesgo porque las preguntas son de naturaleza muy privada. Pero este no es un libro sobre la imputación de datos faltantes, por lo que la imputación por la moda tendrá que ser suficiente para los ejemplos.

Para reproducir los ejemplos de este libro con este conjunto de datos, busque el script R de preprocesamiento y el archivo RData final en el repositorio de Github del libro.

Fernandes, Kelwin, Jaime S Cardoso, and Jessica Fernandes. “Transfer learning with partial observability applied to cervical cancer screening.” In Iberian Conference on Pattern Recognition and Image Analysis, 243–50. Springer. (2017).↩