DIAGNOSTICO DE CANCER DE MAMA MEDIANTE REDES BAYESIANAS junio 1, 2010
Posted by fdquinones in Uncategorized.trackback
DIAGNOSIS OF BREAST CANCER USING BAYESIAN NETWORKS
Felipe Quiñones *
Mayo 2010
RESUMEN
La era de la información ha servido como potenciadora de la evolución a muchas disciplinas, entre ellas la medicina moderna, la cual ha hecho uso de técnicas computacionales para abarcar aspectos de diagnóstico, tratamientos, etc. En el campo del cáncer de mama, ha servido para la resolución de problemas basados en diagnóstico de imágenes (mamografías), haciendo uso de técnicas formales de inteligencia artificial y siguiendo modelos probabilísticos. En el presente artículo se aborda los aspectos necesarios para llegar a entender la importancia de diagnosticarel cáncer de mama en base a atributos y factores, con la ayuda de un agente clasificador, así como los aspectos de diseño de modelos probabilísticos, herramientas, y el dataset necesario para lograr el entrenamiento y adecuada clasificación para el diagnóstico.
Palabras Clave:
Redes Bayesianas, Diagnóstico, Cáncer de mama, Agente inteligente, modelo probabilístico, clasificador, AODE.
ABSTRACT
The information age has served as an enhancer of developments in many disciplines, including modern medicine, which has made use of computational techniques to include aspects of diagnosis, treatments, etc.. In the field of breast cancer, has been used to solve problems based on diagnostic imaging (mammography), using artificial intelligence techniques following formal probabilistic models. This article addresses the aspects necessary for understanding the importance of diagnosing breast cancer based on attributes and factors, with the help of an agent classifier, as well as the design aspects of probabilistic models, tools, and dataset necessary to achieve adequate training and classification for the diagnostic.
INTRODUCCIÓN
El cáncer de mama es uno de los principales objetos de estudio para la medicina por ser uno de los tipos de cáncer malignos más frecuentemente detectados en las mujeres del mundo. Es el segundo tipo de cáncer con mayor cantidad de muertos (después del cáncer de pulmón) entre las mujeres de todas las edades, y lidera la causa de muerte por cáncer en las mujeres entre 40 y 59 años [1].
Varios estudios han aportado a la predicción del pronóstico del cáncer de mama mediante técnicas de minería de datos. Burke [2] por ejemplo construyó un modelo de red neuronal artificial (RNA) utilizando variables TNM (tumor, nodo, metástasis), variables demográficas y anatómicas para la predicción de supervivencia a 10 años de cáncer de mama cáncer. Utilizaron 6.787 casos de Vigilancia del”Instituto Nacional del Cáncer, Epidemiología y Resultados Finales”(SEER) durante los años (1977-1982). El modelo de RNA alcanzó una exactitud de predicción superior de 73,0%, en comparación con la de 69,2% para el sistema TNMstaging.
Choi por otra parte [3] construyó un modelo de RNA para la detección del cáncer de mama con 1.143 sujetos de Corea (272 como caso, 871 como control). El rendimiento de clasificación del modelo fue de 0,76, la sensibilidad y especificidad 0,72 0,7.
Lee [4]usó diversas técnicas de comparación de modelos predictivos para predecir la ocurrencia de cáncer de mama (no un pronóstico), utilizando datos obtenidos de Corea a partir de 209 sujetos (109 pacientes y 100 controles). El modelo de NaiveBayes propuesto tuvo una ABC (área bajo la curva) de 0,90, y superó a otras redes bayesianas (RBs) diferentes y sus modelos de regresión (o models19).
Lundin[5] ha hecho uso de regresión logística y modelos de comparaciónNaivebayes para la estimación de la supervivencia en el cáncer de mama con 951 casos. Usó ocho variables como entrada para la red, incluyendo el tamaño del tumor, los ganglios axilares, tipo histológico, el recuento de mitosis, pleomorfismo nuclear, formación de túbulos, la necrosis del tumor y la edad. La ABC de la RNA fue 0,909 y que la regresión logística de 0,879.
Delen [6]hizo una comparación de RNA, árboles de decisiones,RBs y técnicas de regresión logísticas para la estimación de la supervivencia del cáncer de mama utilizando los datos del SEER entre los años (1973-2000). Veinte variables fueron utilizadas en los modelos de predicción. La RB, el árbol de decisión y la RNA fueron superiores a la regresión logística (con una precisión: 97,2 %, 93,6%, 91,2% y 89,2%, respectivamente).
-
PLANTEAMIENTO
Los pacientes de SOLCAnúcleo de Loja son en su inmensa mayoría referidos con diagnóstico presuntivo o confirmado de diversos tipos de cáncer. En la mayoría de los casos los estadios del cáncer son avanzados por lo que poco o nada ya se puede hacer, deriva de ello la necesidad desarrollar un agente que basado en atributos y métodos probabilísticos que sea capaz de realizar un diagnóstico.
El presente proyecto va de la mano con la publicación de Román [7] como partedel plan piloto planteado para brindar una solución de diagnóstico a nivel de Cáncer de mama, se debe tomar para ello cada uno de los factores médicos de la mujer, junto con modelos probabilísticos.
El software debe servir de alerta y determinar si una mujer, de acuerdo a factores como edad, menopausia, datos genéticos y datos de mama, padece o no de cáncer de mama
-
Situación General del Cáncer de Mama
En América Latina y el Caribe casi 300 000 mujeres mueren anualmente por esta enfermedad, en otras palabras, esta neoplasia causa la muerte de 83 mujeres por día. La mamografía que puede reducir la mortalidad hasta un 23% en mujeres de 50 o más años de edad, pero que no es un estudio fácil de aplicar en muchas regiones de bajo desarrollo tecnológico.
Por lo expuesto anteriormente y debido a la ineficacia del auto-examen (por los índices de mortalidad invariables) es necesario considerar la adopción de modelos de diagnósticos asistidos por computadora.
-
ASPECTOS TEORICOS
- Redes Bayesianas
- Redes Bayesianas
Una red bayesiana es un grafo acíclico dirigido y anotado que describe la distribución de probabilidad conjunta que gobierna un conjunto de variables aleatorias.
Sea [7]U = {X1, X2, …, Xn} un conjunto de variables aleatorias.
Formalmente, una red Bayesiana para U es un par B = <G, T>en el que:
-
G es un grafo acíclico dirigido en el que cada nodo representa una de las variables X1, X2, …, Xn , y cada arco representa relaciones de dependencia directas entre las variables. La dirección de los arcos indica que la variable ‘apuntada’ por el arco depende de la variable situada en su origen.
-
Tes un conjunto de parámetros que cuantifica la red. Contiene las probabilidades PB(xi | xi) para cada posible valor xi de cada variable Xi y cada posible valor xi de Xi, donde éste último denota al conjunto de padres de Xi en G.
Así, una red bayesiana B define una distribución de probabilidad conjunta única sobre U dada por

Es importante observar que la topología o estructura de la red no sólo proporciona información sobre las dependencias probabilísticas entre las variables, sino también sobre las independencias condicionales de una variable o conjunto de ellas dada otra u otras variables. Cada variable es independiente de las variables que no son descendientes suyas en el grafo, dado el estado de sus variables padre.
La inclusión de las relaciones de independencia en la propia estructura del grafo hace de las redes bayesianas una buena herramienta para representar conocimiento de forma compacta – se reduce el número de parámet ros necesarios). Además, proporcionan métodos flexibles de razonamiento basados en la propagación de las probabilidades a lo largo de la red de acuerdo con las leyes de la teoría de la probabilidad. E0n la figura 1 podemos observar cómo representar un clasificador NaiveBayes en forma de red bayesiana.

Figura 1: Ejemplo Red Bayesiana
- Inferencia
A partir de una red ya construida, y dados los valores concretos de algunas variables de una instancia, podrían tratar de estimar se los valores de otras variables de la misma instancia aplicando razonamiento probabilístico.
El razonamiento probabilístico [8] sobre las redes bayesianas consiste en propagar los efectos de las evidencias (variables conocidas) a través de la red para conocer las probabilidades a posteriori de las variables desconocidas. De esta forma se puede determinar un valor estimadopara dichas variables en función de los valores de probabilidad obtenidos.
En general, una red puede usarse para calcular la distribución de probabilidad para cualquier subconjunto de variables dados los valores de cualquier subconjunto de las restantes. La solución exacta de esta forma de inferencia es, en general, un problema NP- duro (COOPER). Incluso el uso de soluciones aproximadas resulta ser en ciertos casos NP- duro, aunque en la práctica estos últimos resultan eficientes en muchos casos.
- Aprendizaje
El problema del aprendizaje bayesiano puede describirse informalmente como [8]: dado un conjunto de entrenamiento D = {u1 , u2,…,uN} de instancias de U, encuéntrese la red B que se ajuste mejor a D.
Típicamente, este problema se divide en dos partes:
-
Aprendizaje estructural: obtener la estructura de la red.
-
Aprendizaje paramétrico: conocida la estructura del grafo, obtener las probabilidades correspondientes a cada nodo.
-
SOLUCION
El Agente Inteligente debe procesar los modelos probabilísticos basados en atributos, para mediante el uso de redes bayesianas, sea capaz de diagnosticar si un paciente podría o no tener este tipo de afección.
Los factores a considerarse para la aplicación de los modelos probabilísticos [03] son:
-
Clase: ENR, ER (eventos-no-recurrentes, eventos-recurrentes)
-
Edad: 10-19, 20-29, 30-39, 40-49, 50-59, 60-69, 70-79, 80-89, 90-99.
-
Estado de Menopausia: lt40, ge40, premeno.
-
Tamaño de Tumor: 0-4, 5-9, 10-14, 15-19, 20-24, 25-29, 30-34, 35-39, 40-44, 45-49, 50-54, 55-59.
-
Nodos-Inv: 0-2, 3-5, 6-8, 9-11, 12-14, 15-17, 18-20, 21-23, 24-26, 27-29, 30-32, 33-35, 36-39.
-
Nodos – Capas: si, no.
-
EstadioMaligno: 1, 2, 3.
-
Mama: izq, der.
-
Cuadrante de Mama: nor-izq, sur-izq, nor-der, sur-der, central.
-
Tipo irradiate: si, no.
De los factores antes mencionados el que más se destaca es la edad que poseen las mujeres. Otro factor importante que no se contempla en este artículo es el “Historial familiar”. Este último parámetro triplica las posibilidades de poseer cáncer de mama.
-
Implementación Bayes.

Figura 2: Red Bayesiana Generada
El clasificador NaiveBayes es capaz de competir contra los clasificadores más sofisticados porque aprende a partir del conjunto de entrenamiento la probabilidad condicional de cada atributo Ai dada la clase C. Después efectúa la clasificación aplicando la regla de Bayes para calcular la probabilidad de cada valor de C dada una instancia particular A1, A2, …, An , y proporcionando como salida la clase con la probabilidad a posteriori más elevada. [9]
Para que este cálculo sea tratable se acepta la suposición de que todos los atributos Ai son condicionalmente independientes dado el valor de la clase C. La calidad del clasificador NaiveBayes es sorprendente, ya que esta suposición es falsa en la mayoría de los sistemas reales, en los que existirán relaciones de causalidad, dependencia u otro tipo entre los atributos contemplados. [9]
A partir del planteamiento de NaiveBayes se pretende estudiar cómo mejorar la calidad de la clasificación evitando hacer suposiciones sobre la independencia de los atributos. Esta aproximación lleva a la creación de las redes bayesianas. [10]
-
Algoritmo de búsqueda del modelo.
Para la determinación del modelo del árbol se ha utilizado una expansión de Bayes que son las redes con estructura naiveBayes aumentada a árbol. Este tipo de estructuras se obtienen construyendo primero una estructura de árbol entre las predictoras para posteriormente unir la variable clase con cada una de las variables predictoras.
-
Algoritmo de redes bayesianas en Weka.
La versión de Weka es la 3.6. El procedimiento que realiza el algoritmo implementado es la siguiente.
Figura 5: Secuencia del algoritmo bayesiano en weka.
- RESULTADOS
Después de aplicar el clasificador bayesiano con sus diferentes configuraciones se obtuvo los siguientes resultados para un total de 49 instancias:
Tabla 1: Tabla de resultados del clasificador
|
INSTANCIAS |
PORCENTAJE |
|
|
Correctamente clasificadas. |
32 |
65.3061 % |
|
Incorrectamente clasificadas. |
17 |
34.6939 % |
Para mayor detalle se obtuvo la siguiente matriz de confusión.
Tabla 2:Matriz de confusión
|
a |
b |
|
|
26 |
9 |
a = NRE |
|
8 |
6 |
b = ER |
De lo anterior se deduce que de 34 instancias No recurrentes, 26 las clasifica como no recurrentes y 9 como recurrentes. De 14 instancias recurrentes8 se las cómo no recurrentes y 6 como recurrentes.
-
Concordancia
Para medir la concordancia entre los valores de la clase real y los valores obtenidos, se ha trabajado con las estadísticas Kappa, las mismas que nos permiten tener un índice de la fiabilidad del clasificador.
Tabla 3: Índice Kappa
|
Kappa statistic |
0.1678 |
De la tabla anterior se determina que existe un nivel muy bajo de concordancia por parte del clasificador.
4.2 Precisión
Para realizar el análisis de precisión se empleado la siguiente formula:
Formula1: precisión de estimación
Tabla 4: Modelo de matriz de confusión
|
ClasesPredecidas |
|||
|
a |
b |
||
|
Act. Clases |
a |
TP |
FN |
|
b |
FP |
TN |
|
Figura 5: Aplicación de la fórmula de precisión (Formula 1)
- CONCLUSIONES
Si bien las RBs mostraron un elevado nivel de clasificación, para mejorar aspectos de compresión y elevar el índice de éxito en la clasificación, sería mejor trabajar con árboles o reglas de decisión, ya que debido al tipo de distribución de los datos, el índice de clasificación es mejor.
El modelo de Bayes combinado con otras técnicas (como modelos evolutivos) incrementará significativamente el porcentaje de clasificación exitosa con respecto a otras técnicas. Por lo que se recomienda hacer uso de técnicas mixtas.
Después de realizar de varias pruebas con distintas instancias se puede concluir que el Network Bayes es un algoritmo muy ineficiente para el tema de diagnóstico de enfermedades, y que en su defecto el Algoritmo JR8 da mayo seguridad al momento de realizar un diagnóstico asistido por computador.
-
BIBLIOGRAFÍA
[01] Greenlee, R.T., M.B. Hill-Harmon, T.Murray, and M. Thun. Cancer statistics, 2001.Cancer Journal for Clinicians.
[02] Burke HB, Goodman PH, Rosen DB, et al. Artificial neural networks improve the accuracy of cancer survival prediction. 1997
[3] Choi JW. Model Using Bayes and Neural Networks Development of Breast Cancer Predication. 2003
[4] Lee SM. Comparisons of predictive modeling techniques for breast cancer in Korean women. J KorSoc Med Informatics. 2008
[5] Lundin M, Lundin J, Burke HB, Toikkanen S,
Pylkkanen L, Joensuu H. Bayesian and artificial neural networks applied to survival prediction in breast cancer.Oncology. 1999
[6] DelenD,Walker G, KadamA. Predicting breast cancer survivability: a comparison of data mining methods.Artificial intelligence in medicine. 2005
[7] Cruz-Ramírez N., Acosta-Mesa H., Carrillo-Calvet H., Alonso Nava-Fernández L., Barrientos-Martínez R. Diagnosis of breast cancer using Bayesian networks: A case study. Computers in Biology and Medicine.2007
[8] Burnside ES, Rubin DL, Fine JP, Shachter RD, Sisney GA, Leung WK. Bayesian network to predict breast cancer risk of mammographic microcalcifications and reduce number of benign biopsy results: initial experience.Department of Radiology, University of Wisconsin Medical School. 2005
[9] RosibledaMondragón-Becerra, Nicandro Cruz-Ramírez, Daniel García-López, Karina Fragoso-Gutierrez, Wulfrano Luna-Ramírez, Gustavo Ortíz-Hernández and Carlos A. Piña-GarcíaAutomatic Construction of Bayesian Network Structures by Means of a Concurrent Search Mechanism.2006.
[10] Gadewadikar, J. Kuljaca, O. Agyepong, K. Sarigul, E.YufengZheng Ping Zhang Exploring Bayesian networks for automated breast cancer detection. Sensors &Autom. Lab., Alcorn State University Lorman, 2009.
[11] N. Friedman, D. Geiger, y M. Goldszmidt.
Bayesian network classiers. Ma-chine Learning, 29:131-163, 1997.
Comentarios»
No comments yet — be the first.