Portada SEH-LELHA Mapa de navegación del web SEH-LELHA

Gráficos de datos estadísticos en medicina

Preparado por Luis M. Molinero (Alce Ingeniería)
CorreoE: bioestadisticaalceingenieria.net
Febrero 2003
www.seh-lelha.org/stat1.htm

Artículo en formato PDF

"Scientific images are scientific because they have scales of measurement; the dequantification of images takes astronomy down the road toward astrology. It is especially important to provide scaling in images for public consumption, since the public might not have the contextual feel for scale that the experts do. And without scales, the images start to look like Hollywood sets rather than scientific evidence". --

Edward Tufte, February 19, 2003

  Introducción

En estadística denominamos gráficos a aquellas imágenes que, combinando la utilización de sombreado, colores, puntos, líneas, símbolos, números, texto y un sistema de referencia (coordenadas), permiten presentar información cuantitativa. La utilidad de los gráficos es doble, ya que pueden servir no sólo como sustituto a las tablas, sino que también constituyen por sí mismos una poderosa herramienta para el análisis de los datos, siendo en ocasiones el medio más efectivo no sólo para describir y resumir la información, sino también para analizarla.

El propósito de un gráfico no es entonces muy diferente del de cualquier otra herramienta estadística: ayudar a la comprensión y comunicación de la evidencia aportada por los datos respecto a una hipótesis en estudio. Un gráfico científico debe servir por tanto para representar la realidad, no para generar nuevas realidades inexistentes fuera de la propia imagen. La llegada de los ordenadores y de programas para la generación de gráficos y presentaciones ha puesto en manos del usuario común una herramienta poderosa, antes de que disponga de los conocimientos o la mentalidad adecuada para usarla, y de esa forma nos vemos invadidos, cierto que con honrosas excepciones, por una insensata proliferación de gráficos mercantilistas que parece que tienen como único objetivo hacernos ver la capacidad del programa utilizado: llenos de una variada gama de colores, todo tipo de fuentes de letras imaginables, casi tantos como palabras, y por supuesto representación al menos en tres dimensiones. Todo lo contrario de lo que un buen gráfico científico debe ser, en el que su calidad radica precisamente en la simplicidad de la presentación para permitir visualizar unos datos complejos.

En este artículo nos vamos a centrar únicamente en los gráficos como vehículo de presentación de datos, sin abordar su otra faceta como herramienta de análisis.

La calidad de un gráfico estadístico consiste en comunicar ideas complejas con precisión, claridad y eficiencia, de tal manera que:

A su vez los gráficos se integran dentro de un contexto de presentación, por ejemplo en papel o proyectados en una pantalla en una presentación oral, y deben estar adecuadamente diseñados para el soporte al que van destinados. Personalmente me resulta asombroso la enorme cantidad de veces que oigo atónito a un presentador, que nos muestra una transparencia o una diapositiva llena de texto minúsculo, ilegible para la audiencia, decir que "aunque uds probablemente no pueden leerlo"... ¿entonces para qué lo ha puesto en esa imagen? ¿qué arcana misión cumple entonces el texto que la audiencia no puede leer?. Lo mismo podemos decir de los gráficos en papel ¿por qué contienen tantos puntos o rayas que no se pueden distinguir unos de otros?

Aunque como norma general en los gráficos científicos los adornos sobran, tampoco hay que olvidar que a menudo también cumplen una misión estética, ayudando de esa forma a una presentación que quizás sería demasiado árida sólo con texto y números. Pero entonces esa función estética debe ser comprendida y valorada, quedando perfectamente integrada en el contexto de lo que se presenta, y no puede ser una disculpa para distorsionar su contenido.

  Algunas sugerencias para la confección de gráficos

En un artículo las tablas y las figuras deben llevar numeración diferente, y mientras que el título de una tabla debe ir en la parte superior de ésta, el de la figura se colocará en la parte inferior.

Si se piensa utilizar un gráfico es porque aporta algo a la presentación de los datos; no tiene sentido gastar innecesariamente espacio con una imagen, como en la figura de la izquierda, en la que mediante barras representamos dos frecuencias, cuando los datos se pueden expresar con una simple frase o con una pequeña tabla.

La moda imperante de utilizar perspectiva para simular tres dimensiones en gráficas en las que únicamente se representa 2 dimensiones de los datos o a veces incluso sólo una dimensión (como son los diagramas de barras en la que la única dimensión de los datos, la frecuencia absoluta o relativa, corresponde a la altura de la barra, ya que la anchura no mide nada), distorsiona las relaciones entre los distintos elementos de los gráficos magnificando unas y empequeñeciendo otras y por lo tanto constituye un elemento no deseable, por lo que nuestra encarecida recomendación es no utilizar en esos casos representaciones en 3 dimensiones.

En la imagen de la izquierda vemos un ejemplo de flagrante confusión a la hora de percibir la información por el observador. Entre las dos últimas barras de la derecha parece que existe escasa diferencia, aunque con distinto signo, pero si nos fijamos en el escalado del eje, la barra morada tiene menos de 10 unidades de altura, si tomamos como referencia la cara frontal, pero si nos fijamos en la cara posterior, la altura es superior a 10 (está por encima de la línea de 60). Sin embargo en la barra última, de color rojo, cuando nos fijamos en la cara en primer plano la altura parece ser de 20 unidades, y si tomamos como referencia la cara posterior parece que la altura corresponde a algo más de 15 unidades. ¿Con qué nos quedamos? Un verdero lío. Este ejemplo no está preparado, se trata de un caso real que me presentaron hace pocos días: no es necesario escarbar mucho para encontrar ejemplos a nuestro alrededor.

 

Un tipo de representación muy utilizado son las tartas y sin embargo desde el punto de vista de la comunicación de resultados son totalmente inadecuadas, hasta tal punto que nuestra recomendación es no emplearlas nunca y mucho menos con tres dimensiones

Categoría Frec.abs. %
No sabe leer ni escribir 69 7,8
Sin estudios 246 27,9
Estudios primarios incompletos 262 29,7
Estudios primarios completos 129 14,6
Estudios de graduado escolar 85 9,7
Estudios de bachiller superior 57 6,5
Estudios universitarios medios 24 2,7
Estudios universitarios superiores 9 1,0
Total 881  

En la tabla de la izquierda se presentan los datos procedentes de un estudio real, correspondientes al nivel cultural de 881 pacientes diabéticos, atendidos en régimen ambulatorio.

En la tarta que vemos más abajo se han representado los datos de esa tabla utilizando como lamentablemente es habitual tres dimensiones. No sé qué le parecerá a ud lector, pero a mí, si me fijo en los sectores amarillo (Estudios primarios incompletos) y verde (Sin estudios), me parece que el sector verde es algo más grande que el amarillo, lo que está en clara contradicción con los datos de la tabla. Les aseguro que el gráfico no está "amañado", me he limitado a capturar la pantalla de mi programa. Prueben con su programa favorito. El problema óptico radica en dónde coloquemos cada sector.

Fíjense en cambio en el diagrama de barras de la siguiente figura. Ahora sí se está reflejando adecuadamente los datos en el gráfico y nos permite establecer relaciones visuales fiables entre ellos.

Veamos seguidamente cómo queda en una presentación estándar de PowerPoint. La primera tarta corresponde a los datos de la tabla tal y como los presenta ese programa y en la segunda tarta intercambiamos la posición de los sectores amarillo y verde, sin variar los porcentajes, pero no es eso lo que parece en la imagen, ya que el sector verde parece más pequeño que el amarillo en la primera tarta, y mayor en la segunda.

En general es mejor presentar una tabla que una tarta, o un diagrama de barras, sobre todo si se desea comparar con otros datos.

Es fácil crear, con o sin intención, una ilusión óptica con una imagen, sobre todo si se emplea la representación de las tres dimensiones, baste recordar al genial Maurits Cornelis Escher (1898-1972) cuya famosa e imposible cascada vemos en la ilustración, en la que el agua que está siempre en un mismo plano, a la misma altura, sin embargo parece que cae a diferente altura. Como arte es genial, pero no hagamos lo mismo con nuestros datos.

 

La pereza intelectual nos lleva a adoptar modas, tanto en la utilización de procedimientos estadísticos como en la representación de datos, sin plantearnos si éstas son adecuadas. Conviene siempre reflexionar sobre lo que se hace. Así por ejemplo, viene siendo muy habitual representar los porcentajes con una barra y una línea que marca el intervalo de confianza de éste, como en la primera figura de la izquierda. Pero este tipo de representación tiene un cierto contenido de engaño, ya que la presencia de esas líneas para el intervalo de confianza marcan sólo el límite superior, y sin embargo es igualmente probable valores por debajo del extremo superior de la barra.

Una presentación más adecuada sería la de la segunda figura, que refleja esa característica de simetría del intervalo de confianza. Es igualmente probable obtener valores superiores o inferiores.

 

Otra costumbre, que no tiene mucho sentido, y también muy difundida es la de unir puntos entre los que no existe una relación secuencial. Sí que es lógico construir de esa forma curvas de evolución de crecimiento, de supervivencia, pero no es lógico unir puntos que no guardan relación secuencial. Por ejemplo, en la gráfica anterior, si los 10 ensayos que se representan en el eje de las X son independientes no tendría sentido unir los puntos; sí lo sería, si se trata de ensayos secuenciales.

En la siguiente figura vemos el perfil de la media de los resultados del cuestionario de calidad de vida SF-36 en los hombres (rojo) y mujeres (amarillo) en un grupo de pacientes diabéticos. Hay un punto para cada una de las dimensiones, que corresponden a los conceptos de función física, rol físico, dolor corporal, salud general, vitalidad, función social, rol emocional y salud mental. La moda es presentar los puntos unidos por una línea ¿por qué?. No dudo de que haya alguna razón, pero ¿los que así lo presentan conocen el motivo o lo hacen sólo por moda?

La utilización de un escalado adecuado es imprescindible en un buen gráfico estadístico. Es fundamental sobre todo si se van a comparar diferentes gráficas, ya que entonces los ejes deben tener el mismo recorrido y las gráficas tener el mismo tamaño.

El recorrido de los ejes contiene en sí mismo también información. Así en la gráfica anterior, se quería indicar que el resultado posible de cada una de las escalas va de 0 a 100, y que las diferencias entre el grupo de mujeres y de hombres, siendo importantes, pueden quedar minimizadas en ese campo de variación. Si pretendiéramos realzar esas diferencias hubiéramos elegido otro recorrido para el eje:

En ambos casos el recorrido elegido transmite por sí mismo un mensaje, por lo tanto debe escogerse adecuadamente.

 

Es difícil, sino imposible, dar consejos generales en cuanto a cómo elaborar un gráfico, si acaso sólo unas mínimas normas básicas como las que venimos comentando. Hay que tener en cuenta además que el gráfico cumple también una función estética, que fomenta la lectura del texto y ayuda a su comprensión. Y en el aspecto estético es donde será más complicado lograr un consenso. Quizás la única norma general sea la de buscar sencillez y claridad, incluso el uso del color debe ser moderado y bien elegido. Las líneas debieran ser finas, eliminándose aquellas que son superfluas y enmarañan el gráfico. Solo se utilizarán rejillas si se considera necesario para ayudar a la interpretación y ubicación de los datos. En la imagen debe haber un adecuado balance entre el espacio en blanco y el que contiene datos, aunque en ocasiones el espacio en blanco sí que contiene información y transmite un mensaje, como en la gráfica anterior sobre calidad de vida, cuando decidíamos presentar todo el rango de variación con el fin de minimizar la importancia de las diferencias.

En el gráfico ideal no tenemos que acudir al texto para interpretarlo.

Debe existir una adecuada relación entre el texto, las tablas y las imágenes, siendo fáciles de localizar y encontrándose próximas al texto donde son referenciadas y a ser posible en la misma página. También una buena idea puede ser combinar texto y tablas embebidas, para facilitar la lectura, ya que muchos números seguidos en una misma frase son difíciles de comprender. Veamos un ejemplo.

Se encontró una diferencia importante en la PAS entre el grupo de pacientes obesos y el resto, de 5.1 mmHg (Int.confianza del 95% de 3.7 a 7.2), con los siguientes valores en cada grupo:

Grupo Media Desv.Típ. Tam.
OBESO=NO 136,54 15,04 476
OBESO=SI 141,62 15,00 355

Incluir aquí la tabla con los datos en ambos grupos es mucho más legible que si hubiéramos continuado la frase indicando, a continuación de los valores de la diferencia, los datos de cada grupo. Así, con la tabla, resulta mucho más fácil de leer que si se expresa con un párrafo; por supuesto siempre que la tabla quede embebida en el texto y no vaya colocada en otro punto, y hagamos referencia a ella con el consabido véase tabla n, lo que distraerá la atención.

 

Hay muchas otras posibilidades de gráficos, además de las tartas, barras, nubes de puntos y curvas, que constituyen una alternativa más eficiente de presentación que el texto. Por ejemplo, una información que debería figurar en todo trabajo de investigación, es la relativa al colectivo de sujetos del que se extrajo la muestra analizada, así como el procedimiento utilizado y la evolución del tamaño de muestra durante el desarrollo del estudio. Este tipo información resulta complicado de describir sólo con texto y sobre todo difícil de seguir por el lector, siendo mucho más ilustrativa la presentación de un diagrama de flujo, tal y como proponen las recomendaciones CONSORT, de las que hemos extraído el ejemplo de la figura.

Aquí no hay tres dimensiones, ni color, no es un gráfico muy vistoso, pero este diagrama de flujo es mucho más fácil de captar que una explicación textual y ayuda de forma notable a interpretar los resultados del estudio; debiera ser obligado, y así lo proponen las recomendaciones citadas.

 

Los gráficos son un elemento importante en la comunicación de resultados, ayudando a su interpretación, y cumpliendo también, como el buen lenguaje, una función estética que facilita atraer la atención del lector y convencerle del mensaje que le trasmitimos. Los programas modernos ponen en nuestras manos una gran capacidad de diseño, pero es bueno que la utilicemos con sentido y al igual que un artículo no es mejor porque utilice más número de palabras o las palabras más bonitas, o más de moda, tampoco un gráfico será mejor porque tenga más colores, más tipos de letra o esté hecho con la versión más moderna del mejor programa de diseño. Y en ambos casos al final lo verdaderamente importante es el contenido. Citando a un arquitecto: "es correcto decorar las construcciones, pero nunca construir decoración".

Enlaces de interés

The work of Edward Tufte and graphics press
Edward Tufte has written seven books, including Visual Explanations, Envisioning Information, The Visual Display of Quantitative Information, and Data Analysis for Politics and Policy.
Gallery of Data Visualization The Best and Worst of Statistical Graphics
This Gallery of Data Visualization displays some examples of the Best and Worst of Statistical Graphics, with the view that the contrast may be useful, inform current practice, and provide some pointers to both historical and current work. We go from what is arguably the best statistical graphic ever drawn, to the current record-holder for the worst
Statistical Graphical design
Statistics for the life sciences
C. J. Schwarz, Department of Statistics and Mathematics, Simon Fraser University
Presenting Data: Tabular and graphic display of social indicators
Gary Klass. Illinois State University

Indice de artículos