Diferencia del efecto
La revisión bibliográfica previa al inicio de cualquier tarea demostró que, entre otros estudios, hubo una intervención farmacéutica que consiguió mejorar el cumplimiento de los tratamientos cardiovasculares en el 10,9% (intervalo de confianza [IC] del 95%: 5,0-16,7)2. En función de estos datos, concluimos que nuestro estudio debía constatar si era posible aumentar en un 10% el cumplimiento terapéutico de nuestros pacientes. En este caso, si quisiéramos detectar solo un 1% de aumento del cumplimiento, necesitaríamos muchos pacientes para mostrar tan reducida diferencia del efecto. Ahora bien, si quisiéramos constatar si es posible detectar un 20% de incremento, el número de pacientes podría ser menor. Como consecuencia de lo expuesto, concluimos que, cuanto mayor fuera la diferencia a detectar, menor tamaño de la muestra se precisaría.
Poder estadístico
En cualquier estudio pueden cometerse dos tipos de errores principales: I y II. El de tipo II, o beta, se da cuando no se rechaza la hipótesis nula siendo esta falsa, es decir, los falsos negativos. Ello se observa cuando no hemos sido capaces de detectar una diferencia del efecto que, en realidad, sí existía. Imaginemos la hipótesis nula «no hay diferencia de cumplimiento terapéutico entre los dos grupos del estudio». Imaginemos, asimismo, que el investigador no ha rechazado (y, por tanto, ha aceptado) esta hipótesis porque la muestra no era lo suficientemente amplia como para detectar la diferencia del efecto. La consecuencia es que no se habrá probado la efectividad de la intervención..., simplemente porque el poder estadístico era pequeño, no porque la intervención fuera inefectiva (que sí lo era).
El poder o potencia del estudio es la probabilidad de observar si existe una diferencia determinada de un efecto en una muestra concreta. Su valor es el complementario del error beta, es decir [1-beta], y debe situarse como máximo en el 20% para que tengamos una probabilidad mínima del 80% de poder detectar dicha diferencia. Como consecuencia de ello, cuanto mayor sea la probabilidad de detección, menor habrá de ser el error beta y, por lo tanto, mayor será el tamaño de la muestra.
Por su parte, el error de tipo I, o alfa, se comete cuando se rechaza la hipótesis nula siendo esta verdadera. Sería el falso positivo, al concluir que hay diferencia cuando, en realidad, no la hay.
El nivel de confianza
Cuando estimamos el valor de una variable en una muestra, por ejemplo el porcentaje de hipertensos cumplidores con su tratamiento, obtenemos un número, pongamos el 55%. Pero si repitiéramos muchas veces el estudio con muchas muestras semejantes, el resultado no sería siempre el mismo, aunque estaría entre un rango de valores de, por ejemplo, entre el 40 y el 60%. Además, comprobaríamos que el valor que más se repite es (una vez más como mero ejemplo) el 50% y que cuanto más nos alejemos, por encima o por debajo de dicho valor, menos probabilidad habrá de obtenerlo. Así, se verán muchas más muestras con valores que oscilarán entre el 45 y el 55% que menores del 45% o mayores del 55%, hasta el punto de que, estando alejados de estas cifras, habrá una probabilidad escasísima de hallar ningún valor. Podemos concluir, finalmente, que tendremos una gran probabilidad de que el verdadero valor del cumplimiento en los hipertensos (en cualquier muestra semejante) se halle entre el 45 y el 55%, que llamaremos intervalo de confianza (la confianza de obtener el verdadero valor).
Así pues, el nivel de confianza será la probabilidad de que dicho intervalo de confianza contendrá, a priori, el verdadero valor. Obviamente, cuanta mayor confianza tengamos en asegurarnos de que el verdadero valor está comprendido en un rango, este será mayor. Es decir, si quiero estar seguro con un 99% de confianza de que el verdadero valor esté comprendido en un determinado rango, este será mucho mayor (por ejemplo, entre el 30 y el 70%) que si solo quiero obtener un intervalo de confianza menor, del 70%. Habitualmente se toma el nivel de confianza del 95% y se expresa como el complementario del error alfa [1-alfa].
Como consecuencia de todo ello, cuanto mayor sea la confianza que queramos obtener en un dato, mayor número de pacientes habremos de incluir en el estudio.
Tamaño de la muestra para comparar dos proporciones
Volviendo al estudio, una vez que ya conocemos las variables que debemos tener en cuenta se procederá a estimar el tamaño que necesitamos. El nivel de confianza se establece habitualmente en el 95% y el poder estadístico en el 80%. Asimismo, tomando valores semejantes a los del estudio citado anteriormente, estimamos que el cumplimiento normal es del 68% (cifra similar a la de una prueba previa que hemos realizado) y que podemos incrementarlo en un 10%. En este caso, el tamaño mínimo de la muestra sería de 243 pacientes en cada grupo (recuadro), y si quisiéramos aumentar el poder hasta el 10% (error beta: 10%), la muestra tendría que ser de 336 pacientes por grupo.
Tamaño de muestra para comparar dos medias
Si un objetivo adicional del estudio anterior hubiera sido estimar si la intervención es capaz de reducir en 10 mmHg la presión arterial sistólica (PAS), el tamaño de la muestra se calcula de otra manera, teniendo en cuenta también los errores alfa (a través del nivel de confianza) y beta (mediante el poder estadístico deseado) y la diferencia mínima que se quiere detectar entre los dos valores medios de la PAS. Habrá que tener en cuenta, además, la dispersión de los valores obtenidos en el grupo de referencia, lo cual se determinará a través de su varianza (S2).
En definitiva, si la PAS media que habíamos observado en una prueba previa en hipertensos era de 152 mmHg, con una varianza de 85 y manteniendo el mismo nivel de error que antes (alfa: 5% y beta: 20%), para detectar una diferencia media de 5 mmHg se precisarían 42 pacientes en cada grupo de estudio (recuadro).
Consecuencias de una muestra reducida
¿Qué ocurre si recluto menos pacientes de los estimados? La respuesta es sencilla: se pierde poder y no se podrá rechazar la hipótesis nula (no hay diferencias entre los grupos) porque la probabilidad de detectar cambios habrá disminuido. Es decir, podremos concluir que nuestra intervención no es efectiva, a pesar de serlo. Habremos mostrado un resultado falso negativo.
Conclusión
El número de individuos que se precisa para estudiar la efectividad de una intervención es un tema de enorme importancia que no puede descuidarse nunca. Hasta tal punto es relevante este aspecto que, si no disponemos de una muestra suficiente, las conclusiones que se obtengan presentarán una probabilidad incrementada de ser erróneas.
Por otra parte, el número de la muestra no se obtiene por azar. Por el contrario, se requiere conocer muy bien qué deseamos hacer para proceder posteriormente a su cálculo. Ello implica que no existe un número mágico que podamos emplear, sin más, en cualquier estudio. Es imprescindible proceder a su cálculo previo en función de las características ya mencionadas del estudio.
Bibliografía
1. Ilustre Colegio Oficial de farmacéuticos de Cáceres. Procedimiento Normalizado de Trabajo. PNT–Gen. Polimed.–01. (Disponible en: http://cofcaceres.portalfarma.com/DocumentosDpto/Ofarmacia/PNT-GEN-POLIMEDICADO%20-%2001%20SISTEMA%20DOSIFICACI%C3%93N%20PERSONALIZADO.pdf) (último acceso: abril de 2011).
2. Barceló M. Ensayo clínico controlado para demostrar la utilidad de una intervención farmacéutica sobre el cumplimiento terapéutico en la insuficiencia cardíaca. FMC. 2007; 14(9): 591-1.001.
3. Pita S. Determinación del tamaño muestral. Cad Aten Primaria. 1996; 3: 138-140.