Ausencia de evidencia no es lo mismo que evidencia de ausencia.

Hoy, durante una de mis clases en el curso Data Analytics II en Incae, conversaba con los estudiantes sobre el problema de los famosos “missing values” o valores faltantes. Les explicaba la diferencia entre valores faltantes explícitos e implícitos. Como no es una distinción muy común, les cuento de qué trata.

Los valores faltantes explícitos son aquellos que sabemos que faltan y que se suelen marcar o señalar con las letras NA. Los valores faltantes implícitos son los que no están del todo en la data. La siguiente tabla permite ilustrar esta distinción con un ejemplo.

El valor de “Retorno” para el 4to cuarto del 2015 no está, es un valor faltante explícito. Rápidamente se puede apreciar que falta ese dato. Por otro lado, el valor de “Retorno” para el 1er cuarto del 2016 no está del todo en la data. Es un valor faltante implícito.

Hadley Wickham, un famoso científico de datos neozelandéz, lo explica de forma brillante con esta expresión:

One way to think about the difference is with this Zen-like koan: An explicit missing value is the presence of an absence; an implicit missing value is the absence of a presence.

Esta forma de referirse a los valores faltantes como “la ausencia de una presencia” generó una interesante discusión en el aula, pues quedó claro que los faltantes implícitos son mucho más difíciles de identificar que los explícitos. Y es difícil no solo porque cuesta trabajo notar su ausencia en los datos, sino también porque casi nunca los buscamos de forma directa. Esta dificultad cobra relevancia cuando los datos faltan por razones distintas al azar. Es decir, cuando los valores faltantes no están presentes en la data por alguna razón específica y no por meros accidentes.

Cuento esta anécdota de la clase de hoy porque esa discusión sobre lo difícil que es darse cuenta de la ausencia de algo y las enormes consecuencias que puede tener me hizo recordar un fragmento que leí hace mucho en el libro  “Stumbling on Happiness” del brillante psicólogo Daniel Gilbert. Allí, Gilbert hace referencia a una cita de Francis Bacon en la que el filósofo inglés reflexionaba sobre la tendencia de los seres humanos a no prestarle atención a las información que no está presente.

La cita en cuestión es esta:

“Con mucho, el mayor impedimento y aberración del entendimiento humano surge de [el hecho de que] . . las cosas que golpean el sentido pesan más que las que, aunque sean más importantes, no lo golpean directamente. De ahí que la contemplación suela cesar con la vista, hasta el punto de que se presta poca o ninguna atención a las cosas invisibles.

Más adelante, Gilbert agrega:

Bacon ilustró su argumento con una historia […] sobre un visitante de un templo romano. Para impresionar al visitante con el poder de los dioses, el romano le mostró un retrato de varios marineros piadosos cuya fe presumiblemente les había permitido sobrevivir a un reciente naufragio. Cuando se le presionó para que lo aceptara como prueba de un milagro, el visitante preguntó astutamente: “¿Pero dónde están los retratos de los que perecieron después de hacer sus votos? “ La investigación científica sugiere que la gente corriente como nosotros rara vez pide ver los retratos de los marineros desaparecidos.

Esta inclinación a no darnos cuenta de la información que falta nos puede llevar a cometer errores tremendos. Quizá el famoso o notorio es el “survival bias” o “sesgo de supervivencia”, que consiste en analizar solo los casos que superaron algún “proceso de selección”, como los marineros que, literalmente, sobrevivieron al naufragio. O ser exageradamente optimistas sobre la posibilidad de emprender porque se toman en cuenta solo los casos de los grandes CEO’s que empezaron en un garage y hoy manejan grandes corporaciones. Ejemplos hay miles.

Si a esto le sumamos nuestra inclinación a preferir información que confirma lo que creemos (otro sesgo muy conocido: el sesgo de confirmación), queda claro lo limitados que podemos ser al momento de analizar información y tomar decisiones.

Nassim Nicholas Taleb, a quienes los lectores de este blog reconocerán fácilmente, afirma que la madre de todos los errores es confundir la ausencia de evidencia con la evidencia de ausencia. 

Ojalá este post, como la discusión en la clase, sirva para resaltar este importante y común error al momento de analizar información. Como suelo decir en mis clases: nada libera más que conocer nuestras limitaciones.


foto de la portada por Pierre Bamin en Unsplash

Deja un comentario

This site uses Akismet to reduce spam. Learn how your comment data is processed.