Walter
Sosa Escudero. 13 de octubre de 2019
¿Cuán
grande es una pizza grande? Una rápida consulta a Google dice que una pizza
grande debe medir como mínimo 35 centímetros de diámetro. ¿Cuál es el máximo
tiempo tolerable para llegar tarde a una boda? "Media hora", responde
con idéntica vehemencia la misma fuente. ¿Cuán grande es una base de datos para
que sea considerada "de big data"? Y aquí el icónico buscador hace
agua. "Si no entra en Excel, es big data", respondió hace poco en las
redes sociales un reconocido programador. Una frase que muchos interpretaron en
forma peligrosamente literal.
Big
data es un término difuso, que refiere al fenómeno de datos masivos
provenientes de interactuar con tecnologías interconectadas, como celulares,
tarjetas de créditos, redes sociales, etcétera. El volumen es lo primero que
salta a la vista de la revolución de datos, pero la naturaleza disruptiva del
fenómeno va mucho más allá del tamaño, al punto tal que new data o right data
tal vez sean caracterizaciones más felices.
Pero
aun cuando la auténtica innovación de big data proviniese de la masividad, cabe
cuestionarse si realmente más es mejor y en qué sentido. En una encuesta o
experimento científicamente diseñado, más es mejor porque, diseño riguroso
mediante, más datos es más de lo mismo, de la misma fuente de información. Por
ejemplo, tirar una moneda repetidas veces permite aprender cada vez con más
precisión que las chances de que salga cara son 50%. "Más de lo
mismo" significa que se tira siempre la misma moneda y que no se la
aprende a tirar en los sucesivos tiros, de modo que cada uno de los
lanzamientos agrega el mismo tipo de información que la de cualquier tiro,
anterior o posterior.
Pero
uno de los secretos mejor escondidos de esta lógica es que la tasa a la que la
precisión aumenta cae abruptamente con la cantidad de datos. Es decir, la
precisión siempre mejora, pero esta ganancia es cada vez más pequeña; una
suerte de versión estadística de la "ley de rendimientos marginales
decrecientes" de la economía.
Por
ejemplo, en una encuesta correctamente diseñada, si con 1000 encuestados el
margen de error es de más/menos 3,16%, para duplicar la precisión (léase, bajar
el error a la mitad) es necesario cuadruplicar la cantidad de datos. Entonces,
desde esta perspectiva, si la promesa de big data es de una lluvia de datos, es
como si la cantidad adicional de información se desplomase abruptamente luego
del primer chaparrón, aun cuando continúe diluviando datos eternamente. Sí, más
es mejor, pero cada vez menos, mucho menos.
Para
peor, el paradigma espontáneo de big data es casi la negación del ejercicio de
lanzar una moneda, o, si vamos al caso, de una encuesta o experimento
científico. En la analogía de la moneda, big data es como si dispusiésemos de
millones de lanzamientos de monedas distintas (y posiblemente cargadas) y en
donde varios lanzadores han aprendido a favorecer un resultado. Es decir, los
datos de big data no son "más de lo mismo". Una encuesta en Twitter
puede recoger muchas más respuestas que un sondeo tradicional, pero estos datos
están "mediados" por la decisión de seguir o no a alguien en esa red
social y de acceder a responder o no la encuesta, además de que los que siguen
a alguien posiblemente tengan muchos elementos en común: todo esto en las
antípodas del "más de lo mismo" detrás de las ventajas de una
encuesta o experimento científico.
Y
esto explica por qué una buena parte de la práctica científica de la economía
todavía descansa en bases de datos que, en lo numérico, suenan irrisorias en
comparación con los millones de datos de big data. A modo de ejemplo,
consideremos el trabajo de Raj Chetty, Nathaniel Hendren y Lawrence Katz,
posiblemente el más citado de los últimos 20 años, y publicado en el American
Economic Review, para muchos la revista más prestigiosa de la profesión.
El
estudio analiza el efecto causal del barrio en el cual los niños crecen.
Comparar la performance de una persona que creció en un barrio marginal con
otra que lo hizo en una zona más favorecida es una comparación de peras con
manzanas: a quien creció en un barrio más pudiente posiblemente le vaya mejor
por razones que van más allá de las relacionadas estrictamente con el barrio en
el que creció. Tampoco funciona la estrategia de comparar "antes y
después", es decir, cómo le fue a un joven luego de que se mudase de un
barrio marginal a uno más rico, porque, nuevamente, se mezclan los efectos de
mudarse de barrio con los de cualquier otro factor que haya ocurrido
simultáneamente (haber conseguido un trabajo, haber ganado la lotería,
etcétera).
A
fines de aislar el canal puro del entorno en el que los niños crecen, los
autores recurrieron a una base de datos proveniente de un experimento que
asigna lugares de vivienda a través de un mecanismo aleatorio, similar al que
se usa en los protocolos de la biología o la agronomía para asignar pacientes o
no a un tratamiento. Así, la muestra analizada se conformó con tan solo 13.213
personas, que suenan a nada en comparación con la cantidad de seguidores en
Twitter que hoy tiene cualquier celebrity menor. Unos pocos datos, de una
fuente confiable y adecuados a la pregunta de interés (como los del contundente
estudio de Chetty y sus coautores), pueden contener mucha más información que
la proveniente de la anarquía de big data.
Consecuentemente,
la contribución de big data no necesariamente viene de la masividad, sino de la
disponibilidad de nuevos datos, antes inexistentes, independientemente de que
sean muchos o pocos. A modo de ejemplo, un trabajo reciente de Liran Einav, Dan
Knoepfle y Johnathan Levin utiliza datos de la empresa Ebay para aislar el
efecto de los impuestos a las ventas. Este trabajo aprovecha la secuencia de
acciones (clics) conducentes a comprar un artículo online. El potencial
comprador se enfrenta a diferentes precios de un artículo de interés, y luego de
haber atravesado algunas etapas, se le es revelado el impuesto a las ventas,
dependiendo de su locación geográfica y de la del vendedor.
Este
"experimento natural" aporta información antes inexistente sobre el
efecto de los impuestos sobre las ventas. Los datos utilizados para el análisis
son en realidad un subconjunto muy pequeño de todas las interacciones en Ebay,
pero lo suficientemente grandes como para aislar apropiadamente el canal a
través del cual los impuestos influyen en las ventas. Es decir, el aporte de
big data en este caso no es simplemente de "muchos datos" sino de
datos no disponibles a través de fuentes tradicionales como encuestas o
registros administrativos.
Como
en tantos órdenes de la vida, en materia de análisis de datos el tamaño importa
poco en comparación con su calidad. Para peor, cuando big data no es "más
de lo mismo" la masividad solo aporta un mecanismo peligroso para cometer
peores errores y más rápido. El verdadero aporte de big data en la ciencia
social tiene que ver con la promesa de que el océano de datos sea capaz de
aislar datos que sirvan a los fines de las preguntas relevantes, sean pocos o
muchos.
¿Y
cuántos datos son suficientes como para decir que una base de datos es "de
big data"? Basta recordar que, en 1806, el enorme Carl Friedrich Gauss dio
con el famosísimo método de mínimos cuadrados aplicándolo a una muestra de tan
solo 4 observaciones planetarias.
No hay comentarios:
Publicar un comentario