lunes, 22 de junio de 2020

P-value hacking


En el mundo del estudio estadístico se aprende rápidamente la importancia del p-value. Un p-value menor que 0.05 representa resultados significativos, lo que se traduce a su vez a una mayor probabilidad de que tu artículo sea publicado por una revista científica. No es de extrañar que muchos investigadores acaben centrándose excesivamente en ese tan deseado p-value<0.05.

El término P-value hacking, acuñado en 2014 por Regina Nuzzo en Nature News, describe la manipulación, consciente o inconsciente, de los datos para conseguir el p-value deseado. Son muchos los métodos para conseguirlo. La manipulación del tamaño de la muestra, la eliminación de los datos anómalos o relacionar la variable dependiente con el mayor número de variables independientes hasta llegar a una relación significativa.

Como resultado de esta mala práctica, muchos resultados acaban siendo fruto de la casualidad y muchos estudios se contradicen los unos a los otros.

Lo verdaderamente preocupante es, sin embargo, lo generalizadas que parecen estar estas prácticas. En los últimos años, en medio de una crisis existencial de la psicología y otras ciencias que utilizan métodos estadísticos, el término p-hacking se ha popularizado, reforzando así ideas negativas sobre el método científico. En una de las tarjetas del popular juego “Cards Against Humanity” podemos leer “En línea con nuestras predicciones, encontramos una fuerte correlación entre ____ y ____ (p<0.05)”, frase a completar con cualquier disparate que se le ocurra al jugador. Gracioso, pero demasiado real.


En medio de esta polémica, algunas revistas han decidido prohibir estudios basados en el p-value. La Asociación Americana de Estadística (ASA) por su parte, publicó en 2016, por primera vez en su historia, una guía de pautas explícitas de cómo evitar el mal uso del p-value.

Si estas medidas surgen efecto, en una sociedad que superpone muchas veces el éxito a la verdad, todavía está por ver.


Fuentes:


miércoles, 10 de junio de 2020

Minecraft, el eterno favorito

Minecraft ha sido uno de los videojuegos más importantes de la década. Desde su aparición en 2010 ha dado que hablar por su revolucionario sistema de juego que permitia a los jugadores explorar y modificar un infinito mundo pixelado.

En Youtube pasó de ser un fenómeno de nicho a un fenómeno de masas en menos de 3 años. Durante 2013, el año que muchos consideran la época dorada de esta plataforma, google lo tildó con una popularidad del 98 sobre 100. Se mantuvo durante casi todo 2014 hasta que empezó a decaer el interés.

Minecraft se convirtió en una leyenda y se pensaba en él como algo nostálgico. No fue hasta 2018 que el Youtuber más popular del mundo PewDiePie hizo un video sobre Minecraft que recuperó su popularidad. Las busquedas se dispararon. Ahora google oculta la información sobre las busquedas. Pero lo busqué en su momento y en esa semana las busquedas de la palabra minecraft se cuadruplicaron y siguieron siendo crecientes durante los siguientes 5 meses.

A nivel nacional, Minecraft se ha convertido también un fenómenos de masas entre los jovenes. Especialmente debido a la serie llamada Karmaland. Los principales dos creadores de esta serie de entretenimiento tienen unas visitas mensuales de 30 y 180 millones de visualizaciones mensuales. También a más pequeña escala, se hizo una serie de Minecraft llamada Permadeath.Recaudó unas 3 millones de reproducciones mensuales a su creador (algo pequeño comparada con la anterior) pero que juntó a 100 creadores de contenido on-line cada uno con su audiencia propia.


*no me deja añadir imagenes*
Fuentes:
https://es.wikipedia.org/wiki/Anexo:Videojuegos_más_vendidos
https://trends.google.es/trends/explore?date=all_2008&gprop=youtube&q=minecraft
https://socialblade.com

Datos relevantes a la hora de estudiar el COVID-19

Últimamente hemos visto infinidad de noticias relacionadas con la pandemia que estamos viviendo y no es para menos. La parte negativa es que los datos que muestran no son fácilmente interpretables para una persona no muy entendida en el tema. Alguien ve que la tasa de muertes ha crecido mucho y se alarma sin saber muy bien como diseccionar esa información. Yo no me considero un experto ni mucho menos pero me gustaría destacar que características considero yo relevantes a la hora de observar las estadísticas de este virus.

Lo primero de todo y lo más obvio son las muertes y contagios. No es tan representativo la cantidad de muertes y contagios que ha tenido un país como su relación respecto al número de habitantes. En la tabla de la bibliografía podemos ver por ejemplo que Francia tiene más muertes totales que España (29.319 frente a 27.136) pero sin embargo menos muertes por millón (449 frente a 580). La población total de Francia supera a la de España en 20 millones y por tanto es normal que sus muertes totales sean mayores. Sin embargo, la menor cantidad de habitantes por millon nos hace deducir que Francia ha sabido controlar un poco mejor la pandemia.

Tenemos que tener en cuenta otro factor que no se muestra en la tabla y que es importante a tener en cuenta. La tasa de letalidad puede calcularse como los muertos entre los casos. España por ejemplo tiene una tasa de mortalidad del 9'3% frente a paíes como Estados Unidos con una tasa del 5'5%. En este dato intervienen varios factores. Por una parte el tratamiento y las medidas de cada país pueden ser mejores o peores. Y luego la detección de casos también es un factor importante que variaría la tasa de mortalidad.

Por último, un dato crucial sobre todo en la desescalada y que no es muy sonado es la tasa de contagio. Esto se puede calcular con un diagrama en el timepo. Se dividen los casos de un día con los casos de 14 días anteriores que es el periodo de incubación. Si hoy hay 300 y hace dos semanas 100, la tasa de propagación es de 3. Esta es una de las más complicadas de dar como válidas ya que el periodo de incubación es muy variable (de 4 a 20 días). Por tanto aunque la tasa de propagación sea 3, en la practica puede ser mayor o menor con una variancia desconocida.

Tenemos que seguir conscientes de la situación en la que estamos e informarnos bien en esta epoca de epidemia.

*no me deja añadir imagenes*
Fuentes:
https://www.worldometers.info/coronavirus/#countries

¿Como se puntúan a los mejores jugadores de baloncesto?

Esta no es una entrada como las anteriores que he ido subiendo. Aquí no hay porcentajes ni diagramas ni nada parecido. Es simplemente una curiosidad estadística que me gustaría compartir.

En 1991, la liga ACB, creó una valoración para asignar MVPs de la liga regular semanalmente. Estos criterios han ido variando respecto a los años, las distintas ligas que han adoptado este método,  el propio enfoque de las valoraciones...

La fórmula es una sencilla resta:
(Puntos + Rebotes + Asistencias + Robos + Tapones + Faltas Recibidas) - (Tiros de Campo Fallados + Tiros Libres Fallados + Tapones Recibidos + Pérdidas + Faltas Realizadas)

Pero esta no es la formula de valoración más interesante que tiene el baloncesto. El estadista deportivo John Hollinger desarrolló un sistema llamado PER (Player Efficiency Rating) que evalúa el rendimiento de un jugador por minuto.

La fórmula incluye características tanto negativas como positivas y se hace por minutos para que los jugadores suplentes puedan compararse a los titulares. También quita la ventaja a equipos con un estilo de juego más rapido.

Solo en 21 ocasiones un jugador con al menos 15 partidos jugados ha superado los 30 puntos de valoración del PER. Esta lista la encabeza Wilit Chamberlain y hay jugadores como Michael Jordan y LeBron James que han tenido valoración +30 durante 4 temporadas.

La fórmula es una complicada que tiene en cuenta muchas variables y que no puedo mostrar en este artículo (ya que no me deja poner imágenes) pero que a quien le interese está en el enlace de Wikipedia de las fuentes.

Tiene fallos como que penaliza a jugadores defensivos (también cruciales en el equipo) y favorece a tiradores ineficientes. Pero al ser la ecuación más justa creada hasta la fecha, se ha establecido como forma de valoración por muchas revistas y periodicos que tratan los deportes.

*no me deja añadir imágenes*
Fuentes:
https://es.wikipedia.org/wiki/Valoración_(baloncesto)
https://es.wikipedia.org/wiki/Player_efficiency_rating

Twitch, la nueva televisión

La cuarentena ha dejado muchos momentos destacables en los últimos años. Más allá de la catastrofe que supone la pandemia que todavia a dia de hoy seguimos viviendo, hemos visto una parte de nuestra sociedad que no habríamos podido imaginar.

Twitch es una plataforma de streamings de video sobre todo centrada en videojuegos. Alberga creadores de todo tipo desde clásicos gamers hasta prometedores comunicadores. Últimamente, con todo el tiempo libre que hemos tenido encerrados en casa, hemos observado que muchos famosos (aburridos) han decidido experimentar como es la vida de estos influencers digitales.

El confinamiento ha provocado un aumento tanto de viewers como de canales en esta plataforma y ha permitido a muchos conseguir un sustento a base de entretener. Miremos las estadísticas:
https://twitchtracker.com/statistics

Desde 2013, Twitch ha tenido un crecimiento lineal de espectadores pasando de a penas 70.000 a más de 1 millón semanales. Durante los últimos dos años se ha consagrado como la plataforma de streaming por excelencia. Pero no ha sido hasta marzo de 2020 cuando ha conseguido un crecimiento exponencial y no bajando de los 2 millones de espectadores semanales durante los últimos tres meses.

Otros datos interesantes a comentar son por ejemplo los partners de Twitch. Los afiliados a esta platadorma y que reciben ciertas garantías, han tenido un crecimiento lineal desde su comienzo. No ha variado demasiado pese a picos tan importantes como el de los últimos meses.

Por otro lado tenemos también el crecimiento de canales. Podemos ver dos subidas más pronunciadas y relacionarlas en el tiempo. En primer lugar, el crecimiento de 2020 frente a 2019 es debido al confinamiento. Y en segundo lugar el crecimiento de 2018 frente a 2017. Este último corresponde a la rápida popularidad que tuvo el juego Fortnite con canales que generaban hasta 10 millones de dolares al año y que hizo que muchos creadores quisieran subirse al carro de Twitch.

*no me deja añadir imágenes*
Fuentes:
https://twitchtracker.com/statistics
https://money.com/fortnite-tyler-ninja-blevins-earnings-endorsements/

Canvi en la forma de consum durant la pandèmia

Ja l'ú d'abril havia augmentat el tràfic web un 50%, amb un clima de confinament ben generalitzat arran del món. Açò es déu a que si ja abans la gent utilitzava anar de compres com a entreteniment, ara encara més, donat que hem estat més temps a casa i conseqüentment hem tingut més temps per aborri-nos i inevitablement per a acabar en qualsevol pàgina web. 

coronavirus consumer trends omnichannel

Amb aquestes dades dels EEUU podem comprovar que s'han compensat les compres fetes en tenda i les fetes per Internet. Primer augmentaren de forma constant fins a principis de març (trobant un pic el 2 de març) i després caigueren les compres en tenda en picat, mentre que les online van vore un notable augment.


coronavirus consumer trends united states


En aquest gràfic, també dels EEUU, veiem el gran augment de compres fetes en una gran quantitat de categoríes. És especialment significativa la dels rooters inalàmbrics, adaptadors i portàtils.
coronavirus consumer trends france

Per una altra banda, en França també hi ha hagut un increment considerable, en aquest cas és a destacar la compra de consoles de videojocs, de grabadors de vídeo i audio i també de processadors. No podem comparar els EEUU amb França donat que estàn en escales diferents.

És també curiós que la compra d'articules per a mascotes haja augmentat tant; exemple d'açò són els EEUU i Itàlia.
coronavirus consumer trends pets united states
coronavirus consumer trends pets italy

Veiem que en ambdós els hàbits de consum han canviat, hi ha un augment considerable de les compres online però trobem una contraposició entre els EEUU amb una compra basada sobre tot en menjar per a gats i a Itàlia amb un augment encara més considerable comparat amb la resta d'animals en els gossos.


coronavirus consumer trends grocery united states

També hem vist un augment en la compra de productes frescos, pot ser per complementar la compra que van fer inicialment al començament de la quarentena de productes no perible. Veiem un augment en la compra de fruites, verdures, pasta fresca i carn, ous i marisc.
coronavirus consumer trends grocery united kingdom
Veiem un escenari similar al Regne Unit, amb més necesitat de productes làctis, fruites i verdures i pa i pastissos. És curiós veure la diferència entre els productes més demandats perquè ens diuen molt sobre els distins hàbits alimeticis dels països.

Com hem vist, és obvi que hi ha hagut un augment en la compra per internet i per tant en els hàbits de consum. Ja veurem amb la eixa total de la pandèmia con ha afectat exactament a llarg termini.

Font: https://www.criteo.com/es/insights/coronavirus-tendencias-del-consumidor/

Yerba: el impacto del canabis y otras drogas en la sociedad

El actual presidente Donald Trump, defiende una política heredada desde hace 50 años: la legalización de la marihuana aumenta los indices de criminalidad. ¿Por qué se piensa eso? ¿Qué realidad muestran los estudios y por qué esta política tiene tantos detractores?

La lucha contra las drogas, ha sido una que lleva desde 1970 acosando a muchos usuarios de estas. Desde las más nocivas hasta las de uso puramente recracional, eran perseguidas por la ley en los Estados Unidos y más tarde a nivel global. En los años 90, esta guerra tuvo un componente altamente racializado y de clase.

En 2001, Portugal adoptó una medida radical, legalizando todas las drogas y cambiando el problema de agenda como un problema de salud. Esto facilitó la rehabilitación de muchos adictos, el tratamiento de enfermedades con remedios canábicos y redujo el consumo de algunas sustancias.

En gente entre 15 y 64 años había un consumo de marihuana del 7'6%. En 2007 subió hasta el 11'7% y en 2012 al 9'4%. La heroína fue uno de los grandes avances ya que su consumó en la población menor de 34 años bajó un 70%.

Se ha estudiado también en estados donde la marihuana es legal como Colorado, que el hecho de permitirla fomenta el uso recreativo y deja de tener ese "atractivo" de droga ilegal entre los barrios más conflictivos.

En concreto tenemos estudios como el de la University of Texas que defiende que una caida de tasas de criminalidad es directamente proporcional a la legalizacion del canabis medicinal.
https://journals.plos.org/plosone/article/figure/image?size=inline&id=10.1371/journal.pone.0092816.t001

No puedo afirmar si la ilegalización de estas sustancias son algún tipo de maniobra política para controlar a la población y tener a quien culpar. Pero incluso dejando de lado las obvio racismo que incitó la prohibición de esta planta, los datos de estudios de los últimos años arrojan información muy interesante.

*no sé por que no me deja subir imágenes así que pongo enlaces a las mismas*
Fuentes:
https://www.royalqueenseeds.es/blog-las-estadisticas-hablan-legalizar-la-marihuana-reduce-la-criminalidad-n639
https://elpais.com/internacional/2016/04/22/actualidad/1461326489_800755.html
https://journals.plos.org/plosone/article?id=10.1371/journal.pone.0092816