martes, 11 de junio de 2019

Frecuencia de las letras en castellano

 El cálculo de la frecuencia de aparición de las letras en una lengua es un tema que ha despertado curiosidad desde los tiempos antiguos. Ya desde la edad antigua y media, diversas civilizaciones han tenido interés en el desarrollo de métodos y técnicas con el objetivo de utilizar estos datos para investigaciones matemáticas y criptoanalíticas (pues podría haber sido importante para el descifrado de mensajes que utilizasen el cifrado César). Más adelante, este asunto fue motivo de interés debido a la aparición de las primeras imprentas y la necesidad de adaptar los mecanismos según el uso de ciertas letras para que las máquinas no sufriesen tanto desgaste y así aumentar su vida útil, lo que ha influido en la disposición de los teclados actuales.

Para realizar este tipo de estudios se necesita analizar una enorme cantidad de textos representativos, es decir, textos de la mayor variedad posible de temáticas con el objetivo de disminuir el sesgo que este factor podría producir en el análisis. Otros factores a tener en cuenta por su posible impacto en los resultados son el estilo de cada autor en el uso frecuente de ciertas palabras, el dialecto del que procede el texto, la variedad diacrónica o temporal de la lengua utilizada en el texto, etc. Sin embargo, la alteración de todos estos factores en su conjunto se ve inmensamente reducida gracias a la capacidad de cómputo de la actualidad que nos permite analizar  grandes cantidades de texto sin mucha dificultad.

Los resultados obtenidos pueden observarse en el siguiente gráfico:


Así, si ordenamos de mayor a menor frecuencia de aparición, tenemos:
E A O S R N I D L C T U M P B G V Y Q H F Z J Ñ X K W

Algunos datos interesantes que se obtienen a partir de este análisis son que las primeras 10 letras corresponden al 78% del total, las vocales componen el 45% de los textos y las 6 consonantes más frecuentes (S, R, N, D, L C) suman una frecuencia del 37%, mientras que las 6 consonantes menos frecuentes (Z, J, Ñ, X, K, W) suman un porcentaje aproximado del 1,5%.

 
FUENTES
https://en.wikipedia.org/wiki/Letter_frequency

https://www.solosequenosenada.com/2015/10/23/frecuencia-de-letras-y-de-silabas-en-espanol/

https://unaracnidounacamiseta.com/2012/12/06/las-letras-mas-usadas-en-espanol/

https://es.wikipedia.org/wiki/Frecuencia_de_aparici%C3%B3n_de_letras#Otros_idiomas

No hay comentarios:

Publicar un comentario