lunes, 14 de marzo de 2016

LEY DE ZIPF

LEY DE ZIPF


Acabo de consultar las quinientas palabras más comunes del español en el banco de datos CREA de la Real Academia de la Lengua Española. Apasionante ejercicio, como tantos otros que hago a diario. Las cinco más comunes  son, por este orden: de, la, que, el, en; es decir, artículos, preposiciones y conjunciones que son la tornillería que, con poca carga semántica, sirve para levantar el constructo del idioma. En el puesto 70 aparece la palabra tiempo (un sustantivo sustancioso), en el 76, vida (otro); en el 94, sí; en el 100, mundo; en el 130, españa; en el 135, hombre y en el 142, trabajo; mujer en el 181 y en el 186 fin. En el 390 aparece ex (¿ex de ex, me pregunto?); en el 394 encontramos dinero y en el 395, curiosamente, comisión, (¿mera coincidencia?). En el puesto 500 de la lista, la palabra calidad. No he visto la palabra corrupción; ¿se me habrá pasado?

En lengua inglesa los resultados son predeciblemente similares. La palabra más común es el artículo determinado the, seguida de of y and en tercera posición. Pero si hemos de referirnos al número de ocurrencias de las palabras en el discurso hablado y escrito, tenemos que hablar de George Kinsley Zipf (1902-1950), lingüista norteamericano que aunque murió sin cumplir los cincuenta, le dio para ser Jefe del Departamento de Alemán de la Universidad de Harvard y estudioso  del chino y de las propiedades estadísticas de las lenguas. En 1941 publicó un libro que se hizo bastante popular en el mundo académico de la época, traducido al español y titulado “El comportamiento humano y la ley del mínimo esfuerzo”  pero es más conocido por la formulación de la conocida como Ley Zipf, que tiene que ver con el rango y la frecuencia de uso de las palabras.

Zipf observó (o más bien formuló, puesto que otros autores como el francés Jean Baptiste Estoup y el alemán Felix Auerbach habían observado antes) que, en textos suficientemente largos, la palabra más común (the, en inglés) aparecía el doble de veces que la siguiente of, el triple que la tercera and, el cuádruple que la cuarta, el quíntuple que la quinta y así sucesivamente… Si a la palabra más común le asignamos el rango uno, a la segunda el rango dos y a las demás el correspondiente, “la frecuencia de una palabra dada es inversamente proporcional a su rango en la tabla de frecuencias” respondiendo con bastante fidelidad al gráfico:


de modo que, en un texto convencional que constase de un millón de palabras, the aparecería en 69.971 ocasiones, o lo que es igual: un 7%; la palabra of 36.411 veces o un 3.5%; and 28.852 veces… y así, todas. A esta cualidad empírica se la conoce como Ley de Zipf.
El lingüista observó que la ley la cumplía no  sólo el inglés sino el español, el ruso, el latín, el alemán y todas las lenguas conocidas incluído el esperanto. Por alguna razón, la jerarquía de uso de las palabras seguían la curiosa regla matemática y en todas las lenguas las palabras más usadas eran las más cortas y simples. También se observó que con un número de ciento treinta palabras cubrimos un espectro del 50% del Brown Corpus del American English.

Esas fueron las observaciones y conclusiones del profesor y lingüista norteamericano. Lo verdaderamente curioso es que la ley y su proporcionalidad se cumple en muchos otros campos sin relación con la lengua, como son: el tamaño de las empresas en un país, la audiencia televisiva de los distintos canales, las jugadas más frecuentes en el ajedrez, la renta de los habitantes de un país determinado y el número de habitantes de las mayores ciudades por países.

Pongamos el caso de la renta por habitante. En mi país, tendríamos en lo alto de la pirámide un nombre bien conocido por todos que sería el doble de rico que el segundo, el triple que el tercero, el cuádruple que la cuarta, que, al parecer,  es alguien de su familia y así sucesivamente. El desarrollo de la curva se ajustaría al principio 80/20 de Pareto, ley empírica formulada por el italo-francés Vilfredo Pareto (1848-1923) y que venía a constatar el hecho de que el 20% de la población en la Italia de la época poseía el 80% de la tierra, patrón que se reproducía (y se continúa reproduciendo) en muchos otros países y con recursos distintos al agrícola.

Pero volvamos a la ley de Zipf y el tamaño de las ciudades. He hecho un recorrido por algunos países en el Internet y he obtenido los siguientes datos: en EEUU la ciudad de Nueva York (la mayor del país) cuenta con algo más de ocho millones de habitantes que son (más o menos) el doble de la población de Los Ángeles (3.800.000 h), el triple que Chicago (2.853.000 y el cuádruple que Houston (2.100.000). En Alemania, Berlín con 3 millones y medio de habitantes viene a ser el doble que Hamburgo con 1. 800.000, el triple que Munich con 1. 350.000… Y en España también se cumple (más o menos) la curiosa ley: Madrid con 3.145.000 habitantes es casi exactamente el doble que Barcelona (1,640.000), más del triple que Valencia (800.000), el cuádruple que Sevilla (690.000)… repitiendo el patrón formulado por el americano de apellido imposible y ya predicha por el alemán Auerbach y otros.

No lo formuló Zipf. Es una observación personal, pero en una pandilla de jóvenes solter@s y marchos@s hay un@ que liga el doble que el segundo, el triple que el tercero… y si la muestra es lo suficientemente numerosa, el 20% de los individuos hacen el 80% de la faena, que es más o menos a lo que se refería Darwin en su explicación evolutiva de la selección natural. También los que meten mano en el saco del dinero común (público) es posible que cumplan la ley de Zipf. No tengo datos, pero piénsenlo.
Román Rubio
Marzo 2016




No hay comentarios:

Publicar un comentario