LEY DE ZIPF
Acabo de
consultar las quinientas palabras más comunes del español en el banco de datos
CREA de la Real Academia de la Lengua Española. Apasionante ejercicio, como
tantos otros que hago a diario. Las cinco más comunes son, por este orden: de, la, que, el, en; es decir, artículos, preposiciones y
conjunciones que son la tornillería que, con poca carga semántica, sirve para
levantar el constructo del idioma. En el puesto 70 aparece la palabra tiempo (un sustantivo sustancioso), en el 76, vida (otro); en el 94, sí; en el 100, mundo; en el 130, españa; en el 135, hombre y en el 142, trabajo; mujer en el 181 y en el 186 fin.
En el 390 aparece ex (¿ex de ex, me pregunto?); en el 394 encontramos dinero y en el 395, curiosamente, comisión, (¿mera coincidencia?). En el puesto 500 de la lista, la
palabra calidad. No he visto la
palabra corrupción; ¿se me habrá pasado?
En lengua
inglesa los resultados son predeciblemente similares. La palabra más común es
el artículo determinado the, seguida
de of y and en tercera posición. Pero si hemos de referirnos al número de
ocurrencias de las palabras en el discurso hablado y escrito, tenemos que
hablar de George Kinsley Zipf (1902-1950), lingüista norteamericano que aunque
murió sin cumplir los cincuenta, le dio para ser Jefe del Departamento de
Alemán de la Universidad de Harvard y estudioso del chino y de las propiedades estadísticas de
las lenguas. En 1941 publicó un libro que se hizo bastante popular en el mundo
académico de la época, traducido al español y titulado “El comportamiento
humano y la ley del mínimo esfuerzo” pero es más conocido por la formulación de la
conocida como Ley Zipf, que tiene que ver con el rango y la frecuencia de uso
de las palabras.
Zipf observó
(o más bien formuló, puesto que otros autores como el francés Jean Baptiste
Estoup y el alemán Felix Auerbach habían observado antes) que, en textos
suficientemente largos, la palabra más común (the, en inglés) aparecía el doble de veces que la siguiente of, el triple que la tercera and, el cuádruple que la cuarta, el
quíntuple que la quinta y así sucesivamente… Si a la palabra más común le
asignamos el rango uno, a la segunda el rango dos y a las demás el
correspondiente, “la frecuencia de una palabra dada es inversamente
proporcional a su rango en la tabla de frecuencias” respondiendo con bastante
fidelidad al gráfico:
de modo que,
en un texto convencional que constase de un millón de palabras, the aparecería en 69.971 ocasiones, o
lo que es igual: un 7%; la palabra of
36.411 veces o un 3.5%; and 28.852
veces… y así, todas. A esta cualidad empírica se la conoce como Ley de Zipf.
El lingüista
observó que la ley la cumplía no sólo el
inglés sino el español, el ruso, el latín, el alemán y todas las lenguas
conocidas incluído el esperanto. Por alguna razón, la jerarquía de uso de las
palabras seguían la curiosa regla matemática y en todas las lenguas las
palabras más usadas eran las más cortas y simples. También se observó que con
un número de ciento treinta palabras cubrimos un espectro del 50% del Brown
Corpus del American English.
Esas fueron
las observaciones y conclusiones del profesor y lingüista norteamericano. Lo
verdaderamente curioso es que la ley y su proporcionalidad se cumple en muchos
otros campos sin relación con la lengua, como son: el tamaño de las empresas en
un país, la audiencia televisiva de los distintos canales, las jugadas más
frecuentes en el ajedrez, la renta de los habitantes de un país determinado y
el número de habitantes de las mayores ciudades por países.
Pongamos el
caso de la renta por habitante. En mi país, tendríamos en lo alto de la
pirámide un nombre bien conocido por todos que sería el doble de rico que el
segundo, el triple que el tercero, el cuádruple que la cuarta, que, al parecer,
es alguien de su familia y así
sucesivamente. El desarrollo de la curva se ajustaría al principio 80/20 de
Pareto, ley empírica formulada por el italo-francés Vilfredo Pareto (1848-1923)
y que venía a constatar el hecho de que el 20% de la población en la Italia de la
época poseía el 80% de la tierra, patrón que se reproducía (y se continúa
reproduciendo) en muchos otros países y con recursos distintos al agrícola.
Pero volvamos
a la ley de Zipf y el tamaño de las ciudades. He hecho un recorrido por algunos
países en el Internet y he obtenido los siguientes datos: en EEUU la ciudad de
Nueva York (la mayor del país) cuenta con algo más de ocho millones de
habitantes que son (más o menos) el doble de la población de Los Ángeles
(3.800.000 h), el triple que Chicago (2.853.000 y el cuádruple que Houston
(2.100.000). En Alemania, Berlín con 3 millones y medio de habitantes viene a
ser el doble que Hamburgo con 1. 800.000, el triple que Munich con 1. 350.000…
Y en España también se cumple (más o menos) la curiosa ley: Madrid con
3.145.000 habitantes es casi exactamente el doble que Barcelona (1,640.000),
más del triple que Valencia (800.000), el cuádruple que Sevilla (690.000)…
repitiendo el patrón formulado por el americano de apellido imposible y ya
predicha por el alemán Auerbach y otros.
No lo formuló
Zipf. Es una observación personal, pero en una pandilla de jóvenes solter@s y
marchos@s hay un@ que liga el doble que el segundo, el triple que el tercero… y
si la muestra es lo suficientemente numerosa, el 20% de los individuos hacen el
80% de la faena, que es más o menos a lo que se refería Darwin en su
explicación evolutiva de la selección natural. También los que meten mano en el
saco del dinero común (público) es posible que cumplan la ley de Zipf. No tengo
datos, pero piénsenlo.
Román Rubio
Marzo 2016
No hay comentarios:
Publicar un comentario