Otro rasgo notable es el hecho de que en todos los mecanismos de representación existe lo que se podría llamar la perfección, que es inalcanzable desde el punto de vista práctico. Vale la pena aclarar este punto: Shannon demostró que es posible formular un código tan eficiente como se quiera, es decir, cuya longitud promedio de palabra sea tan próxima a la entropía como se desee, si se está dispuesto a pagar el precio de tener un modelo estadístico muy preciso de los datos que se desea representar. En este caso sólo se usó lo que se denomina estadística de primer orden, utilizando sólo la probabilidad o frecuencia de cada objeto por representar, sin relación alguna con los demás. Si se pensara en la probabilidad de que algo ocurra luego de que ha ocurrido alguna otra cosa, se estaría hablando de estadísticas de segundo orden, que proporcionan una idea mucho más clara del comportamiento de los datos. Ya que en cada idioma existe una probabilidad característica para cada letra del alfabeto, con base en esto se puede crear un código eficiente para representar textos en español, codificando cada letra. Pero si además se toma en consideración la probabilidad de que ocurra cada una de las letras, suponiendo que la inmediata anterior fue alguna otra, entonces se tendrá una idea más clara de las características del español. En este idioma la aparición de una "s" después de una "e", por ejemplo, ocurre 2.4% de las veces, "es" es la pareja de letras más frecuente, en inglés en cambio la pareja más frecuente es "th", que ocurre 2.7% de las veces, mientras que "es" ocurre sólo 1%. Se puede continuar con este proceso, considerando cuál es la probabilidad de que aparezca una "r" luego de una secuencia "pe", por ejemplo, y cuanto mayor sea el número de letras en la secuencia "histórica" que se considere, mayor será la precisión y, como demostró Shannon, la eficiencia del código para representar los datos. Por supuesto, si se trata de guardar la tabla de probabilidades del alfabeto de 29 letras del español, el modelo de orden 1 es factible, pero para un modelo de orden 4, con 294 probabilidades por cada una de las 29 letras, ya no es económico. Se termina gastando más al guardar el modelo que al guardar los datos con una representación trivial de bloque de cinco bits por letra.