ASCII y UTF-8

¿Cuáles son las diferencias entre ASCII, Unicode y UTF-8?

Los strings si bien se muestran en pantalla como texto, se almacenan en la computadora en forma de números.

Para hacer la conversión de números a caracteres, se utiliza una tabla de conversión o codificación estándar llamada ASCII (American Standard Code for Information Interchange).

El código ASCII esta representado por enteros de 7 bits.

Por ejemplo…

  • El 65 representa el caractér A.
  • El 66 el caractér B.

Si bien el código ASCII permite desplegar caracteres de forma correcta en el Inglés, no ofrece soporte para otros lenguajes existentes como el Japonés.

Para solucionar este problema existe el código Unicode creado en 1987, y provee soporte para la mayoría de los caracteres existentes en los diferentes lenguajes. La ultima versión soporta 128,000 caracteres. De forma conveniente los primeros 128 caracteres de Unicode son el equivalente al código ASCII.

UTF-8 es uno de los esquemas que implementa Unicode. Los colaboradores en la creación de UTF-8 (Rob Pike y Khen Thompson), son también dos de los co-creadores del lenguaje de programación Go, lo que permite que tenga un excelente soporte de caracteres internacionales. De igual forma el código fuente de Go, es siempre almacenado en UTF-8.

Tabla del Código ASCII

La siguiente es la tabla completa del Código ASCII.

Codigo ASCII