Codificación UTF-8

Conceptos básicos

Las aplicaciones en CODESYS pueden procesar una gran variedad de caracteres, por ejemplo, para emitir un mensaje de error en varios idiomas. O para mostrar visualizaciones en un idioma seleccionado por el usuario que acepte entradas de usuario en una amplia variedad de idiomas, caracteres o símbolos. Si no es necesario un juego de caracteres exhaustivo, o si no hay que modificar un proyecto, pueden seguir utilizándose cadenas codificadas en formato Latin-1.

Tab. 493: Tablas de juego de caracteres
Juego de caracteres	Número de página del código	Descripción	Codificación de caracteres
ASCII	20127	128 caracteres Adecuado para textos en inglés	Carácter codificado de 7 bits
DOS-Latín-1	819, 850	Cumple la norma ISO 8859 Adecuado para los idiomas de Europa occidental en la ventana de línea de comandos de Windows.	Carácter codificado de 8 bits
Latín-1	28591	Cumple la norma ISO-8859-1 A menudo se utiliza para páginas HTML con äöüß pero sin € o, por ejemplo, sin caracteres especiales franceses.	Carácter codificado de 8 bits
Codificación Windows 1252	1252	Juego de caracteres predeterminado de Windows para los países de Europa Occidental Windows utiliza internamente el formato UTF-16 Contiene todos los caracteres de las normas ISO 8859-1 e ISO 8859-15, pero en parte con una codificación diferente.	Carácter codificado de 8 bits
Unicode		Juego de caracteres universal para todas las lenguas posibles, incluidas las lenguas históricas, el braille, la música o los emojis. Se pueden mostrar más de 100.000 caracteres. Cada carácter tiene un código numérico. A diferencia de ASCII, se establece una separación entre la asignación de puntos de código a los caracteres y la codificación de los mismos. El código numérico < 128 es compatible con ASCII Los códigos numéricos < 256 son compatibles con ISO 8859-1 ‎⮫ Para más información, consulte unicode.org
Unicode 14.0		144.697 caracteres
UTF-16	1200	Unicode especial Utilizado en algunos sistemas operativos (Windows, OS X) y lenguajes de programación (Java, .NET) para la representación interna de caracteres. Hay que tener en cuenta que las distintas arquitecturas informáticas codifican los caracteres de 4 bytes de forma diferente. Orden de bytes little endian para UTF-16LE	Caracteres codificados de 16 bits Los caracteres se codifican en 2 bytes o en 4 bytes.
UTF-8	65001	Formato de codificación de caracteres Unicode orientado a bytes. La más extendida Se utiliza en los sistemas operativos GNU/Linux y Unix, y en diversos servicios de Internet (correo electrónico, web, navegador). Compatible con caracteres ASCII en los primeros 128 caracteres (0-127).	Tupla de palabras de 8 bits por carácter Los caracteres se codifican en longitudes diferentes, de 1 a 4 bytes.

UTF-8 en CODESYS

La codificación UTF-8 es la codificación con el conjunto de caracteres más completo. Por lo tanto, se recomienda activar la codificación UTF-8 para los nuevos proyectos, así como para los proyectos existentes que vayan a utilizarse en un nuevo contexto.

Tab. 494: Codificación para todo el proyecto en CODESYS
Tipo de datos	Opción de compilación: Codificación UTF8 para STRING	¿Qué codificación se utiliza en todo el proyecto?
CADENA	Activado	UTF-8
CADENA	Discapacitados	Codificación Windows 1252 (codificación por defecto de Windows) Latín-1
WSTRING	Activado	UTF-16
WSTRING	Discapacitados	UTF-16

En CODESYS, el tipo de datos «STRING» puede codificarse en formatos Latin-1 o UTF-8. El tipo de datos «WSTRING» siempre codifica sus caracteres como Unicode en UTF-16.

Codificación de una sola cadena literal en formato UTF-8

Aunque el formato de codificación de todo el proyecto esté establecido en Latin-1, puede codificar un único literal en formato UTF-8. Para ello, añada el prefijo de tipo «UTF8#» al literal.

{attribute 'monitoring_encoding' := 'UTF-8'}
strVarUtf8: STRING := UTF8#'你好,世界!ÜüÄäÖö';

Para más información, consulte:

Constante: UTF8# Cadena; ⮫ «Constante: UTF8# Cadena »

Atributo Pragma: ⮫ monitoring_encoding

Conversión de cadenas para codificación UTF-8

Si ha activado la codificación UTF-8 en todo el proyecto, puede utilizar las funciones de conversión de cadenas como de costumbre.

Manipulación de cadenas

Utiliza funciones de biblioteca para manipular tus cadenas.

Si hay que manipular variables «STRING», un acceso de índice a una variable en formato ASCII suele conducir al resultado deseado. Es mejor no utilizar esta construcción. No se trata sólo de un mal estilo de programación. Para empeorar las cosas, con la codificación UTF-8, el acceso al índice conduce a una manipulación no deseada de las cadenas.

Codificación UTF-8 sólo para la configuración de todo el proyecto

Se utiliza una codificación UTF-8 si está activada la opción de compilación de todo el proyecto UTF8 encoding for STRING. Las funciones de la biblioteca y los complementos también se orientan según esta configuración.

Si utiliza cadenas codificadas en UTF-8, debe asegurarse de que se interpretan correctamente dondequiera que se utilicen. Por ejemplo, una variable de cadena en el servidor OPC se convertirá a UTF-8 antes de ser transferida a un cliente si el ajuste no está seleccionado. Valores como «UTF8#'äöü'» serían entonces malinterpretados. Pueden surgir problemas similares al mostrar cadenas en la visualización.