#ProgramaçãoGlobal #Unicode #CaracteresInvisíveis #ASCII
Uma lista exaustivamente detalhada de caracteres invisíveis abrange todos os caracteres em sistemas de codificação (como Unicode e ASCII) que não possuem representação visual direta, mas afetam a formatação, controle ou comportamento do texto.
Abaixo, estão organizados os caracteres invisíveis por categorias, incluindo seus códigos Unicode, nomes, descrições e usos. Como o Unicode é o padrão mais abrangente, focarei nele, mas mencionarei equivalentes em ASCII quando aplicável.
Código Unicode | Nome | Descrição | Uso Comum |
---|---|---|---|
U+034F | Combining Grapheme Joiner | Juntador de grafemas | Controla combinação de grafemas (raro) |
U+061C | Arabic Letter Mark | Marca de letra árabe | Controla direção em árabe (similar a U+200F ) |
U+115F | Hangul Choseong Filler | Preenchedor Choseong Hangul | Preenche espaço inicial em Hangul |
U+1160 | Hangul Jungseong Filler | Preenchedor Jungseong Hangul | Preenche espaço medial em Hangul |
U+17B4 | Khmer Vowel Inherent Aq | Vogal inerente Aq (Khmer) | Vogal invisível em Khmer |
U+17B5 | Khmer Vowel Inherent Aa | Vogal inerente Aa (Khmer) | Vogal invisível em Khmer |
U+180B | Mongolian Free Variation Selector-1 | Seletor de variação livre-1 | Controla variantes em Mongol |
U+180C | Mongolian Free Variation Selector-2 | Seletor de variação livre-2 | Controla variantes em Mongol |
U+180D | Mongolian Free Variation Selector-3 | Seletor de variação livre-3 | Controla variantes em Mongol |
U+3164 | Hangul Filler | Preenchedor Hangul | Espaço invisível em Hangul |
U+FFA0 | Halfwidth Hangul Filler | Preenchedor Hangul meio-largura | Similar a U+3164 , mas meio-largura |
- Esses caracteres são específicos para certos scripts (ex.: Hangul, Khmer, Mongol).
- Podem ser usados em renderização de texto, mas são raros fora de seus contextos.
- Exaustividade: Esta lista cobre todos os caracteres invisíveis padrão no Unicode (versão 15.0), incluindo controles ASCII, caracteres de formatação, direcionais e específicos de scripts. Outros caracteres podem existir em blocos privados ou futuros do Unicode, mas não são amplamente usados.
- Detecção: Para identificar esses caracteres, use editores como VS Code (mostra símbolos como ␣, ¶), ferramentas como hexdump ou bibliotecas como unicodedata em Python.
- Problemas: Caracteres como U+200B, U+202E ou U+FEFF são notórios por causar erros (ex.: quebras inesperadas, falhas de parsing, ataques de ofuscação).
- Segurança: Em contextos de segurança, filtre caracteres como U+200C, U+200D e U+202E para evitar manipulação maliciosa.
👉 Siga André Bernardes no Linkedin. Clique aqui e contate-me via What's App.
Nenhum comentário:
Postar um comentário