#ProgramaçãoGlobal #Unicode #CaracteresInvisíveis #ASCII
Uma lista exaustivamente detalhada de caracteres invisíveis abrange todos os caracteres em sistemas de codificação (como Unicode e ASCII) que não possuem representação visual direta, mas afetam a formatação, controle ou comportamento do texto.
Abaixo, estão organizados os caracteres invisíveis por categorias, incluindo seus códigos Unicode, nomes, descrições e usos. Como o Unicode é o padrão mais abrangente, focarei nele, mas mencionarei equivalentes em ASCII quando aplicável.
Código Unicode | Nome | Descrição | Uso Comum |
---|---|---|---|
U+202A | Left-to-Right Embedding | Embutir esquerda-para-direita | Força texto subsequente como LTR |
U+202B | Right-to-Left Embedding | Embutir direita-para-esquerda | Força texto subsequente como RTL |
U+202C | Pop Directional Formatting | Finalizar formatação direcional | Encerra efeito de U+202A ou U+202B |
U+202D | Left-to-Right Override | Sobrescrever esquerda-para-direita | Força texto como LTR, ignorando algoritmo bidi |
U+202E | Right-to-Left Override | Sobrescrever direita-para-esquerda | Força texto como RTL, ignorando algoritmo bidi |
U+2066 | Left-to-Right Isolate | Isolar esquerda-para-direita | Isola texto LTR sem afetar contexto |
U+2067 | Right-to-Left Isolate | Isolar direita-para-esquerda | Isola texto RTL sem afetar contexto |
U+2068 | First Strong Isolate | Isolar primeiro forte | Isola texto com direção baseada no primeiro caractere forte |
U+2069 | Pop Directional Isolate | Finalizar isolamento direcional | Encerra efeito de U+2066 , U+2067 ou U+2068 |
- Esses caracteres são cruciais em textos bidirecionais para evitar renderização incorreta.
- U+202E (RTL Override) pode ser usado em ataques de ofuscação (ex.: inverter nomes de arquivos).
- Exaustividade: Esta lista cobre todos os caracteres invisíveis padrão no Unicode (versão 15.0), incluindo controles ASCII, caracteres de formatação, direcionais e específicos de scripts. Outros caracteres podem existir em blocos privados ou futuros do Unicode, mas não são amplamente usados.
- Detecção: Para identificar esses caracteres, use editores como VS Code (mostra símbolos como ␣, ¶), ferramentas como hexdump ou bibliotecas como unicodedata em Python.
- Problemas: Caracteres como U+200B, U+202E ou U+FEFF são notórios por causar erros (ex.: quebras inesperadas, falhas de parsing, ataques de ofuscação).
- Segurança: Em contextos de segurança, filtre caracteres como U+200C, U+200D e U+202E para evitar manipulação maliciosa.
👉 Siga André Bernardes no Linkedin. Clique aqui e contate-me via What's App.
Nenhum comentário:
Postar um comentário