Research Institute
  • 인코딩(Encoding)
    2023년 08월 31일 22시 47분 09초에 업로드 된 글입니다.
    작성자: IIIIIIIIIIIIIIIIIIIIl

    인코딩(Encoding) 소개

    웹에서 사용하는 인코딩(Encoding)은 텍스트 데이터를 컴퓨터가 이해하고 처리할 수 있는 형식으로 변환하는 과정을 의미합니다. 웹에서는 다양한 언어와 문자 체계가 사용되기 때문에, 이러한 다양성을 컴퓨터가 올바르게 해석하고 표시하기 위해 문자를 숫자로 변환하는 방식이 필요합니다.
    가장 일반적으로 사용되는 문자 인코딩 방식 중 하나는 UTF-8(유니코드 변환 형식 8-bit)입니다. 이 방식은 전 세계의 거의 모든 문자와 기호를 지원하며, 다양한 언어를 효율적으로 처리할 수 있도록 설계되었습니다. 그 외에도 UTF-16, UTF-32 등의 다양한 인코딩 방식이 존재합니다.
    웹에서는 HTML, CSS, JavaScript 등의 코드로 작성된 문서를 브라우저에서 해석하여 표시합니다. 이때 문서 내의 문자 데이터는 해당 문자의 인코딩 방식에 따라 숫자로 변환되어 처리됩니다. 이러한 인코딩 방식을 정확하게 설정하지 않으면, 문자가 올바르게 표시되지 않거나 깨져 보일 수 있습니다. 따라서 웹 개발자는 인코딩 설정을 올바르게 관리하여 다양한 언어의 문자가 정확하게 표시되도록 해야 합니다.

    웹에서 인코딩(Encoding) 기술을 사용하는 이유

    초기 웹 환경에서는 ASCII 기반의 문자를 주로 사용해왔으나, 글로벌 네트워크의 등장으로 인해 다양한 언어와 문자를 효과적으로 표기하기 위한 인코딩 기법이 필요해졌습니다.

    인코딩(Encoding) 종류

    인코딩 기법은 데이터를 다른 형식으로 변환하는 방법을 의미합니다. 웹에서 사용되는 주요 인코딩 기법에는 다음과 같은 종류가 있습니다:

    1. URL Encoding (Percent Encoding): URL에서 사용되는 문자 중 일부는 특별한 의미를 갖거나 URL 형식을 위반할 수 있습니다. 이런 문자들을 안전하게 전달하기 위해 URL 인코딩이 사용됩니다. 각 문자를 "%" 기호와 함께 해당 문자의 ASCII 코드값으로 표현하여 변환합니다. 주로 아래와 같은 예약 문자들을 주로 사용합니다.
      • 공백 (Space): %20
        큰따옴표 (Double Quote): %22
        샵 (Hash): %23
        퍼센트 기호 (Percent Sign): %25
        엠퍼샌드 (Ampersand): %26
        작은따옴표 (Single Quote): %27
        더하기 기호 (Plus Sign): %2B
        콤마 (Comma): %2C
        슬래시 (Slash): %2F
        물음표 (Question Mark): %3F
        등호 (Equal Sign): %3D
        미는 기호 (Asterisk/Wildcard): %2A
        세미콜론 (Semicolon): %3B
        콜론 (Colon): %3A
        대시 (Hyphen/Minus Sign): %2D
        언더스코어 (Underscore): %5F
        점 (Period): %2E
    2. HTML Encoding (Character Entity Encoding): HTML 문서에서 특정 문자나 기호는 태그 등과 혼동을 피하기 위해 특수한 표기법으로 인코딩됩니다. 예를 들어, <를 &lt;, >를 &gt;로 표현하여 HTML 인터프리터가 제대로 해석하도록 합니다. 
      • 쌍따옴표("): &quot;
        홑따옴표('): &apos;
        앤드기호(&): &amp;
        여는 꺽쇠괄호(<): &lt;
        닫는 꺽쇠괄호(>): &gt;
        공백문자(Space): &nbsp;
    3. Base64 Encoding: 이진 데이터를 ASCII 문자로 변환하는 방법으로, 이메일이나 데이터 전송에 사용됩니다. 이진 데이터를 텍스트로 변환하기 위해 64개의 가능한 문자를 사용하여 인코딩합니다.
    4. UTF-8 Encoding: 유니코드 문자 집합을 인코딩하기 위한 방법 중 하나로, 다국어 문자를 효과적으로 저장하고 전송하기 위해 사용됩니다. UTF-8은 가변 길이 문자 인코딩 방식으로, ASCII 문자는 1바이트로, 다국어 문자는 2바이트 이상으로 표현됩니다.
    5. Binary Encoding: 이진 데이터를 문자로 변환하는 인코딩 방식입니다. 주로 이메일이나 HTTP 요청 등에서 이진 데이터를 텍스트로 변환하여 전송할 때 사용됩니다.
    6. JSON Encoding: JSON 형식은 데이터 객체를 표현하는 데 사용되며, 문자열, 숫자, 불리언, 배열, 객체 등 다양한 데이터 형식을 포함할 수 있습니다.
    7. XML Encoding: XML 문서에서는 특수한 문자를 포함할 수 없는 경우가 있습니다. 이런 경우에는 해당 문자를 XML 엔티티로 대체하여 사용합니다.

    참고자료

     

    댓글