텍스트 정보의 코딩. 완벽한 수업 - Knowledge Hypermarket

주제

표적

  • 컴퓨터 메모리에 텍스트를 코딩하는 방법을 소개합니다.

수업 중

컴퓨터 분야에서 텍스트는 일련의 문자입니다. 오늘날 기계는 최대 256자를 포함하는 이러한 문자 세트를 사용합니다.

또한 각각 고유한 8비트 이진 코드가 있습니다. 따라서 컴퓨터의 메모리에서 텍스트의 모든 문자는 8비트 또는 1바이트를 차지합니다.

이를 염두에 두고 텍스트 문서를 저장하는 데 필요한 메모리 양을 측정하는 것이 가능해 보입니다.

1비트(2진수)는 두 가지 의미를 가지며 코드에 각 비트를 추가하면 얻은 조합의 수가 두 배가 됩니다.

예를 들어 A4 타자기 페이지에는 약 55줄이 포함되어 있습니다. 각각은 약 60자를 포함합니다.

이 정보를 통해 주어진 페이지에 있는 텍스트 정보의 양을 계산할 수 있습니다.
각 문자는 1바이트의 정보이며 총 문자 수는 3300(60 x 55)입니다. 페이지의 정보량은 약 3KB인 것으로 나타났습니다.

이진 코드와 해당 문자는 인코딩 테이블로 연결됩니다. PC에서 사용되는 모든 테이블은 American ASCII4 표준을 기반으로 합니다. 처음 128개 코드( 편지, 숫자, 기호). 나머지 128개는 국어(러시아어, 중국어, 아라비아어)의 특수문자와 문자에 사용된다. 그리고 이에 대한 공통 표준이 없었기 때문에 키릴 문자를 포함하여 많은 인코딩이 발생했습니다.

그렇기 때문에 때때로 "물결선" 집합의 형태로 누군가의 텍스트를 볼 수 있습니다.

이러한 텍스트를 읽을 수 있도록 변환기 프로그램이 있습니다. 각 문자의 이진 코드를 다른 인코딩 코드로 바꿉니다. 그리고 종종 사용자는 변환할 인코딩을 지정해야 합니다.


그러나 소스 텍스트의 인코딩을 자동으로 결정할 수 있는 프로그램이 이미 있습니다.
따라서 기계 알파벳의 모든 기호에 해당 일련 번호가 할당된 테이블을 호출합니다. 인코딩 테이블.

ASCII 코드 테이블

이미 언급한 바와 같이 ASCII 테이블(정보 교환을 위한 미국 표준 코드)은 PC의 국제 표준이 되었습니다.

컴퓨터 네트워크에서 사용되는 다른 테이블인 KOI-8(정보 교환 코드)도 찾을 수 있습니다.

ASCII 코드 테이블은 다음과 같이 나뉩니다. 두 부분.

국제 관행에서 표준은 테이블의 첫 번째 부분, 즉 0(00000000)에서 127(01111111)까지의 숫자가 포함된 문자입니다. 라틴 알파벳의 소문자와 대문자, 숫자, 문장 부호, 다른 종류의괄호, 상업 및 기타 기호.

0에서 31까지의 문자 번호 매기기를 일반적으로 제어 문자라고 합니다. 화면에 텍스트를 표시하거나 인쇄하는 과정, 스피커로 전달되는 사운드 신호, 텍스트의 마크업을 제어합니다.
문자 32는 텍스트에서 공백 또는 빈 위치입니다.

인코딩 테이블에서 문자(대문자 및 소문자)는 알파벳 순서로 정렬되고 숫자는 값의 오름차순으로 정렬된다는 사실에 주목합니다. 이러한 문자 배열의 사전식 순서 준수를 순차 알파벳 코딩 원칙이라고 합니다.

후반 ASCII 테이블코드 페이지라고 합니다. 10000000에서 11111111까지 나머지 128개의 코드는 서로 다른 옵션이 있으며 각(!) 옵션에는 고유한 번호가 있습니다.
먼저 코드 페이지는 라틴어와 다른 국가 알파벳을 수용하는 데 사용됩니다. 러시아 국가 인코딩에서 러시아 알파벳의 문자는 테이블의 이 부분에 배치됩니다. 따라서 각 언어에 대해 별도로.

유니코드 인코딩

이것은 16비트 인코딩입니다. 각 문자에 대해 2바이트의 메모리가 있습니다.
따라서 차지하는 메모리 양이 2배 증가합니다. 그러나 이러한 코드 테이블은 최대 65536자를 보유할 수 있습니다.

유니코드 정식 버전에는 전 세계의 모든 기존 및 소멸된 알파벳과 많은 수학적, 음악적, 화학적 기호가 포함됩니다.

텍스트 작업용 프로그램

텍스트 작업을 단순화하려는 욕구로 인해 텍스트 편집기를 위해 특별히 설계된 많은 프로그램이 만들어졌습니다.

워드 프로세서는 단순히 타자기를 대체하는 것이 아니라 텍스트 작업을 위한 보편적인 도구입니다.

텍스트 문서를 조작할 수 있는 매우 광범위한 가능성을 제공합니다.
이러한 프로그램에서는 개별 캐릭터뿐만 아니라 단어, 선, 단락, 그래픽. 조각 입력, 복사, 저장, 이동 및 삭제, 글꼴, 색상 및 크기 변경, 텍스트를 디스크로 전송 및 인쇄와 같은 작업 외에도.

처리된 텍스트는 주어진 형식의 종이 시트 형태로 화면에서 스크롤되는 것처럼 표시됩니다.

텍스트 파일 저장의 장점:

1) 종이 절약
2) 조밀한 배치
3) 다른 미디어에 즉시 복사하는 기능
4) 네트워크 또는 인터넷 회선을 통해 텍스트를 전송하는 기능

질문

1. 인코딩 테이블이란?
2. 어떤 인코딩이 국제 표준이 되었습니까?
3. 텍스트 편집기란 무엇입니까?

사용된 소스 목록

1. 주제에 대한 강의: "텍스트 인코딩 프로세스", Pavlov M. S., Cherkasy
2. 에레민 E.A. 키보드 버퍼 작동 방식 / Informatics #45, 2004
3. 세마킨 I.G.

안에서로 다른 인코딩 테이블의 차이점은 무엇입니까? 우선 인코딩이 무엇인지 파악해야 할 것입니다. 이 용어는 1바이트의 가능한 모든 값(총 256개)과 각 숫자에 해당하는 문자를 나열하는 특수 테이블로 이해됩니다. 실제로 텍스트 정보(다른 정보와 마찬가지로)는 디지털 형식(바이트 시퀀스)으로 사용자의 컴퓨터에 입력됩니다. 또한 각 문자는 0에서 255까지의 숫자입니다. 컴퓨터는 숫자가 아니라 그에 해당하는 문자를 표시합니다. 따라서 사용자 앞에는 일반 텍스트가 표시됩니다.

처음 128자는 표준화되어 있습니다. 그들은 전 세계의 모든 인코딩에서 절대적으로 동일합니다. 기호에 대해 이야기하면 전체 영어 알파벳, 숫자 및 기본 문자입니다. 나머지 128개 위치는 국가 알파벳과 추가 문자의 "재량에 따라" 주어졌습니다. 이것이 대다수의 국가에서 일어나는 방식입니다. 그러나 러시아에는 하나 또는 두 개의 국가 인코딩이 없습니다. 정확히 다섯 개가 있습니다. 따라서 텍스트가 하나의 인코딩으로 러시아어로 작성되면 다른 인코딩에서는 완전히 임의의 다른 문자 집합처럼 보입니다.

이 위키 기사를 읽는 많은 독자들은 아마 이렇게 물을 것입니다. "하지만 러시아에는 왜 그렇게 다양한 인코딩이 있습니까?" 이 질문에 답하려면 역사에 대한 짧은 여담을 해야 합니다. 모든 것은 지난 세기의 70년대에 시작되었습니다. 그런 다음 UNIX 운영 체제가 우리 컴퓨터에 나타났습니다 (개인용이 아니라 당시에는 존재하지 않았습니다). 당연히 러시아어에 맞게 조정되었습니다. 그때 KOI-8이라는 첫 번째 인코딩이 등장했습니다. 이후 모든 유닉스 계열의 "사실상의" 표준이 되었습니다. 운영체제- 예를 들어 Linux의 경우.

시간조금 후에 개인용 컴퓨터의 승리 행진이 시작되었습니다. 그리고 그들과 함께 MS-DOS 운영 체제는 매우 널리 퍼졌습니다. 개발자인 Microsoft는 Russification 동안 KOI-8을 사용하지 않았지만 DOS(코드 페이지 866)라는 자체 인코딩을 고안했습니다. 이 테이블에는 추가 문자 중 프레임 요소가 나타나 다양한 텍스트 편집기에서 테이블을 쉽게 그릴 수 있습니다. 이것은 또한 DOS 인코딩의 확산에 기여했습니다. 그건 그렇고, 거의 동시에 또는 조금 후에 러시아 시장매킨토시 컴퓨터가 나왔다. 당연히 설치된 운영 체제의 Russification 동안 또 다른 기호 테이블 인 MAC이 생성되었습니다. 사실, Mac 자체의 배포가 적기 때문에 거의 사용되지 않았습니다.

안에 1990년에 Microsoft는 새로운 운영 체제를 출시했습니다. 윈도우 버전 3.0. 자국어 지원이 내장되었습니다. 그러나 여기에 흥미로운 점이 있습니다. 어떤 이유로 Microsoft 전문가는 기존의 러시아어 DOS 인코딩을 사용하지 않았지만 다시 새로운 Win (코드 페이지 1251)을 발명했습니다. 아마도 이것은 프레임 및 유사한 문자 대신 테이블에 다른 추가 문자를 도입했기 때문에 수행되었습니다. 그러나 우리는 Win 인코딩이 나타나는 이유에 대해 확실히 알지 못할 것입니다. 나중에 표준화 문제를 다루는 국제기구 국제 표준화기구 (International Organization for Standardization)는 러시아와 일부 다른 국가에서 여러 국가 인코딩이 존재한다는 문제에 주목했습니다. 그리고 가장 일반적인 인코딩을 기본으로 사용하는 대신(당시에는 Win 테이블이었습니다) ISO 담당자는 자체적으로(ISO 8859-5) 인코딩을 발명했습니다. 하지만 실용적인 응용 프로그램그녀는 받지 않았다. 그리고 ISO 인코딩은 모든 브라우저에서 지원되지만 이를 사용하는 단일 사이트는 없을 것입니다.

에게또한 범용 유니코드 인코딩을 "푸시"하려는 시도는 꽤 오랫동안 관찰되었습니다. 작성자는 각 문자에 대해 1바이트가 아닌 2바이트를 사용할 것을 제안했습니다. 이를 통해 가능한 값의 수를 최대 65535까지 늘리고 기존 알파벳의 모든 문자를 테이블에 맞출 수 있습니다. 사실, 이러한 모든 시도는 절대적으로 결실이 없습니다.

따라서 인코딩 차이점의 몇 가지 일반적인 기능을 강조합니다.

1) 총 256개의 문자가 있습니다.

2) 처음 128자는 표준화된 것으로 전 세계적으로 동일하며 영어 알파벳, 숫자 및 기호로 구성됩니다.

3) 나머지 128개는 국가 알파벳과 추가 문자의 "재량에 따라" 제공됩니다.

4) 러시아에는 5가지 다른 인코딩이 있습니다!

5) 러시아어로 된 인코딩과 다른 인코딩으로 작성된 텍스트는 다양한 임의의 문자처럼 보이므로 각 인코딩은 개별적이며 다른 인코딩과의 긴밀한 "공동 작업"을 지원하지 않습니다.

6) 각 인코딩은 자체 코드 테이블에 의해 지정됩니다. 같은 이진 코드 V 다양한 인코딩다른 기호가 할당됩니다.

7) 대부분의 인코딩의 공통 기능은 정확히 1바이트인 1문자에 사용됩니다. 제작자가 각 문자에 대해 1바이트가 아니라 2바이트를 사용하도록 제안한 유니코드 인코딩이 있습니다. 이를 통해 가능한 값의 수를 최대 65535까지 늘리고 기존 알파벳의 모든 문자를 테이블에 맞출 수 있습니다. 사실, 이러한 모든 시도는 절대적으로 결실이 없습니다.

다른 인코딩으로 생성된 텍스트 파일의 차이점

에게텍스트 파일이 인코딩되면 각 텍스트 문자에 숫자 값을 할당하는 특정 규칙 집합인 인코딩 표준에 따라 저장됩니다. 여러 언어에서 사용되는 문자 집합을 나타내는 다양한 인코딩 표준이 있으며 이러한 표준 중 일부는 한 언어의 문자만 지원합니다. 따라서 중국어 텍스트의 경우 간체 표기의 경우 GB2312-80 인코딩 표준과 번체 표기의 경우 Big5 인코딩 표준을 사용할 수 있습니다.

Microsoft Word는 유니코드 인코딩 표준(Unicode. 유니코드 컨소시엄에서 개발한 문자 인코딩 표준. 각 문자를 나타내는 데 1바이트 이상을 사용함으로써 유니코드를 사용하면 전 세계 거의 모든 언어를 하나의 문자 집합으로 표현할 수 있습니다.) , 다양한 언어의 코딩 표준을 사용하여 Microsoft Word 파일을 열고 저장할 수 있습니다. 예를 들어, 인터페이스를 사용하는 운영 체제로 작업할 때 영어, 그리스어 또는 일본어용 인코딩 표준을 사용하여 만든 Microsoft Word에서 텍스트 파일을 열 수 있습니다.

콘텐츠


I. 정보 코딩의 역사


II. 코딩 정보 ..................................................4


III. 텍스트 정보의 인코딩 ..................................................4


IV. 인코딩 테이블의 유형 ..................................................................6


V. 텍스트 정보량 계산 ..................................14


사용 문헌 목록 ..................................................16



.
정보 부호화 역사


인류는 최초의 비밀 정보가 등장한 바로 그 순간부터 텍스트 암호화(인코딩)를 사용해 왔습니다. 다음은 인간 사고 발전의 다양한 단계에서 발명된 몇 가지 텍스트 인코딩 기술입니다.


암호화는 초심자가 텍스트를 이해할 수 없도록 하기 위해 쓰기를 변경하는 시스템인 암호화입니다.

모스 부호 또는 비균일 전신 부호. 각 문자 또는 문자는 짧은 기본 구획의 자체 조합으로 표시됩니다. 전류(점) 및 삼중 기간의 기본 소포(대시);

수화는 청각 장애가 있는 사람들이 사용하는 수화입니다.


가장 초기에 알려진 암호화 방법 중 하나는 로마 황제 Julius Caesar(기원전 1세기)의 이름을 딴 것입니다. 이 방식은 암호화된 텍스트의 각 문자를 원래 문자에서 일정 수만큼 알파벳을 이동시켜 다른 문자로 교체하는 방식을 기본으로 하며, 알파벳을 둥글게, 즉 문자 i 다음에 a를 고려하여 읽는다. 따라서 "byte"라는 단어는 오른쪽으로 두 문자 이동하면 "gvlf"라는 단어로 인코딩됩니다. 주어진 단어를 해독하는 역 과정은 각 암호화된 문자를 왼쪽에 있는 두 번째 문자로 바꾸는 것입니다.


II.
정보 인코딩


코드는 일부 미리 정의된 개념을 기록(또는 전송)하기 위한 일련의 규칙(또는 신호)입니다.


정보를 인코딩하는 것은 특정 정보 표현을 형성하는 과정입니다. 좁은 의미에서 "코딩"이라는 용어는 종종 한 형태의 정보 표시에서 저장, 전송 또는 처리에 더 편리한 다른 형태로의 전환으로 이해됩니다.


일반적으로 각 이미지는 인코딩될 때(때로는 암호화된다고 함) 별도의 문자로 표시됩니다.


기호는 유한한 개별 요소 집합의 요소입니다.


좁은 의미에서 "코딩"이라는 용어는 종종 한 형태의 정보 표시에서 저장, 전송 또는 처리에 더 편리한 다른 형태로의 전환으로 이해됩니다.


컴퓨터는 텍스트 정보를 처리할 수 있습니다. 컴퓨터에 문자를 입력하면 각각의 문자가 일정한 숫자로 부호화되고 외부 장치(화면 또는 인쇄물)로 출력할 때 사람이 인지할 수 있도록 문자의 이미지가 이 숫자를 사용하여 빌드됩니다. 일련의 문자와 숫자 간의 대응을 문자 인코딩이라고 합니다.


일반적으로 컴퓨터의 모든 숫자는 0과 1을 사용하여 표시됩니다(사람들에게 관례적인 10자리 숫자가 아님). 즉, 컴퓨터는 처리 장치가 훨씬 간단하기 때문에 일반적으로 이진 시스템에서 작동합니다. 컴퓨터에 숫자를 입력하고 사람이 읽을 수 있도록 출력하는 것은 일반적인 십진수 형식으로 수행할 수 있으며 필요한 모든 변환은 컴퓨터에서 실행되는 프로그램에 의해 수행됩니다.


III.
텍스트 정보의 인코딩


동일한 정보가 여러 형식으로 표시(인코딩)될 수 있습니다. 컴퓨터의 출현으로 개인과 인류 전체가 다루는 모든 유형의 정보를 인코딩해야 했습니다. 그러나 인류는 컴퓨터가 출현하기 오래 전에 정보를 인코딩하는 문제를 해결하기 시작했습니다. 인류의 위대한 업적인 문자와 산수는 음성 부호화 시스템에 지나지 않으며 숫자 정보. 정보는 절대 나타나지 않습니다 순수한 형태, 항상 어떻게든 표현되고 어떻게든 인코딩됩니다.


이진 코딩은 정보를 표현하는 가장 일반적인 방법 중 하나입니다. 수치 제어가 가능한 컴퓨터, 로봇 및 공작 기계에서는 일반적으로 장치가 처리하는 모든 정보가 이진 알파벳의 단어 형식으로 인코딩됩니다.


1960년대 후반부터 컴퓨터는 워드 프로세싱에 점점 더 많이 사용되었으며 현재는 전 세계 개인용 컴퓨터(및 대부분의시간)은 텍스트 정보를 처리하느라 바쁩니다. 컴퓨터에서 이러한 모든 유형의 정보는 이진 코드로 표현됩니다. 즉, 2의 거듭제곱을 가진 알파벳이 사용됩니다(단지 2개의 문자 0과 1). 이것은 일련의 전기 임펄스의 형태로 정보를 표현하는 것이 편리하다는 사실 때문입니다. 임펄스가 없고(0) 임펄스가 있습니다(1).


이러한 코딩은 일반적으로 이진법이라고 하며 0과 1의 논리적 시퀀스 자체를 기계어라고 합니다.


컴퓨터의 관점에서 텍스트는 개별 문자로 구성됩니다. 문자에는 문자(대문자 또는 소문자, 라틴어 또는 러시아어)뿐만 아니라 숫자, 문장 부호, "=", "(", "&" 등과 같은 특수 문자 및 단어 사이의 공백(특히 주의!)도 포함됩니다. .


텍스트는 키보드를 사용하여 컴퓨터 메모리에 입력됩니다. 키는 문자, 숫자, 구두점 및 기타 기호로 우리에게 친숙하게 작성됩니다. 바이너리 코드로 RAM에 입력합니다. 이것은 각 문자가 8비트 이진 코드로 표현됨을 의미합니다.


전통적으로 한 문자를 인코딩하기 위해 1바이트에 해당하는 정보의 양이 사용됩니다. 즉, I \u003d 1바이트 \u003d 8비트입니다. 가능한 이벤트의 수 K와 정보의 양 I를 관련시키는 공식을 사용하여 얼마나 많은 다른 문자를 인코딩할 수 있는지 계산할 수 있습니다(문자가 가능한 이벤트라고 가정): K \u003d 2 I
= 2 8
= 256, 즉 256자 용량의 알파벳을 사용하여 텍스트 정보를 나타낼 수 있습니다.


이 문자 수는 러시아어 및 라틴 알파벳의 대문자와 소문자, 숫자, 기호, 그래픽 기호 등을 포함하여 텍스트 정보를 나타내기에 충분합니다.


코딩은 각 문자에 고유한 십진법 0에서 255까지 또는 00000000에서 11111111까지의 해당 이진 코드. 따라서 사람은 문자를 스타일로, 컴퓨터는 코드로 구분합니다.


문자의 바이트별 인코딩의 편리함은 명백합니다. 바이트는 주소 지정이 가능한 메모리의 가장 작은 부분이므로 프로세서가 텍스트 처리를 수행할 때 각 문자에 개별적으로 액세스할 수 있기 때문입니다. 반면에 256자는 다양한 문자 정보를 나타내기에 충분합니다.


컴퓨터 화면에 문자를 표시하는 과정에서 역 과정이 수행됩니다. 즉, 문자 코드를 이미지로 변환하는 디코딩입니다. 기호에 특정 코드를 할당하는 것은 계약의 문제이며 코드 테이블에 고정되어 있는 것이 중요합니다.


이제 문제는 각 문자에 해당하는 8비트 이진 코드를 입력하는 것입니다. 이것은 조건부 문제임이 분명하며 인코딩하는 방법은 여러 가지가 있습니다.


컴퓨터 알파벳의 모든 문자는 0에서 255까지 번호가 매겨져 있습니다. 각 숫자는 00000000에서 11111111까지의 8비트 이진 코드에 해당합니다. 이 코드는 단순히 이진수 시스템에서 문자의 서수입니다.


IV
. 인코딩 테이블의 유형


컴퓨터 알파벳의 모든 문자에 일련 번호가 할당된 테이블을 인코딩 테이블이라고 합니다.


을 위한 다른 유형컴퓨터는 다양한 인코딩 테이블을 사용합니다.


ASCII(정보 교환을 위한 미국 표준 코드) 코드표는 국제 표준으로 채택되어 문자의 전반부를 0에서 127까지의 숫자 코드로 인코딩합니다(0에서 32까지의 코드는 문자가 아닌 기능 키에 할당됨).


ASCII 코드 테이블은 두 부분으로 나뉩니다.


표의 전반부만 국제 표준입니다. 0(00000000)에서 127(01111111)까지의 숫자가 있는 문자.


ASCII 인코딩 테이블의 구조


















일련 번호
암호
상징
0 - 31 00000000 - 00011111

0에서 31까지의 숫자를 가진 문자를 제어 문자라고 합니다.


그들의 기능은 화면에 텍스트를 표시하거나 인쇄하는 프로세스를 제어하고 소리 신호를 주고 텍스트를 표시하는 등의 작업을 수행하는 것입니다.


32 - 127 0100000 - 01111111

표의 표준 부분(영어). 여기에는 라틴 알파벳의 소문자와 대문자, 십진수, 문장 부호, 모든 종류의 괄호, 상업 및 기타 기호가 포함됩니다.


문자 32는 공백입니다. 텍스트의 빈 위치.


나머지는 모두 특정 표시로 반영됩니다.


128 - 255 10000000 - 11111111

테이블의 대체 부분(러시아어).


코드 페이지(10000000에서 시작하여 11111111로 끝나는 128개 코드)라고 하는 ASCII 코드 테이블의 후반부는 다양한 옵션을 가질 수 있으며 각 옵션에는 자체 번호가 있습니다.


코드 페이지는 주로 라틴어 이외의 국가 문자를 수용하는 데 사용됩니다. 러시아 국가 인코딩에서 러시아 알파벳의 문자는 테이블의 이 부분에 배치됩니다.


ASCII 코드 테이블의 전반부


인코딩 테이블에서 문자(대문자와 소문자)는 알파벳순으로 정렬되고 숫자는 오름차순으로 정렬된다는 사실에 주목한다. 이러한 문자 배열의 사전식 순서 준수를 알파벳 순차 부호화 원칙이라고 합니다.


러시아 알파벳 문자의 경우 순차적 코딩 원칙도 준수됩니다.


ASCII 코드 테이블의 후반부

안타깝게도 현재 5가지 키릴 문자 인코딩(KOI8-R, Windows.MS-DOS, Macintosh 및 ISO)이 있습니다. 이 때문에 한 컴퓨터에서 다른 컴퓨터로, 한 소프트웨어 시스템에서 다른 시스템으로 러시아어 텍스트를 전송할 때 종종 문제가 발생합니다.


연대순으로 컴퓨터에서 러시아 문자를 인코딩하기 위한 최초의 표준 중 하나는 KOI8("정보 교환 코드, 8비트")이었습니다. 이 인코딩은 EC 시리즈 컴퓨터의 70년대에 사용되었으며 80년대 중반부터 UNIX 운영 체제의 첫 번째 Russified 버전에서 사용되기 시작했습니다.

MS DOS 운영 체제가 우세한 90년대 초반부터 인코딩은 CP866으로 남아 있습니다("CP"는 "코드 페이지", "코드 페이지"를 나타냄).

Mac OS 운영 체제를 실행하는 Apple 컴퓨터는 자체 Mac 인코딩을 사용합니다.

또한 국제 표준화 기구(International Standards Organization, ISO)는 ISO 8859-5라는 또 다른 인코딩을 러시아어 표준으로 승인했습니다.

현재 사용되는 가장 일반적인 인코딩은 CP1251로 약칭되는 Microsoft Windows입니다. 마이크로소프트에서 도입; 고려 펼친이 회사의 운영 체제(OS) 및 기타 소프트웨어 제품 러시아 연방그것은 널리 퍼졌습니다.

90년대 후반부터 문자 인코딩 표준화 문제는 유니코드라는 새로운 국제 표준의 도입으로 해결되었습니다.

이것은 16비트 인코딩입니다. 문자당 2바이트의 메모리가 있습니다. 물론 이 경우 차지하는 메모리의 양은 2배로 늘어난다. 그러나 이러한 코드 테이블은 최대 65536자를 포함할 수 있습니다. 유니코드 표준의 전체 사양에는 많은 수학, 음악, 화학 및 기타 기호뿐만 아니라 세계의 모든 기존, 소멸 및 인위적으로 생성된 알파벳이 포함됩니다.


컴퓨터 메모리에서 단어의 내부 표현


ASCII 테이블 사용



때로는 다른 컴퓨터에서받은 러시아 알파벳 문자로 구성된 텍스트를 읽을 수없는 경우가 있습니다. 일종의 "abracadabra"가 모니터 화면에 표시됩니다. 이는 컴퓨터가 러시아어의 다른 문자 인코딩을 사용하기 때문입니다.

따라서 각 인코딩은 자체 코드 테이블에 의해 지정됩니다. 표에서 볼 수 있듯이 서로 다른 인코딩의 동일한 이진 코드에 서로 다른 문자가 할당됩니다.


예를 들어 CP1251 인코딩의 숫자 코드 221, 194, 204 시퀀스는 "컴퓨터"라는 단어를 형성하지만 다른 인코딩에서는 의미 없는 문자 집합이 됩니다.


다행스럽게도 대부분의 경우 사용자는 텍스트 문서 트랜스코딩에 대해 걱정할 필요가 없습니다. 이것은 애플리케이션에 내장된 특수 변환기 프로그램에 의해 수행되기 때문입니다.


V
. 텍스트 정보량 계산


작업 1:
KOI8-R 및 CP1251 인코딩 테이블을 사용하여 "Rome"이라는 단어를 인코딩합니다.


해결책:

작업 2:
각 문자가 1바이트로 인코딩된다고 가정하고 다음 문장의 정보량을 추정하십시오.


“가장 정직한 규칙의 삼촌,


본격적으로 병에 걸렸을 때,


그는 자신을 존중하도록 강요했습니다.


그리고 나는 더 나은 것을 생각할 수 없었다."


해결책:
이 구에는 문장 부호, 인용 부호 및 공백을 포함하여 108자가 있습니다. 이 숫자에 8비트를 곱합니다. 우리는 108*8=864 비트를 얻습니다.


작업 3:
두 텍스트에는 동일한 수의 문자가 포함되어 있습니다. 첫 번째 텍스트는 러시아어로 작성되고 두 번째 텍스트는 알파벳이 16자로 구성된 Naguri 부족의 언어로 작성되었습니다. 누구의 텍스트에 더 많은 정보가 있습니까?


해결책:


1) I \u003d K * a (텍스트의 정보량은 문자 수와 한 문자의 정보 가중치의 곱과 같습니다).


2) 때문에 두 텍스트의 문자 수(K)가 같으면 알파벳(a)의 한 문자에 대한 정보 내용에 따라 차이가 달라집니다.


3) 2A1
= 32, 즉 1
= 5비트, 2a2
= 16, 즉 2
= 4비트.


4) 나 1
= K * 5비트, I 2
= K * 4비트.


5) 러시아어로 작성된 텍스트가 5/4배 더 많은 정보를 전달한다는 의미입니다.


작업 4:
2048자를 포함하는 메시지의 양은 1/512MB였습니다. 알파벳의 힘을 결정하십시오.


해결책:


1) I = 1/512 * 1024 * 1024 * 8 = 16384비트 - 메시지의 정보량을 비트로 환산하였다.


2) a \u003d I / K \u003d 16384 / 1024 \u003d 16 비트-알파벳의 한 문자에 해당합니다.


3) 2*16*2048 = 65536 문자 - 사용된 알파벳의 힘.


작업 5:
Canon LBP 레이저 프린터는 평균 6.3Kbps의 속도로 인쇄합니다. 한 페이지에 평균 45줄, 한 줄에 70자(1자 - 1바이트)가 있다고 알려진 경우 8페이지 문서를 인쇄하는 데 얼마나 걸립니까?


해결책:


1) 1페이지에 포함된 정보량 구하기: 45 * 70 * 8비트 = 25200비트


2) 8 페이지에 대한 정보량 찾기: 25200 * 8 = 201600 비트


3) 균일한 측정 단위를 사용합니다. 이를 위해 Mbps를 6.3 * 1024 = 6451.2 bps의 비트로 변환합니다.


4) 인쇄 시간 찾기: 201600: 6451.2 = 31초.


서지


1. 아게브 V.M. 정보 및 코딩 이론: 측정 정보의 이산화 및 코딩. - M.: MAI, 1977.


2. Kuzmin I.V., Kedrus V.A. 정보 이론 및 코딩의 기초. - 키예프, Vishcha 학교, 1986.


3. 가장 간단한 텍스트 암호화 방법 / D.M. 즐라토폴스키. - M.: Chistye Prudy, 2007 - 32쪽.


4. 우그리노비치 N.D. 정보학 및 정보 기술. 10-11 학년 교과서 / N.D. Ugrinovich. – M.: BINOM. 지식 연구실, 2003. - 512쪽.


5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

유사한 기사

2023 dvezhizni.ru. 의료 포털.