Kodiranje tekstualnih informacija. Kompletne lekcije - Hipermarket znanja

Predmet

Cilj

  • Upoznati metode kodiranja tekstova u memoriji računala.

Tijekom nastave

U području računala, tekst je niz bilo kojih znakova. Danas strojevi koriste skup takvih znakova koji sadrži do 256 znakova.

Štoviše, svaki ima svoj osmobitni binarni kod. Dakle, u memoriji računala bilo koji znak teksta zauzima 8 bita ili 1 bajt.

Imajući ovo na umu, čini se mogućim izmjeriti količinu memorije potrebnu za pohranu bilo kojeg tekstualnog dokumenta.

1 bit (binarna znamenka) ima dva značenja, dodavanjem svakog bita kodu udvostručuje se broj dobivenih kombinacija: 2 bita - četiri opcije, 3 bita - osam, 4 bita - šesnaest, itd.

Na primjer, A4 ispisana stranica sadrži približno 55 redaka. Svaki od njih sadrži oko 60 znakova.

Pomoću ove informacije možemo izračunati količinu tekstualnih informacija na određenoj stranici.
Svaki znak je 1 bajt informacije, a ukupan broj znakova je 3300 (60 puta 55). Ispada da je količina informacija na stranici oko 3 KB.

Binarni kodovi i njihovi odgovarajući znakovi povezani su tablicom kodiranja. Sve tablice koje se koriste na računalu temelje se na američkom ASCII4 standardu. Definira prvih 128 kodova ( slova, brojevi, znakovi). Preostalih 128 koristi se za posebne znakove i slova nacionalne abecede (ruske, kineske, arapske). A budući da za to nije bilo zajedničkih standarda, pojavila su se mnoga kodiranja, uključujući i ćirilicu.

Zato se ponekad nečiji tekst može vidjeti u obliku skupa "vrkutina".

Da bi se takvi tekstovi čitali, postoje programi za pretvaranje. Oni zamjenjuju binarni kod svakog znaka kodom drugačijeg kodiranja. I, često, korisnik mora odrediti iz kojeg kodiranja ide konverzija.


Međutim, već postoje programi koji mogu automatski odrediti kodiranje izvornog teksta.
Dakle, zove se tablica u kojoj su svim simbolima strojne abecede dodijeljeni odgovarajući serijski brojevi tablica kodiranja.

Tablica ASCII kodova

Kao što je već spomenuto, ASCII tablica (American Standard Code for Information Interchange) postala je međunarodni standard za osobna računala.

Također možete pronaći drugu tablicu - KOI-8 (Information Exchange Code), koja se koristi u računalnim mrežama.

Tablica ASCII kodova podijeljena je na dva dijela.

U međunarodnoj praksi standard je samo prvi dio tablice, odnosno znakove s brojevima od 0 (00000000) do 127 (01111111). To su mala i velika slova latinične abecede, brojevi, interpunkcijski znakovi, drugačija vrsta zagrade, reklamni i drugi simboli.

Numeriranje znakova od 0 do 31 obično se naziva kontrolnim znakovima. Oni kontroliraju proces prikazivanja teksta na ekranu ili ispisa, zvučni signal za zvučnike i označavanje teksta.
Znak 32 je razmak ili prazno mjesto u tekstu.

Skrećem vam pozornost na činjenicu da su u tablici kodiranja slova (velika i mala) raspoređena abecednim redom, a brojevi su poredani uzlaznim redoslijedom vrijednosti. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se načelo kodiranja sekvencijalnog alfabeta.

Druga polovica ASCII tablice naziva se kodna stranica. Ovo je preostalih 128 kodova od 10000000 do 11111111, koji imaju različite opcije, a svaka (!) opcija ima svoj broj.
Prije svega, kodna stranica se koristi za prilagodbu nacionalnih pisama koja se razlikuju od latinice. U ruskim nacionalnim kodovima, znakovi ruske abecede smješteni su u ovaj dio tablice. Dakle za svaki jezik posebno.

Unicode kodiranje

Ovo je 16-bitno kodiranje - ima 2 bajta memorije za svaki znak.
Sukladno tome, količina zauzete memorije povećava se 2 puta. Ali takva kodna tablica može sadržavati do 65536 znakova.

Puna verzija Unicodea uključuje sve postojeće i izumrle alfabete svijeta i mnoge matematičke, glazbene, kemijske simbole.

Programi za rad s tekstom

Želja za pojednostavljenjem rada s tekstom dovela je do stvaranja mnogih programa posebno dizajniranih za to - uređivača teksta.

Program za obradu teksta nije samo zamjena za pisaći stroj, već univerzalni alat za rad s tekstovima.

Pružaju vrlo široke mogućnosti za rad s tekstualnim dokumentima.
U takvim programima možete raditi ne samo s pojedinačnim likovima, već i sa riječi, linije, odlomci, grafike. Osim takvih operacija kao što su tipkanje, kopiranje, spremanje, premještanje i brisanje fragmenata, mijenjanje fonta, boje i veličine, slanje teksta na disk i ispis.

Obrađeni tekst je predstavljen kao da je u obliku listova papira određenog formata koji se pomiču na ekranu.

Prednosti pohranjivanja tekstova u datoteke:

1) uštedite papir
2) kompaktni smještaj
3) mogućnost trenutnog kopiranja na druge medije
4) mogućnost prijenosa teksta preko linija mreže ili Interneta

Pitanja

1. Što je tablica kodiranja?
2. Koje je kodiranje postalo međunarodni standard?
3. Što se naziva uređivač teksta?

Popis korištenih izvora

1. Lekcija na temu: “Proces kodiranja teksta”, Pavlov M. S., Cherkasy
2. Eremin E.A. Kako radi međuspremnik tipkovnice / Informatika #45, 2004
3. Semakin I.G.

U Koja je razlika između različitih tablica kodiranja jedna od druge? Za početak, vjerojatno morate shvatiti što je kodiranje. Ovaj pojam se shvaća kao posebna tablica koja navodi sve moguće vrijednosti jednog bajta (ukupno ih je 256) i znakove koji odgovaraju svakoj znamenki. Zapravo, tekstualne informacije (kao i sve druge) ulaze u računalo korisnika u digitalnom obliku (slijed bajtova). Štoviše, svaki znak je broj od 0 do 255. Računalo ne prikazuje brojeve, već slova koja im odgovaraju. Dakle, korisnik vidi normalan tekst ispred sebe.

P Prvih 128 znakova je standardizirano. Isti su u apsolutno svim kodovima diljem svijeta. Ako govorimo o simbolima, onda je to cijela engleska abeceda, brojevi i osnovni znakovi. Preostalih 128 mjesta dano je "na milost" nacionalnim pismima i dodatnim znakovima. Tako je to u velikoj većini zemalja. Međutim, u Rusiji ne postoji jedno ili čak dva nacionalna kodiranja. Ima ih točno pet. Dakle, ako je tekst napisan na ruskom u jednom kodiranju, tada će u drugom izgledati kao apsolutno slučajni skup različitih znakova.

M Mnogi čitatelji ovog Wiki članka vjerojatno će se pitati: "Ali zašto postoji toliko različitih kodiranja u Rusiji?". Da biste odgovorili na ovo pitanje, morat ćete napraviti kratku digresiju u povijest. Sve je počelo 70-ih godina prošlog stoljeća. Tada se na našim računalima (ne osobnim - tada nisu postojali) pojavio operativni sustav UNIX. Naravno, prilagođen je ruskom jeziku. Tada se pojavilo prvo kodiranje, nazvano KOI-8. Od tada je postao "de facto" standard za sve UNIX-ove operativni sustavi- na primjer za Linux.

H nešto kasnije započeo je pobjednički pohod osobnih računala. A zajedno s njima, operativni sustav MS-DOS postao je vrlo raširen. Njegov programer, Microsoft, nije koristio KOI-8 tijekom rusifikacije, već je smislio vlastito kodiranje, nazvano DOS (kodna stranica 866). U ovoj tablici, među dodatnim znakovima, pojavili su se elementi okvira, što je uvelike olakšalo crtanje tablica u različitim uređivačima teksta. To je također pridonijelo širenju DOS kodiranja. Usput, otprilike u isto vrijeme ili nešto kasnije rusko tržište Pojavila su se računala Macintosh. Naravno, tijekom rusifikacije operativnog sustava instaliranog na njima, stvorena je još jedna tablica simbola - MAC. Istina, treba napomenuti da se gotovo nikada nije koristio zbog male distribucije samih Macova.

U Godine 1990. Microsoft je izdao novi operativni sustav Windows verzija 3.0. U njega je ugrađena podrška za nacionalne jezike. Ali evo što je zanimljivo - iz nekog razloga Microsoftovi stručnjaci nisu koristili već postojeće rusko DOS kodiranje, već su ponovno izmislili novo - Win (kodna stranica 1251). Najvjerojatnije je to učinjeno zbog uvođenja drugih dodatnih znakova u tablicu umjesto okvira i sličnih znakova. Ali najvjerojatnije nećemo sa sigurnošću znati razloge pojavljivanja Win kodiranja. Još kasnije, međunarodna organizacija Međunarodna organizacija za standardizaciju, koja se bavi pitanjima standardizacije, skrenula je pozornost na problem prisutnosti nekoliko nacionalnih kodiranja u Rusiji i nekim drugim zemljama. I opet, umjesto da uzmu najčešće kodiranje kao osnovu (tada je to bila tablica Win), predstavnici ISO-a izmislili su svoje (ISO 8859-5). Ali praktična aplikacija nije primila. Iako je ISO kodiranje podržano u svim preglednicima, vjerojatno ne postoji niti jedno mjesto koje ga koristi.

DO Osim toga, već se dugo promatraju pokušaji "guranja" univerzalnog Unicode kodiranja. Njegovi kreatori predložili su korištenje ne jednog, već dva bajta za svaki znak. To vam omogućuje povećanje broja mogućih vrijednosti do 65 535 i uklapanje svih znakova postojećih abeceda u tablicu. Istina, svi ti pokušaji ostaju apsolutno besplodni.

Stoga ističemo nekoliko uobičajenih značajki razlika u kodiranju:

1) Ukupno ima 256 znakova.

2) Prvih 128 znakova je standardizirano, isti su u cijelom svijetu, a sastoje se od engleske abecede, brojeva i znakova.

3) Preostalih 128 dano je "na milost" nacionalnim abecedama i dodatnim znakovima.

4) U Rusiji postoji 5 različitih kodiranja!

5) Tekst napisan u jednom kodiranju na ruskom, u drugom kodiranju, izgledat će kao različiti nasumični znakovi, stoga je svako kodiranje individualno i ne podržava blisku "suradnju" s drugim kodiranjem.

6) Svako kodiranje određeno je vlastitom tablicom kodova. Na isti binarni kod V razna kodiranja dodijeljeni su različiti simboli.

7) Uobičajena značajka u većini kodiranja koristi se za 1 znak točno 1 bajt. Postoji Unicode kodiranje, gdje su njegovi kreatori predložili korištenje ne jednog, već dva bajta za svaki znak. To vam omogućuje povećanje broja mogućih vrijednosti do 65 535 i uklapanje svih znakova postojećih abeceda u tablicu. Istina, svi ti pokušaji ostaju apsolutno besplodni.

Razlika između tekstualnih datoteka stvorenih u različitim kodovima

DO Kada je tekstualna datoteka kodirana, sprema se u skladu sa standardom kodiranja, određenim skupom pravila koja dodjeljuju numeričku vrijednost svakom tekstualnom znaku. Postoji mnogo različitih standarda kodiranja koji predstavljaju skupove znakova koji se koriste u različitim jezicima, a neki od tih standarda podržavaju samo znakove iz jednog jezika. Dakle, za kineski tekst može se koristiti standard kodiranja GB2312-80 u slučaju pojednostavljenog pisma i standard kodiranja Big5 u slučaju tradicionalnog pisma.

P Budući da Microsoft Word koristi Unicode standard za kodiranje (Unicode. Standard za kodiranje znakova koji je razvio Unicode konzorcij. Korištenjem više od jednog bajta za predstavljanje svakog znaka, Unicode vam omogućuje predstavljanje gotovo svih svjetskih jezika u jednom skupu znakova.) , možete otvoriti i spremiti u Microsoft Word datoteke koristeći standarde kodiranja za razne jezike. Na primjer, kada radite s operativnim sustavom koji koristi sučelje na Engleski jezik, možete otvoriti tekstualnu datoteku u programu Microsoft Word koja je stvorena pomoću standarda kodiranja za grčki ili japanski jezik.

Sadržaj


I. Povijest kodiranja informacija………………………………..3


II. Informacije o kodiranju……………………………………………4


III. Kodiranje tekstualnih informacija…………………………….4


IV. Vrste tablica kodiranja………………………………………………...6


V. Izračun količine tekstualnih informacija………………………14


Popis korištene literature…………………………………..16


ja
.
Povijest kodiranja informacija


Čovječanstvo koristi enkripciju (kodiranje) teksta od samog trenutka kada su se pojavile prve tajne informacije. Evo nekoliko tehnika kodiranja teksta koje su izumljene u različitim fazama razvoja ljudske misli:


Kriptografija je kriptografija, sustav mijenjanja pisma kako bi se tekst učinio nerazumljivim neupućenim osobama;

Morseov kod ili neuniformirani telegrafski kod, u kojem je svako slovo ili znak predstavljen vlastitom kombinacijom kratkih elementarnih parcela električna struja(točke) i elementarne parcele trostrukog trajanja (crtice);

Znakovni jezik je znakovni jezik kojim se služe osobe s oštećenjem sluha.


Jedna od najranijih poznatih metoda šifriranja nosi ime rimskog cara Julija Cezara (1. st. pr. Kr.). Ova se metoda temelji na zamjeni svakog slova šifriranog teksta drugim pomicanjem abecede od izvornog slova za fiksni broj znakova, a abeceda se čita u krug, odnosno nakon slova i, u obzir se uzima a. Dakle, riječ "bajt" kada se pomakne za dva znaka udesno je kodirana riječju "gvlf". Obrnuti proces od dešifriranja dane riječi je zamjena svakog šifriranog slova s ​​drugim lijevo od njega.


II.
Kodiranje informacija


Kod je skup konvencija (ili signala) za snimanje (ili prijenos) nekih unaprijed definiranih koncepata.


Kodiranje informacija je proces formiranja određenog prikaza informacija. U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz iz jednog oblika prezentacije informacija u drugi, pogodniji za pohranu, prijenos ili obradu.


Obično je svaka slika, kada je kodirana (ponekad kažu - šifrirana), predstavljena posebnim znakom.


Znak je element konačnog skupa različitih elemenata.


U užem smislu, pojam "kodiranje" često se shvaća kao prijelaz iz jednog oblika prezentacije informacija u drugi, pogodniji za pohranu, prijenos ili obradu.


Računalo može obrađivati ​​tekstualne informacije. Kada se unese u računalo, svako slovo je kodirano određenim brojem, a kada se izađe na vanjske uređaje (zaslon ili ispis), za ljudsku percepciju, slike slova se grade pomoću tih brojeva. Korespondencija između skupa slova i brojeva naziva se kodiranje znakova.


U pravilu su svi brojevi u računalu predstavljeni pomoću nula i jedinica (a ne deset znamenki, kako je to uobičajeno za ljude). Drugim riječima, računala obično rade u binarnom sustavu, jer su uređaji za njihovu obradu mnogo jednostavniji. Unos brojeva u računalo i njihovo ispisivanje za ljudsko čitanje može se obaviti u uobičajenom decimalnom obliku, a sve potrebne pretvorbe obavljaju programi koji rade na računalu.


III.
Kodiranje tekstualnih informacija


Ista informacija može se prikazati (kodirati) u nekoliko oblika. Pojavom računala postalo je potrebno kodirati sve vrste informacija s kojima se suočavaju pojedinac i čovječanstvo u cjelini. Ali čovječanstvo je počelo rješavati problem kodiranja informacija mnogo prije pojave računala. Grandiozna postignuća čovječanstva - pisanje i aritmetika - nisu ništa više od sustava kodiranja govora i brojčane informacije. Podaci se nikada ne pojavljuju u čisti oblik, uvijek je nekako reprezentirano, nekako kodirano.


Binarno kodiranje jedan je od najčešćih načina predstavljanja informacija. U računalima, robotima i alatnim strojevima s numeričkim upravljanjem u pravilu su sve informacije s kojima uređaj barata kodirane u obliku riječi binarne abecede.


Od kasnih 1960-ih, računala se sve više koriste za obradu teksta, a sada većina svjetskih osobnih računala (i većina vrijeme) je zauzet obradom tekstualnih informacija. Sve ove vrste informacija u računalu su predstavljene u binarnom kodu, tj. koristi se abeceda s potencijom dvojke (samo dva znaka 0 i 1). To je zbog činjenice da je prikladno prikazati informacije u obliku niza električnih impulsa: nema impulsa (0), postoji impuls (1).


Takvo se kodiranje obično naziva binarnim, a sami logički nizovi nula i jedinica nazivaju se strojnim jezikom.


Sa stajališta računala, tekst se sastoji od pojedinačnih znakova. Znakovi ne uključuju samo slova (velika ili mala, latinična ili ruska), već i brojeve, interpunkcijske znakove, posebne znakove poput "=", "(", "&" itd., pa čak i (obratite posebnu pozornost!) razmake između riječi .


Tekstovi se unose u memoriju računala pomoću tipkovnice. Tipke su napisane poznatim nam slovima, brojevima, interpunkcijskim znakovima i drugim simbolima. U RAM ulaze u binarnom kodu. To znači da je svaki znak predstavljen 8-bitnim binarnim kodom.


Tradicionalno, za kodiranje jednog znaka koristi se količina informacija jednaka 1 bajtu, tj. I \u003d 1 bajt \u003d 8 bita. Koristeći formulu koja povezuje broj mogućih događaja K i količinu informacija I, možete izračunati koliko se različitih znakova može kodirati (pod pretpostavkom da su znakovi mogući događaji): K \u003d 2 I
= 2 8
= 256, tj. abeceda s kapacitetom od 256 znakova može se koristiti za predstavljanje tekstualnih informacija.


Ovaj broj znakova sasvim je dovoljan za predstavljanje tekstualnih informacija, uključujući velika i mala slova ruske i latinične abecede, brojeve, znakove, grafičke simbole itd.


Kodiranje je da je svakom znaku dodijeljen jedinstveni decimalni kod od 0 do 255 ili odgovarajući binarni kod od 00000000 do 11111111. Dakle, osoba razlikuje znakove po stilu, a računalo po kodu.


Pogodnost bajt-po-bajt kodiranja znakova je očigledna, budući da je bajt najmanji adresabilni dio memorije i, prema tome, procesor može pristupiti svakom znaku zasebno prilikom obrade teksta. S druge strane, 256 znakova sasvim je dovoljno za predstavljanje najrazličitijih znakovnih informacija.


U procesu prikazivanja znaka na zaslonu računala vrši se obrnuti proces - dekodiranje, odnosno pretvaranje koda znaka u njegovu sliku. Važno je da je dodjela određenog koda simbolu stvar dogovora, koji je fiksiran u tablici kodova.


Sada se postavlja pitanje koji osmobitni binarni kod staviti u korespondenciju sa svakim znakom. Jasno je da je ovo uvjetna stvar, možete smisliti mnogo načina za kodiranje.


Svi znakovi računalne abecede označeni su brojevima od 0 do 255. Svaki broj odgovara osmobitnom binarnom kodu od 00000000 do 11111111. Taj je kod jednostavno redni broj znaka u binarnom brojevnom sustavu.


IV
. Vrste tablica kodiranja


Tablica u kojoj su svi znakovi računalne abecede dodijeljeni serijski brojevi naziva se tablica kodiranja.


Za različiti tipovi Računalo koristi različite tablice kodiranja.


Tablica kodova ASCII (American Standard Code for Information Interchange) usvojena je kao međunarodni standard, kodirajući prvu polovicu znakova numeričkim kodovima od 0 do 127 (kodovi od 0 do 32 nisu dodijeljeni znakovima, već funkcijskim tipkama).


Tablica ASCII kodova podijeljena je u dva dijela.


Samo je prva polovica tablice međunarodni standard, tj. znakova s ​​brojevima od 0 (00000000) do 127 (01111111).


Struktura ASCII tablice kodiranja


















Serijski broj
Kodirati
Simbol
0 - 31 00000000 - 00011111

Znakovi s brojevima od 0 do 31 nazivaju se kontrolni znakovi.


Njihova je funkcija upravljanje procesom prikaza teksta na ekranu ili ispisa, davanje zvučnog signala, označavanje teksta i sl.


32 - 127 0100000 - 01111111

Standardni dio tablice (engleski). To uključuje mala i velika slova latinične abecede, decimalne znamenke, interpunkcijske znakove, sve vrste zagrada, reklamne i druge simbole.


Znak 32 je razmak, tj. prazno mjesto u tekstu.


Sve ostalo odražavaju se određenim znakovima.


128 - 255 10000000 - 11111111

Alternativni dio tablice (ruski).


Druga polovica tablice ASCII kodova, nazvana kodna stranica (128 kodova, počevši s 10000000 i završavajući s 11111111), može imati različite opcije, svaka opcija ima svoj broj.


Kodna stranica prvenstveno se koristi za prilagođavanje nacionalnih pisama osim latinice. U ruskim nacionalnim kodovima, znakovi ruske abecede smješteni su u ovaj dio tablice.


Prva polovica tablice ASCII kodova


Skreće se pozornost na činjenicu da su u tablici kodiranja slova (velika i mala) poredana abecednim redom, a brojevi uzlazno. Ovo poštivanje leksikografskog reda u rasporedu znakova naziva se načelo sekvencijalnog kodiranja abecede.


Za slova ruske abecede također se poštuje princip sekvencijalnog kodiranja.


Druga polovica tablice ASCII kodova

Nažalost, trenutno postoji pet različitih kodiranja ćirilice (KOI8-R, Windows. MS-DOS, Macintosh i ISO). Zbog toga se često javljaju problemi s prijenosom ruskog teksta s jednog računala na drugo, s jednog softverskog sustava na drugi.


Kronološki, jedan od prvih standarda za kodiranje ruskih slova na računalima bio je KOI8 ("Information Exchange Code, 8-bit"). Ovo kodiranje korišteno je 70-ih godina prošlog stoljeća na računalima serije EC, a od sredine 80-ih počelo se koristiti u prvim rusificiranim verzijama operativnog sustava UNIX.

Od početka 90-ih, vremena dominacije MS DOS operativnog sustava, kodiranje ostaje CP866 ("CP" je kratica za "Code Page", "kodna stranica").

Apple računala s operativnim sustavom Mac OS koriste vlastito Mac kodiranje.

Osim toga, Međunarodna organizacija za standardizaciju (International Standards Organisation, ISO) odobrila je još jedno kodiranje pod nazivom ISO 8859-5 kao standard za ruski jezik.

Najčešće korišteno kodiranje je Microsoft Windows, skraćeno CP1251. Predstavio Microsoft; uzeti u obzir raširen operativnih sustava (OS) i drugih softverskih proizvoda ove tvrtke u Ruska Federacija postalo je rašireno.

Od kraja 90-ih problem standardizacije kodiranja znakova riješen je uvođenjem novog međunarodnog standarda pod nazivom Unicode.

Ovo je 16-bitno kodiranje, tj. ima 2 bajta memorije po znaku. Naravno, u ovom slučaju količina zauzete memorije povećava se 2 puta. Ali takva kodna tablica dopušta uključivanje do 65536 znakova. Potpuna specifikacija Unicode standarda uključuje sve postojeće, izumrle i umjetno stvorene abecede svijeta, kao i mnoge matematičke, glazbene, kemijske i druge simbole.


Interni prikaz riječi u memoriji računala


koristeći ASCII tablicu



Ponekad se dogodi da se tekst koji se sastoji od slova ruske abecede, primljen s drugog računala, ne može pročitati - na zaslonu monitora vidljiva je neka vrsta "abrakadabre". To je zbog činjenice da računala koriste različita kodiranja znakova ruskog jezika.

Stoga je svako kodiranje određeno vlastitom tablicom kodova. Kao što se može vidjeti iz tablice, različiti znakovi dodijeljeni su istom binarnom kodu u različitim kodovima.


Na primjer, niz numeričkih kodova 221, 194, 204 u CP1251 kodiranju tvori riječ "računalo", dok će u drugim kodovima to biti besmislen skup znakova.


Srećom, u većini slučajeva korisnik ne mora brinuti o transkodiranju tekstualnih dokumenata, jer to rade posebni programi pretvarača ugrađeni u aplikacije.


V
. Izračun količine tekstualnih informacija


Zadatak 1:
Kodirajte riječ "Rim" pomoću tablica za kodiranje KOI8-R i CP1251.


Riješenje:

Zadatak 2:
Uz pretpostavku da je svaki znak kodiran jednim bajtom, procijenite količinu informacija sljedeće rečenice:


"Moj ujak najpoštenijih pravila,


Kad sam ozbiljno obolio,


Prisilio se na poštovanje


I nisam se mogao sjetiti boljeg."


Riješenje:
Ova fraza ima 108 znakova, uključujući interpunkcijske znakove, navodnike i razmake. Taj broj množimo s 8 bita. Dobivamo 108*8=864 bita.


Zadatak 3:
Dva teksta sadrže isti broj znakova. Prvi tekst je napisan na ruskom, a drugi na jeziku plemena Naguri, čija se abeceda sastoji od 16 znakova. Čiji tekst nosi više informacija?


Riješenje:


1) I \u003d K * a (informacijski volumen teksta jednak je proizvodu broja znakova i informacijske težine jednog znaka).


2) Zato što oba teksta imaju isti broj znakova (K), tada razlika ovisi o informacijskom sadržaju jednog znaka abecede (a).


3) 2 a1
= 32, tj. a 1
= 5 bita, 2 a2
= 16, tj. a 2
= 4 bita.


4) ja 1
= K * 5 bita, I 2
= K * 4 bita.


5) To znači da tekst napisan na ruskom jeziku nosi 5/4 puta više informacija.


Zadatak 4:
Volumen poruke, koja je sadržavala 2048 znakova, bio je 1/512 MB. Odredite snagu abecede.


Riješenje:


1) I = 1/512 * 1024 * 1024 * 8 = 16384 bita - količina informacija poruke pretvorena je u bitove.


2) a \u003d I / K \u003d 16384 / 1024 \u003d 16 bita - pada na jedan znak abecede.


3) 2*16*2048 = 65536 znakova - snaga korištene abecede.


Zadatak 5:
Canon LBP laserski pisač ispisuje prosječnom brzinom od 6,3 Kbps. Koliko će trajati ispis dokumenta od 8 stranica ako se zna da na jednoj stranici ima prosječno 45 redaka, 70 znakova po retku (1 znak - 1 bajt)?


Riješenje:


1) Pronađite količinu informacija sadržanu na 1 stranici: 45 * 70 * 8 bita = 25200 bita


2) Pronađite količinu informacija na 8 stranica: 25200 * 8 = 201600 bita


3) Dovodimo do jedinstvenih mjernih jedinica. Da bismo to učinili, prevodimo Mbps u bitove: 6,3 * 1024 = 6451,2 bps.


4) Pronađite vrijeme ispisa: 201600: 6451,2 = 31 sekunda.


Bibliografija


1. Ageev V.M. Teorija informacija i kodiranje: diskretizacija i kodiranje mjernih informacija. - M.: MAI, 1977.


2. Kuzmin I.V., Kedrus V.A. Osnove teorije informacija i kodiranja. - Kijev, Vishcha škola, 1986.


3. Najjednostavnije metode šifriranja teksta / D.M. Zlatopolskog. - M.: Chistye Prudy, 2007. - 32 str.


4. Ugrinovich N.D. Informatika i informacijske tehnologije. Udžbenik za razrede 10-11 / N.D. Ugrinovich. – M.: BINOM. Laboratorij znanja, 2003. - 512 str.


5. http://school497.spb.edu.ru/uchint002/les10/les.html#n

Slični članci

2023 dvezhizni.ru. Medicinski portal.