Kodovani souboru

Petr Synek Petr.Synek na ixos.cz
Čtvrtek Leden 15 14:13:59 CET 2004


BOM je Byte Order Mark - prvnich nekolik bytu Unicode souboru. Je to presne
to, co jste uvadel jako FF FE a FE FF pro Unicode dokumenty (v tomto pripade
kodovane jako UTF-16LE a UTF-16BE), viz. napr. JavaDoc ke
java.nio.charset.Charset

Petr

> -----Original Message-----
> From: Tintin [mailto:tintin na centrum.cz] 
> Sent: Thursday, January 15, 2004 14:01
> To: Java
> Subject: Re: Kodovani souboru
> 
> 
> Nevim co je to  BOM 0xefbbbf . Potreboval bych to vysvetlit.
> 
> 
> ----- Original Message ----- 
> From: "Petr Synek" <Petr.Synek na ixos.cz>
> To: "'Java'" <konference na java.cz>
> Sent: Thursday, January 15, 2004 1:32 PM
> Subject: RE: Kodovani souboru
> 
> 
> > UTF 8 ma BOM 0xefbbbf , ale neni jiste ze kazdy UTF-8 (nebo UCS-2) 
> > soubor/stream BOM mit vzdy bude. Pokud UTF-8 BOM nema, tak 
> je snadne 
> > ho splest s ISO-9959-1,2, ASCII apod. Petr
> >
> > > -----Original Message-----
> > > From: Tintin [mailto:tintin na centrum.cz]
> > > Sent: Thursday, January 15, 2004 12:17
> > > To: Java
> > > Subject: Re: Kodovani souboru
> > >
> > >
> > > Ano s tim dvojtym parserovnim souhlasim a tak asi udelam. Ono 
> > > UNICODE je jednoznacne poznat podle prvnich dvou baitu a to FF FE 
> > > nebo FE FF. Tak to poznam. Pokud tam tyto baity na zacatku nejsou 
> > > jde but o ISO-8859-2,WINDOWS-1250,UTF-8. UTF-8 je taky nejakym 
> > > bajtem urcite specificke, dle mne je to 0D nebo 0A coz je pro 
> > > oddeleni radku. Ale mozna se mylim. U win-1250 jsou baity 
> 9A 9B 9E 
> > > 8A 8D 8E ale v iso-8859-2 nejsou nic. Takze mozna by to 
> slo i nejak 
> > > takhle.
> > >
> > >
> > > ----- Original Message -----
> > > From: "Martin Kuba" <makub na ics.muni.cz>
> > > To: "Java" <konference na java.cz>
> > > Sent: Wednesday, January 14, 2004 3:49 PM
> > > Subject: Re: Kodovani souboru
> > >
> > >
> > > > TomášKonečný wrote:
> > > > > Dobry den
> > > > >
> > > > > potrebuji zjistit jake je pouzite kodovani vraceneho 
> souboru ze 
> > > > > serveru.
> > > Podle getConnentType poznam pouze, ze jde o text/html. A pak 
> > > potrebuji parseru HTMl stranek predat vraceny InputStream 
> a pouzite 
> > > kodovani.
> > > > >
> > > > > K parserovani pouzivam HTMLParser. U JTidy jsem mnel 
> problemy s
> > > cestinou, takze ho nepouzivam. Pokud by nekdo vedel jak nastavit 
> > > JTidy, at mne neprasi cestinu tak bych byl vdecen.
> > > >
> > > > No to neni trivialni problem. Hlavicka Content-Type
> > > > muze mit parametr charset, ktery to kodovani urcuje. Takze
> > > pokud je to
> > > > napr.
> > > >
> > > > Content-Type: text/html;charset=utf-8
> > > >
> > > > tak je to v utf-8. Pokud tam ten parametr neni, tak je to
> > > podle RFC v
> > > > ISO-8859-1. Jenze pokud je to specialne HTML, tak muze mit
> > > v sobe tag
> > > >
> > > > <html>
> > > >   <head>
> > > >    <meta http-equiv="Content-Type"
> > > content="text/html;charset=utf-8">
> > > >
> > > > ktery jakoby pridava dalsi HTTP hlavicku, a proto muze urcovat 
> > > > kodovani on. Jenze ten text si neprectete, dokud HTML
> > > nerozparsujete.
> > > >
> > > > Podobne, pokud je obsahem XML/XHTML, tak uvodni XML preambule
> > > >
> > > > <?xml version="1.0" >
> > > >
> > > > znamena, ze je ten text v utf-8, jakozto defaultnim
> > > kodovani XML, nebo
> > > > pokud ma atribut encoding="iso-8859-2", tak urcuje kodovani on.
> > > >
> > > > Proste budete muset dokument nejdriv nacist, podle jeho
> > > druhu zjistit,
> > > > jestli nespecifikuje kodovani sam v sobe, a pokud ano,
> > > rozparsovat ho
> > > > znovu.
> > > >
> > > > makub
> > > > -- 
> ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> > > > Supercomputing Center Brno             Martin Kuba
> > > > Institute of Computer Science    email: makub na ics.muni.cz
> > > > Masaryk University             http://www.ics.muni.cz/~makub/
> > > > Botanicka 68a, 60200 Brno, CZ     mobil: +420-603-533775
> > > > --------------------------------------------------------------
> > > >
> > >
> >
> >
> 


Další informace o konferenci Konference