Kodovani souboru

Tintin tintin na centrum.cz
Čtvrtek Leden 15 14:01:06 CET 2004


Nevim co je to  BOM 0xefbbbf . Potreboval bych to vysvetlit.


----- Original Message ----- 
From: "Petr Synek" <Petr.Synek na ixos.cz>
To: "'Java'" <konference na java.cz>
Sent: Thursday, January 15, 2004 1:32 PM
Subject: RE: Kodovani souboru


> UTF 8 ma BOM 0xefbbbf , ale neni jiste ze kazdy UTF-8 (nebo UCS-2)
> soubor/stream BOM mit vzdy bude.
> Pokud UTF-8 BOM nema, tak je snadne ho splest s ISO-9959-1,2, ASCII apod.
> Petr
>
> > -----Original Message-----
> > From: Tintin [mailto:tintin na centrum.cz]
> > Sent: Thursday, January 15, 2004 12:17
> > To: Java
> > Subject: Re: Kodovani souboru
> >
> >
> > Ano s tim dvojtym parserovnim souhlasim a tak asi udelam.
> > Ono UNICODE je jednoznacne poznat podle prvnich dvou baitu a
> > to FF FE nebo FE FF. Tak to poznam. Pokud tam tyto baity na
> > zacatku nejsou jde but o ISO-8859-2,WINDOWS-1250,UTF-8. UTF-8
> > je taky nejakym bajtem urcite specificke, dle mne je to 0D
> > nebo 0A coz je pro oddeleni radku. Ale mozna se mylim. U
> > win-1250 jsou baity 9A 9B 9E 8A 8D 8E ale v iso-8859-2 nejsou
> > nic. Takze mozna by to slo i nejak takhle.
> >
> >
> > ----- Original Message ----- 
> > From: "Martin Kuba" <makub na ics.muni.cz>
> > To: "Java" <konference na java.cz>
> > Sent: Wednesday, January 14, 2004 3:49 PM
> > Subject: Re: Kodovani souboru
> >
> >
> > > TomášKonečný wrote:
> > > > Dobry den
> > > >
> > > > potrebuji zjistit jake je pouzite kodovani vraceneho souboru ze
> > > > serveru.
> > Podle getConnentType poznam pouze, ze jde o text/html. A pak
> > potrebuji parseru HTMl stranek predat vraceny InputStream a
> > pouzite kodovani.
> > > >
> > > > K parserovani pouzivam HTMLParser. U JTidy jsem mnel problemy s
> > cestinou, takze ho nepouzivam. Pokud by nekdo vedel jak
> > nastavit JTidy, at mne neprasi cestinu tak bych byl vdecen.
> > >
> > > No to neni trivialni problem. Hlavicka Content-Type
> > > muze mit parametr charset, ktery to kodovani urcuje. Takze
> > pokud je to
> > > napr.
> > >
> > > Content-Type: text/html;charset=utf-8
> > >
> > > tak je to v utf-8. Pokud tam ten parametr neni, tak je to
> > podle RFC v
> > > ISO-8859-1. Jenze pokud je to specialne HTML, tak muze mit
> > v sobe tag
> > >
> > > <html>
> > >   <head>
> > >    <meta http-equiv="Content-Type"
> > content="text/html;charset=utf-8">
> > >
> > > ktery jakoby pridava dalsi HTTP hlavicku, a proto muze urcovat
> > > kodovani on. Jenze ten text si neprectete, dokud HTML
> > nerozparsujete.
> > >
> > > Podobne, pokud je obsahem XML/XHTML, tak uvodni XML preambule
> > >
> > > <?xml version="1.0" >
> > >
> > > znamena, ze je ten text v utf-8, jakozto defaultnim
> > kodovani XML, nebo
> > > pokud ma atribut encoding="iso-8859-2", tak urcuje kodovani on.
> > >
> > > Proste budete muset dokument nejdriv nacist, podle jeho
> > druhu zjistit,
> > > jestli nespecifikuje kodovani sam v sobe, a pokud ano,
> > rozparsovat ho
> > > znovu.
> > >
> > > makub
> > > --
> > > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> > > Supercomputing Center Brno             Martin Kuba
> > > Institute of Computer Science    email: makub na ics.muni.cz
> > > Masaryk University             http://www.ics.muni.cz/~makub/
> > > Botanicka 68a, 60200 Brno, CZ     mobil: +420-603-533775
> > > --------------------------------------------------------------
> > >
> >
>
>



Další informace o konferenci Konference