Kodovani souboru

Petr Synek Petr.Synek na ixos.cz
Čtvrtek Leden 15 15:21:23 CET 2004


Asi jo, nikdy jsem to neresil. Tuhle detekci mivaly dobre vyresene ruzne
prevodniky mezi kodovanimi pro webove vyvojare, zkuste se mrknout na neco z
http://www.cestina.cz/cestina/konvertory/ , treba u neceho budou i
zdrojaky... 


> -----Original Message-----
> From: Tintin [mailto:tintin na centrum.cz] 
> Sent: Thursday, January 15, 2004 14:31
> To: Java
> Subject: Re: Kodovani souboru
> 
> 
> Jo mne ten nazev byl najasny, jinak to ten hexa kod jsem 
> nejak neztravil. Moje chyba. Jinak je to jasne. A je nejaky 
> zpusob na rozpoznani win x iso, podle mne by to mohla byt 
> jedinecnost znaku 9A 9B 9E 8A 8D 8E v win, kdezto ve iso 
> nemaji zadny smysl.
> 
> 
> Tomas
> 
> 
> ----- Original Message ----- 
> From: "Petr Synek" <Petr.Synek na ixos.cz>
> To: "'Java'" <konference na java.cz>
> Sent: Thursday, January 15, 2004 2:13 PM
> Subject: RE: Kodovani souboru
> 
> 
> > BOM je Byte Order Mark - prvnich nekolik bytu Unicode souboru. Je to
> presne
> > to, co jste uvadel jako FF FE a FE FF pro Unicode dokumenty (v tomto
> pripade
> > kodovane jako UTF-16LE a UTF-16BE), viz. napr. JavaDoc ke 
> > java.nio.charset.Charset
> >
> > Petr
> >
> > > -----Original Message-----
> > > From: Tintin [mailto:tintin na centrum.cz]
> > > Sent: Thursday, January 15, 2004 14:01
> > > To: Java
> > > Subject: Re: Kodovani souboru
> > >
> > >
> > > Nevim co je to  BOM 0xefbbbf . Potreboval bych to vysvetlit.
> > >
> > >
> > > ----- Original Message -----
> > > From: "Petr Synek" <Petr.Synek na ixos.cz>
> > > To: "'Java'" <konference na java.cz>
> > > Sent: Thursday, January 15, 2004 1:32 PM
> > > Subject: RE: Kodovani souboru
> > >
> > >
> > > > UTF 8 ma BOM 0xefbbbf , ale neni jiste ze kazdy UTF-8 
> (nebo UCS-2) 
> > > > soubor/stream BOM mit vzdy bude. Pokud UTF-8 BOM nema, tak
> > > je snadne
> > > > ho splest s ISO-9959-1,2, ASCII apod. Petr
> > > >
> > > > > -----Original Message-----
> > > > > From: Tintin [mailto:tintin na centrum.cz]
> > > > > Sent: Thursday, January 15, 2004 12:17
> > > > > To: Java
> > > > > Subject: Re: Kodovani souboru
> > > > >
> > > > >
> > > > > Ano s tim dvojtym parserovnim souhlasim a tak asi udelam. Ono 
> > > > > UNICODE je jednoznacne poznat podle prvnich dvou 
> baitu a to FF 
> > > > > FE nebo FE FF. Tak to poznam. Pokud tam tyto baity na zacatku 
> > > > > nejsou jde but o ISO-8859-2,WINDOWS-1250,UTF-8. UTF-8 je taky 
> > > > > nejakym bajtem urcite specificke, dle mne je to 0D 
> nebo 0A coz 
> > > > > je pro oddeleni radku. Ale mozna se mylim. U win-1250 
> jsou baity
> > > 9A 9B 9E
> > > > > 8A 8D 8E ale v iso-8859-2 nejsou nic. Takze mozna by to
> > > slo i nejak
> > > > > takhle.
> > > > >
> > > > >
> > > > > ----- Original Message -----
> > > > > From: "Martin Kuba" <makub na ics.muni.cz>
> > > > > To: "Java" <konference na java.cz>
> > > > > Sent: Wednesday, January 14, 2004 3:49 PM
> > > > > Subject: Re: Kodovani souboru
> > > > >
> > > > >
> > > > > > TomášKonečný wrote:
> > > > > > > Dobry den
> > > > > > >
> > > > > > > potrebuji zjistit jake je pouzite kodovani vraceneho
> > > souboru ze
> > > > > > > serveru.
> > > > > Podle getConnentType poznam pouze, ze jde o text/html. A pak 
> > > > > potrebuji parseru HTMl stranek predat vraceny InputStream
> > > a pouzite
> > > > > kodovani.
> > > > > > >
> > > > > > > K parserovani pouzivam HTMLParser. U JTidy jsem mnel
> > > problemy s
> > > > > cestinou, takze ho nepouzivam. Pokud by nekdo vedel 
> jak nastavit 
> > > > > JTidy, at mne neprasi cestinu tak bych byl vdecen.
> > > > > >
> > > > > > No to neni trivialni problem. Hlavicka Content-Type 
> muze mit 
> > > > > > parametr charset, ktery to kodovani urcuje. Takze
> > > > > pokud je to
> > > > > > napr.
> > > > > >
> > > > > > Content-Type: text/html;charset=utf-8
> > > > > >
> > > > > > tak je to v utf-8. Pokud tam ten parametr neni, tak je to
> > > > > podle RFC v
> > > > > > ISO-8859-1. Jenze pokud je to specialne HTML, tak muze mit
> > > > > v sobe tag
> > > > > >
> > > > > > <html>
> > > > > >   <head>
> > > > > >    <meta http-equiv="Content-Type"
> > > > > content="text/html;charset=utf-8">
> > > > > >
> > > > > > ktery jakoby pridava dalsi HTTP hlavicku, a proto 
> muze urcovat 
> > > > > > kodovani on. Jenze ten text si neprectete, dokud HTML
> > > > > nerozparsujete.
> > > > > >
> > > > > > Podobne, pokud je obsahem XML/XHTML, tak uvodni XML 
> preambule
> > > > > >
> > > > > > <?xml version="1.0" >
> > > > > >
> > > > > > znamena, ze je ten text v utf-8, jakozto defaultnim
> > > > > kodovani XML, nebo
> > > > > > pokud ma atribut encoding="iso-8859-2", tak urcuje kodovani 
> > > > > > on.
> > > > > >
> > > > > > Proste budete muset dokument nejdriv nacist, podle jeho
> > > > > druhu zjistit,
> > > > > > jestli nespecifikuje kodovani sam v sobe, a pokud ano,
> > > > > rozparsovat ho
> > > > > > znovu.
> > > > > >
> > > > > > makub
> > > > > > --
> > > ~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~~
> > > > > > Supercomputing Center Brno             Martin Kuba
> > > > > > Institute of Computer Science    email: makub na ics.muni.cz
> > > > > > Masaryk University             
> http://www.ics.muni.cz/~makub/
> > > > > > Botanicka 68a, 60200 
> Brno, CZ     mobil: +420-603-533775
> > > > > > 
> --------------------------------------------------------------
> > > > > >
> > > > >
> > > >
> > > >
> > >
> >
> >
> 


Další informace o konferenci Konference