Dear List,<br>
<br>
I was wondering whether there exist some Java-class that deals <br>
adequately with determining the correct character encoding for a <br>
given text.<br>
Formerly I was using the shell tool "file" as a perl system call, in order<br>
to identify the source encoding, which was the input for "iconv", but <br>
ever since I switched to Java, character encodings are really buggin<br>
me. For instance, when I extract the body text of some websites from<br>
the web, their character encoding may differ <br>
(mainly between ISO-8859-1 and UTF-8). However, internally, I'd like <br>
to deal with UTF-8 only, so I need a convenient way to transform from<br>
ISO-8859-1 to UTF-8. The InputStreamReader class provides the means<br>
for that undertaking, still I need to specify the original charset. For once,<br>
I could try to get the information from the HTML source code, but then,<br>
this is not specified all the time. Now in Java-terms, is there a way to <br>
know which charset for a text is used by looking at the text only?<br>
Did anybody encounter that kind of problem before? (anyone? maybe <br>
the web-as-corpus guys?)<br>
Anyways, your help would be very much appreciated,<br>
thanks a million in advance,<br>
Alex<br>
-- <br>Alexander Schutz<br>Student of Computational Linguistics<br>University of Saarland, Germany