Как угадать язык текста

Возникла задача определения языка текста. В качестве инструмента была выбрана библиотека libexttextcat (http://www.freedesktop.org/wiki/Software/libexttextcat/), производная от проекта TextCat, который использует т.н. N-граммы (N-Gram) для анализа текста.

Установка:

[orca@blizzard ~]$ cd /store/Install/
[orca@blizzard Install]$ git clone git://anongit.freedesktop.org/git/libreoffice/libexttextcat/
[orca@blizzard Install]$ cd libexttextcat
[orca@blizzard libexttextcat]$ ./autogen.sh
[orca@blizzard libexttextcat]$ ./configure
[orca@blizzard libexttextcat]$ make
[orca@blizzard libexttextcat]$ make check
[orca@blizzard libexttextcat]$ sudo make install

Запуск и проверка:

[orca@blizzard LM]$ cd langclass/LM
[orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf
check out the HP website. HP has a lot of very good
[en--utf8]
[orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf
Melden Sie sich jetzt für die 10. Internationale Unicode Konferenz an
[de--utf8]
[orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf
Shaxar telefon tarmoqlari va «UZONLINE» internet xizmati uchun to'lovlar qayta qabul qilina boshlandi.
[uz--utf8]
[orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf
Документ подписали министры иностранных дел Ирана, Омана, Туркменистана и Узбекистана.
[ru--utf8]
[orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf
제10회 유니코드 국제 회의가 1997년 3월 10일부터 12일까지 독일의
[ko--utf8]