Возникла задача определения языка текста. В качестве инструмента была выбрана библиотека libexttextcat (http://www.freedesktop.org/wiki/Software/libexttextcat/), производная от проекта TextCat, который использует т.н. N-граммы (N-Gram) для анализа текста.
Установка:
[orca@blizzard ~]$ cd /store/Install/ [orca@blizzard Install]$ git clone git://anongit.freedesktop.org/git/libreoffice/libexttextcat/ [orca@blizzard Install]$ cd libexttextcat [orca@blizzard libexttextcat]$ ./autogen.sh [orca@blizzard libexttextcat]$ ./configure [orca@blizzard libexttextcat]$ make [orca@blizzard libexttextcat]$ make check [orca@blizzard libexttextcat]$ sudo make install |
Запуск и проверка:
[orca@blizzard LM]$ cd langclass/LM [orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf check out the HP website. HP has a lot of very good [en--utf8] [orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf Melden Sie sich jetzt für die 10. Internationale Unicode Konferenz an [de--utf8] [orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf Shaxar telefon tarmoqlari va «UZONLINE» internet xizmati uchun to'lovlar qayta qabul qilina boshlandi. [uz--utf8] [orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf Документ подписали министры иностранных дел Ирана, Омана, Туркменистана и Узбекистана. [ru--utf8] [orca@blizzard LM]$ ../../src/testtextcat ../fpdb.conf 제10회 유니코드 국제 회의가 1997년 3월 10일부터 12일까지 독일의 [ko--utf8] |