gianthare: (Default)
[personal profile] gianthare
Получили ngrams, закачиваю потихоньку в базу.
Однако, похоже придется еще немало с ними повозиться, прежде чем можно будет нормально пользоваться.
Там одних уникальных частей речи 8 тысяч. И все нестандартные. Как составитель дошел до жизни такой, выяснить не представляется возможным, потому что на мэйлы он отвечать перестал.

Пока что за вчера-сегодня я выяснил, что лексикон записан в UTF-16LE и закачал его в базу. Это тоже было нетривиально, потому что file, например, скромно сообщает data file. Пришлось открыть в браузере и поиграться с кодировками, а потом очередной раз найти как в Перле читать файл в юникоде.

Date: 2011-03-17 02:35 pm (UTC)
From: [identity profile] vykl.livejournal.com
Сочувствую по поводу грамов...
Возился с ними как-то тоже - OCR, который включал лигатуры...

Profile

gianthare: (Default)
gianthare

March 2022

S M T W T F S
   12 345
6789101112
13141516171819
20212223242526
2728293031  

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Jul. 9th, 2025 03:28 pm
Powered by Dreamwidth Studios