(no subject)
Mar. 17th, 2011 04:11 pmПолучили ngrams, закачиваю потихоньку в базу.
Однако, похоже придется еще немало с ними повозиться, прежде чем можно будет нормально пользоваться.
Там одних уникальных частей речи 8 тысяч. И все нестандартные. Как составитель дошел до жизни такой, выяснить не представляется возможным, потому что на мэйлы он отвечать перестал.
Пока что за вчера-сегодня я выяснил, что лексикон записан в UTF-16LE и закачал его в базу. Это тоже было нетривиально, потому что file, например, скромно сообщает data file. Пришлось открыть в браузере и поиграться с кодировками, а потом очередной раз найти как в Перле читать файл в юникоде.
Однако, похоже придется еще немало с ними повозиться, прежде чем можно будет нормально пользоваться.
Там одних уникальных частей речи 8 тысяч. И все нестандартные. Как составитель дошел до жизни такой, выяснить не представляется возможным, потому что на мэйлы он отвечать перестал.
Пока что за вчера-сегодня я выяснил, что лексикон записан в UTF-16LE и закачал его в базу. Это тоже было нетривиально, потому что file, например, скромно сообщает data file. Пришлось открыть в браузере и поиграться с кодировками, а потом очередной раз найти как в Перле читать файл в юникоде.