Oct. 8th, 2007

gianthare: (Default)
Собираю статистику по словам, встречающимся в текстах пользователей. Ну, лидируют, ясный пень, the и прочие служебные слова, разумеется присутствует I, но из значащих слов на первых местах work, people и information. Довольно неожиданно. Следуюэая тройка life, business и help. И years еще, но оно не совсем значащее на мой взгляд.
А MySql у меня почему-то все время подвисает, так что я никак не могу прорваться за 500К предложений, хотя и connection заново открываю, и по частям таблицу считываю.
А всего в полмиллионе предложений 246 тыс. разных слов, из них 152 тыс. встречаются более одного раза, и всего 50 тысяч более девяти раз.

Profile

gianthare: (Default)
gianthare

June 2025

S M T W T F S
1234567
8 91011121314
15161718192021
22232425262728
2930     

Most Popular Tags

Style Credit

Expand Cut Tags

No cut tags
Page generated Nov. 1st, 2025 05:32 am
Powered by Dreamwidth Studios