Will work for information
Oct. 8th, 2007 06:02 pmСобираю статистику по словам, встречающимся в текстах пользователей. Ну, лидируют, ясный пень, the и прочие служебные слова, разумеется присутствует I, но из значащих слов на первых местах work, people и information. Довольно неожиданно. Следуюэая тройка life, business и help. И years еще, но оно не совсем значащее на мой взгляд.
А MySql у меня почему-то все время подвисает, так что я никак не могу прорваться за 500К предложений, хотя и connection заново открываю, и по частям таблицу считываю.
А всего в полмиллионе предложений 246 тыс. разных слов, из них 152 тыс. встречаются более одного раза, и всего 50 тысяч более девяти раз.
А MySql у меня почему-то все время подвисает, так что я никак не могу прорваться за 500К предложений, хотя и connection заново открываю, и по частям таблицу считываю.
А всего в полмиллионе предложений 246 тыс. разных слов, из них 152 тыс. встречаются более одного раза, и всего 50 тысяч более девяти раз.