May 12th, 2010

Pacific

Sybase всё

Еще один слух подтвердился: SAP купил Sybase-а за 6 миллиардов. Когда в 2002-м пошел слух, что SAP собирается купить Commerce One, это не пошло на пользу покупаемому: акции C1 вначале подскочили, но Германа все не было, акции упали, а еще через несколько месяцев Commerce One не стало. Примерно такое же произошло было с Sybase, но все обошлось: купили. Акции Sybase за сегодняшний день подскочили с 14 долларов до 56.

Теперь SAP-у больше никто не нужен. Microsoft и Oracle могут не беспокоиться :)

Pacific

Широко жил партизан Боснюк

Новые фичи языка C# в блоге милой Александры Русиной (Alexandra Rusina). Кое-что из новых фич нам знакомо по VB, кое-что по C++. Наконец-то добавлены необязательные параметры. В общем, еще пару версий и получится взрослый язык программирования.

Pacific

Пригодится

Некоторые статистические данные об использовании русских слов.

  • Средняя длина слова 5.28 символа.
  • Средняя длина предложения 10.38 слов.
  • 1000 наиболее частотных лемм покрывает 64.0708% текста.
  • 2000 наиболее частотных лемм покрывают 71.9521% текста.
  • 3000 наиболее частотных лемм покрывают 76.5104% текста.
  • 5000 наиболее частотных лемм покрывают 82.0604% текста.

“Список построен на основе представительного корпуса современного русского языка. Он включает в себя подборку современной прозы, политических мемуаров, современных газет и научно-популярной литературы (около 40 миллионов слов, проза составляет примерно чуть больше половины объема). Все тексты корпуса были написаны на русском в промежутке между 1970 и 2002; большинство между 1980 и 1995, газетный корпус 1997-1999 (корпус основан на текстах из Библиотеки Мошкова и корпуса современной публицистики А.В.Баранова).”

Список 5000 наиболее частых слов

  • 5000lemma.al.zip - леммы, отсортированные в алфавитном порядке
  • 5000lemma.num.zip - леммы, отсортированные по частоте

Дрова отсюда.

Я же этим тоже занимался, но для 7-8 языков… Интересно было бы найти мою статистику и сравнить: у меня выборка была куда меньше, но цифры были, кажется, очень похожими.

Кстати, вот еще: данные частотного анализа применительно буквам русского алфавита и еще кое-что по мелочи.