?

Log in

No account? Create an account
Тропа мира [entries|archive|friends|userinfo]
Great Serpent

[ website | Monumenta altaica ]
[ userinfo | livejournal userinfo ]
[ archive | journal archive ]

Последний доклад Старостина [Nov. 8th, 2005|10:46 am]
Great Serpent
Тяжелая осень. Уходят люди, которым очень обязан.

Сегодня 40 дней Сергею Анатольевичу Старостину. Я хочу выложить здесь конспект доклада, который он прочел за день до своей смерти, в Институте Восточных Культур РГГУ 29 сентября 2005 года. В конспекте есть некоторые провалы и, возможно, какие-то важные идеи потеряны. Очень надеюсь, что люди, которые тоже были на этом докладе, в частности, enott, внесут свои поправки.


Старостин С.А. Компьютерная симуляция лексической дивергенции.
Доклад, прочитанный в Институте Восточных Культур РГГУ 29 сентября 2005 года


Классическая формула Сводеша с=е-λt предполагает простую линейную зависимость между количеством сохранившихся на некоторый момент времени элементов стословника1 и истекшим временем.

Стандартная формула2, предложенная Старостиным в 1989 году (см. статью http://altaica.narod.ru/LIBRARY/glotto.pdf)
с=е-λсt2

описывает действие двух направленных в противоположные стороны процессов: замедления скорости распада при выпадении менее устойчивой лексики (и, соответственно, сохранении более устойчивой) и ускорения распада за счет старения слов (подробнее см. ту же статью 1989 года).

Но можно ли доказать феномен старения слов? Есть много фактов, показывающих, что такое явление имеет место, но этого недостаточно. И как определить устойчивость слова? Ведь всем очевидно, что слова в стословнике имеют разную устойчивость. Устойчивость местоимений и устойчивость слова «короткий» очевидным образом разная.

Проведем эксперимент, учитывающий, как старение слов, так и их устойчивость. Проверим стословники крупных семей: индоевропейской, алтайской, афразийской и т.д. Смотрим, сколько корней в данной семье обслуживает одно понятие из стословника. Делим это число на количество языков в семье. Чем меньше получаемое число, тем устойчивее данное понятие в этой языковой семье. Выстраиваем иерархию стабильности понятий стословника для данной семьи. Аналогичную процедуру проводим для прочих семей. Сравниваем результаты и получаем обобщенный список, в котором всем понятиям в стословнике от 1 до 100 присваивается определенный коэффициент вероятности выпадения. Вот список 10 самых стабильных понятий стословника по результатам анализа более 30 крупных языковых семей мира:
мы, глаз, я, два, ты, язык, камень, имя, рука, умирать.
Наименее стабильным понятием оказывается слово «гора». Получаем иерархию, в которой понятие «мы» имеет коэффициент вероятности выпадения 0,01, а понятие «гора» - 1. Это начальный индекс для нашего эксперимента.

Далее моделируется жизнь гипотетического языка в течение 20 000 лет. Задается некоторый этап, «поколение», например 25 или 50 лет. В каждом поколении пробуем каждое слово на прочность. Берется пороговая частота (из диапазона 0,8 ~0,9) (Я не очень понял, почему именно такая - ИГ), скажем 0,84. Если слово имеет вероятность выпадения < 0,84, то оно сохраняется в любом случае. Например, если у слова коэффициент 0,5, то у него нет шансов выпасть на данном этапе. Возьмем теперь слово с показателем 0,86. Включаем генератор случайных чисел, действующий на участке от 0,84 до 1. Если генератор дает число меньше указанного, например 0,85, то слово с коэффициентом 0,86 выпадает. Если же генератор выдает число 0,87, то слов с коэффициентом 0,86 сохраняется. Оставшиеся слова ранжируются заново. Вместо выпавшего слова появляется новое слово с коэффициентом, соответствующим исходному индексу. Кроме того, независимо работает и «старение слов». С каждым «поколением» слово стареет на (1-свой коэффициент)/число лет поколения. Если поколение – 50 лет, то слово с коэффициентом 0,6 будет стареть за каждые 50 лет на 0,4/50 лет. Когда слово, старея, доходит до коэффициента 0,84 оно подпадает под действие генератора случайных чисел и тоже может выпасть.


Далее в системе Старлинг проводилось построение графиков распада для двух языков со следующими вариантами:

1. по стандартной формуле Cтаростина
2. по экспериментальной формуле.

2.1 так, чтобы новое слово, появившееся после выпадения одного из старых, имело коэффициент выпадения, соответствующий коэффициенту в исходном индексе. Например, если выпадает слово «мы», то новое слово, заменившее его, также будет иметь коэффициент выпадения 0,01.
2.2 так, чтобы новое слово, появившееся после выпадения одного из старых, имело минимальный коэффициент выпадения. То есть, если выпадает слово «гора» с коэффициентом вероятности выпадения 1, то новое слово оказывается сверхустойчивым и имеет коэффициент 0,01.
2.3 так, чтобы новое слово, появившееся после выпадения одного из старых, имело максимальный коэффициент выпадения. То есть, если выпадает слово «мы» с исходным коэффициентом вероятности выпадения 0,01, то новое слово оказывается сверхнеустойчивым и имеет коэффициент 1.
2.4 так, чтобы новое слово, появившееся после выпадения одного из старых, имело средний коэффициент выпадения, скажем, 0,05.

Любопытным оказалось, то, что во всех 5 случаях полученный график оказывался практически идентичным, различался пренебрежимо мало.

Таким образом, оказывается, что относительная устойчивость слова в стословнике, не оказывает никакого влияния на общий график языкового распада.


Примечания:
1. Классический стословник Сводеша:
all, ashes, bark, belly, big, bird, bite, black, blood, bone, breast, burn (trans.), claw (nail), cloud, cold, come, die, dog, drink, dry, ear, earth, eat, egg, eye, fat, feather, fire, fish, fly (verb), foot, full, give, good, green, hair, hand, head, hear, heart, horn, I, kill, knee, know, leaf, lie, liver, long, louse, man, many, meat, moon, mountain, mouth, name, neck, new, night, nose, not, one, person, rain, red, road, root, round, sand, say, see, seed, sit, skin, sleep, small, smoke, stand, star, stone, sun, swim, tail, that, this, thou, tongue, tooth, tree, two, walk, warm, water, we, what, white, who, woman, yellow,

10 слов, добавленных Яхонтовым: far, heavy, near, salt, short, snake, thin, wind, worm, year.

2. В формулах Сводеша и Старостина «с» обозначает долю слов в списке, сохранившуюся к некоторому моменту времени t. λ – средняя скорость распада.
linkReply

Comments:
[User Picture]From: egor_13
2005-11-08 10:41 am (UTC)
Самое тяжелое не само то, что люди уходят, а что уходят они слишком рано...
(Reply) (Thread)
[User Picture]From: bdag_med
2005-11-08 11:09 am (UTC)
График имеет форму, близкую к логистической, насколько я понимаю (видел распечатки). И очипятка в названии :)
(Reply) (Thread)
[User Picture]From: chingachguk
2005-11-08 11:24 am (UTC)
ага, спасибо.
(Reply) (Parent) (Thread)