Методика, основанная на изучении закономерностей расположения частей речи в рамках предложения

В качестве основной характеристики текстов рассматривается матрица частот парной встречаемости грамматических классов слов. Для получения такой матрицы необходимо выбрать систему грамматических классов, достаточно детально описывающую особенности языка данного периода; перекодировать последовательность слов текста в последовательность соответствующих обозначений грамматических классов и подсчитать частоты парной встречаемости для каждой пары классов.

Далее, формализуем алгоритм с помощью теории графов. Будем обозначать такой граф GA(X,V), где X – множество вершин (т.е. грамматических форм), а V – множество дуг (т.е. сильных связей грамматических форм). Граф сильных связей строится по матрице частот парной встречаемости следующим образом. Две вершины графа xi и xj (т.е. два грамматических класса) соединяются дугой (стрелкой, направленной от xi к xj, если частота встречаемости данной пары грамматических классов aij равна или превосходит назначенный порог a. Очевидно, что чем больше величина порога a, тем меньше вершин и дуг содержит граф сильных связей.

При этом возникает важный вопрос: каким должен быть критерий сходства структуры двух графов сильных связей, с помощью которого будет проверяться гипотеза о принадлежности исследуемого текста к какому-нибудь автору? В качестве такого критерия в данной работе взято отношение числа общих для двух сравниваемых текстов «узлов» к суммарному количеству узлов для данных текстов. Узлом называется такая вершина графа, в которую входит более чем b (заданное число) дуг. Другими словами, узлу графа сильных связей соответствует такой грамматический класс слов, который имеет существенные связи более чем с b классами данного текста.

Таким образом, введенный коэффициент r близости двух текстов имеет следующий вид:

где n1, n2 – число узлов в 1-м и 2-м текстах соответственно; а n1,2 – число общих узлов в сравниваемых текстах.

Очевидно, значение коэффициента r заключено в пределах от 0 до 1. В том случае, если сравниваемые тексты не имеют общих узлов, r равно 0; если множества их узлов совпадают, r=1. Чем больше доля их общих узлов, тем ближе значение к 1. Этот коэффициент и используется при использовании данной методики атрибуции.

В предварительном исследовании было выделено 16 грамматических классов, где каждый класс обозначал часть речи. Была написана процедура, при помощи которой была получена матрица парной встречаемости грамматических классов. Следующим шагом была задача определения порогового значения сильного графа. Для этого была получена гистограмма относительных парных частот встречаемости для всех текстов. И значение порога бралось из интервала, в который попадало меньше всего данных.

 

Результаты применения метода для наших данных:

  Пороговое знач. 0,0045 Пороговое знач. 0,006 Пороговое знач. 0,0075 Пороговое знач. 0,0085
Узловое значение 3 P0045N3.htm P006N3.htm P0075N3.htm P0085N3.htm
Узловое значение 4 P0045N4.htm P006N4.htm P0075N4.htm P0085N4.htm
Узловое значение 5 P0045N5.htm P006N5.htm P0075N5.htm P0085N5.htm
Узловое значение 6 P0045N6.htm P006N6.htm P0075N6.htm P0085N6.htm

Расшифровка нумерации объектов.