Атрибуция текста: теория и практика

giphy.com

Лингвист Борис Орехов о том, как установить авторство художественного текста, при чем здесь язык программирования и о загадке «Тихого Дона»

Можно ли достоверно определить авторство художественного текста? Да, и прежде всего с помощью архивных источников — исторических документов. Если нужно узнать, кому принадлежит та или иная статья, которая может быть под псевдонимом или не подписана в принципе, то исследователи ищут платежную ведомость в архивах. Чье бы имя человек ни указал под статьей, деньги он получал за нее под своей фамилией. Так мы можем понять, был ли это Писарев или Чернышевский, Достоевский или Гончаров. Другие документы тоже могут участвовать в атрибуции. Например, на въезде в Петербург обычно составляются списки приезжающих, а нам, предположим, известно, что такое-то произведение не могло быть опубликовано таким-то человеком, если его не было в городе. Любой документ важнее остальных способов атрибуции, и работа с такими источниками может стать настоящим расследованием.

Но, например, личность Шекспира вызывает множество вопросов: кроме завещания, от него до нас не дошли никакие достоверно написанные им документы. Существует точка зрения, что произведения Шекспира принадлежат не Шаксперу из Страдфорда, а кому-то другому — кандидатов множество. Или, скажем, неясно, сочинил ли Гомер, кто бы он ни был, произведения, которые ему приписываются, — это не только знаменитые поэмы, но и так называемые «Гомеровские гимны»: он жил, по всей видимости, в те времена, когда в Греции вообще не было письменности.

Бывают также ситуации, когда источники есть, но они настолько противоречивы, что их можно трактовать в зависимости от собственного взгляда на предмет. Для сторонников версии, что Шолохов действительно написал «Тихий Дон», сохранившаяся рукопись произведения подтверждает его авторство, а противники такой версии считают, что это текст, написанный его рукой, но сочиненный другим человеком.

В случаях, когда нет убедительной доказательной базы в виде документов, люди прибегают к количественным методам анализа. Это область компьютерной лингвистики, которая задействует автоматическую обработку текста, чтобы выявить определенные закономерности в нем. Количественная атрибуция подразумевает, что автор так или иначе проявляет себя в произведении, оставляет своего рода «отпечаток пальца». Предполагается, что есть некоторый «авторский сигнал», который не зависит от того, в каком настроении был автор или на какую тему он писал. Это можно называть авторским стилем. Значит, этот «отпечаток пальца» можно установить какими-то объективными средствами контроля.

Появление количественной атрибуции

Идея количественной атрибуции появилась давно. Во второй половине XIX века возник новый подход к определению авторства картин. Он был сформулирован Джованни Морелли, который призвал пересмотреть подход к атрибуции в целом. Он утверждал, что нужно обращать внимание на детали, например на то, как нарисованы уши или пальцы. Скорее всего, художник не будет задумываться, как именно ему нарисовать ухо, потому что он привык его рисовать некоторым особенным образом. В XX веке Карло Гинзбург вернулся к идее Морелли и назвал ее «уликовой парадигмой».

Джованни Морелли (1980)

// artmarketmonitor.com

Улики в тексте — то, что автор, по всей видимости, не контролирует, о чем он не задумывается, когда пишет. Кто-то считает, что атрибутировать тексты можно на основании одинаковых слов. Характерный пример — спорный текст в истории русской литературы XVIII века, который называется «Отрывок из путешествия В*** И*** Т***». Некоторые литературоведы еще в 60-е годы XX века утверждали: раз есть слово «путешествие», значит, автор — Радищев, ведь он автор «Путешествия из Петербурга в Москву». Разумеется, такая гипотеза звучит не очень убедительно хотя бы потому, что на такое значимое слово мы обращаем внимание, употребляем его осознанно, тем более в названии. След автора кроется в чем-то, на что пристально не посмотрит ни читатель, ни автор, ни редактор, ни кто-либо другой.

Томас Менденхолл примерно в то же время, что и Дж. Морелли, предположил, что таким неконтролируемым параметром может быть длина слова. Он посчитал длину слов в текстах Шекспира и пришел к выводу, что Френсис Бэкон, в сочинениях которого длина слов была приблизительно такой же, и есть Шекспир. Но, во-первых, Менденхолл ошибся при подсчетах, а во-вторых, сама по себе длина слов не является тем параметром, по которому можно определить авторство. Позднее за такой параметр принимали слова, лексемы, распределения падежных форм и так далее. Однако все это не дало убедительных для всех результатов.

Метод Дельта

Перелом случился в 2002 году. Джон Барроуз написал статью «Дельта: мера стилистической разницы», в которой сформулировал подход к задаче количественного установления авторства. Его метод получил название «Дельта».

// Для каждого слова считаем z-score. Он рассчитывается как отношение разницы частотности слова в тексте в процентах и общей частотности по корпусу к стандартному отклонению частотности слова по корпусу. Затем берем среднее для всех разниц между z-score у дв

Для проверки метода Барроуз взял текст, относительно которого нет никаких сомнений в том, кто его написал, — «Потерянный рай» Мильтона. Он рассматривал также другие тексты Мильтона и сравнительно большое число его современников, которых в рамках эксперимента предложил считать претендентами на авторство эпической поэмы.

http:

// versologie.cz/talks/2017chicago/

Важно, что самые частотные слова текста обычно не имеют отношения к его теме. Как правило, это предлоги, союзы, частицы, если они есть в языке, а вовсе не существительные и глаголы, которые формируют тему высказывания. Например, в данном случае самым частотным является артикль the, потом союз and, of и a — ничего связанного с тематикой «Потерянного рая» или любого иного текста. Затем Барроуз взял другие тексты Мильтона и его современников, посчитал разницу между количеством употребления наиболее частотного слова в «Потерянном рае» и у Мильтона. Если суммировать отрезки разности, то можно увидеть, что между «Потерянным раем» и другими текстами Мильтона она заметно меньше в сравнении с другими писателями. Это показало, что предложенный метод действительно может отличать одного автора от другого, поэтому для него начали разрабатываться специальные инструменты.

Технологии проверки авторства

На основе этого метода группой ученых была создана компьютерная библиотека для языка R — Stylo, которая стала считать эту самую дельту. Любой человек, даже не обладающий навыками программирования, может взять и проверить интересующий его текст, потому что у библиотеки есть графический интерфейс.

Создатели библиотеки добавили иерархическую кластеризацию (или, говоря проще, диаграмму в виде дерева). Наиболее близкие тексты оказываются на соседних ветках.

Джоан Роулинг решила попробовать себя в написании текстов, непохожих на «Гарри Поттера», и выпустила книгу под псевдонимом Роберт Гэлбрейт. «Дельта» однозначно указала, что тексты о Гарри Поттере стилистически совершенно соответствуют роману Гэлбрейта и не похожи ни на Толкина, ни на Льюиса, ни на кого-то другого. Уже после этого Джоан Роулинг публично признала свое авторство.

«Дельта» работает для многих языков: английский, арабский, китайский, немецкий, русский.

Однако есть примеры, когда она дает ненадежные результаты. Это происходит в том случае, если в исследовательском корпусе представлены разные жанры. Например, произведения Гончарова «Обрыв», «Обломов», «Обыкновенная история» сгруппированы вместе, а «Фрегат «Паллада» расположен ближе к Гоголю, потому как он написан в другом жанре: это серия путевых очерков.

Другие ошибки связаны с текстами слишком маленького объема. Если текст размером меньше 5000 слов, то результат будет ненадежный. Поэтому авторство «Отрывка из путешествия В*** И*** Т***» не удается установить достоверно. Объем этого текста всего лишь 1680 слов.

Загадка «Тихого Дона»

Но давайте вернемся к Шолохову. «Дельта» прекрасно отличает всех его современников: Ильфа и Петрова от Булгакова, Леонова от Горького и так далее. Некоторые утверждают, что первые две книги «Тихого Дона» написаны одним автором, а вторые две книги — другим.

По результатам анализа с помощью «Дельты» видно, что весь «Тихий Дон» написан одним автором и, видимо, тем же самым человеком, который написал «Донские рассказы». Тут надо уточнить: есть версия, что Шолохов не писал «Донских рассказов» и вообще ничего не писал. Но если мы верим в то, что Шолохов все-таки автор «Донских рассказов», тогда это тот же самый человек, который написал и «Тихий Дон».

Среди ученых, занимающихся количественной атрибуцией, существует версия, что автором «Тихого Дона» является советский писатель А. С. Серафимович. Идея, что «Тихий Дон» принадлежит не Шолохову, возникла почти сразу после публикации романа в журнале «Октябрь». Тогда же была создана специальная комиссия в рамках группы пролетарских писателей, которая должна была расследовать это. Этой комиссией руководил Серафимович, так что его идея об авторстве выглядит совершенно абсурдно: неужели ему нужно было расследовать кражу его собственного романа? И результаты «Дельты» показывают, что автором он, разумеется, не является: Шолохов по-прежнему наиболее вероятный кандидат на авторство «Тихого Дона».

Открытые вопросы атрибуции

С помощью «Дельты» можно определить не только автора, но и дату написания произведения. В течение жизни автора его стиль так или иначе меняется, и «Дельта» это видит. На диаграмме произведений Диккенса разных периодов показано, что романы, написанные в одно десятилетие, сгруппированы вместе.

С помощью датировки можно также определять стилистические особенности перевода. Скажем, сравнивая перевод «Илиады» современного филолога А. И. Любжина и поэта XVIII века Е. И. Кострова, мы видим, что текст А. И. Любжина оказался в одном кластере с поэтами пушкинской эпохи, хотя А. И. Любжин как бы продолжает старый перевод, начиная там, где остановился Е. И. Костров. Тем не менее переводчик не повторяет манеру XVIII века, а говорит на более современном языке. Кроме текстов Кострова и Любжина к исследованию привлекались написанные тем же размером (александрийский стих) «Россияда» М. М. Хераскова, перевод «Слова о полку Игореве» А. Палицына, а также переводы «Илиады» Н. И. Гнедича и В. А. Жуковского, выполненные гекзаметром.

// Двумерный график отношений между текстами по результатам «Дельты» на 200 наиболее частотных словах. «Кластер архаистов» и «кластер новаторов» оказываются разделены большим белым полем посередине, которое в данном случае репрезентирует границу между литера

Существует много методов количественной атрибуции, но другие, кроме «Дельты», не проверялись на таком значительном объеме материала и не могут считаться такими же надежными. Например, можно искать похожие детали в разных текстах. В тексте «Тихого Дона» и в текстах претендента на его авторство Федора Крюкова встречаются диалектные казацкие слова. Однако мысль о том, что это указывает на одного автора, звучит неубедительно.

Рекомендуем по этой теме:

FAQ

Сюрреалистический перевод «Слова о полку Игореве»

Чтобы признать новые методы компьютерной лингвистики, которые сейчас разрабатываются в большом количестве, надежными инструментами для определения авторства и решения других смежных задач, необходима их проверка многими исследователями, а для этого система должна быть удобной. Преимущество «Дельты», благодаря Stylo, в удобстве для пользователей.

Есть ситуации, когда мы не можем установить авторство в принципе. Например, мы вряд ли узнаем, кто написал «Слово о полку Игореве». Это касается вообще большинства древних текстов. Еще одно значимое произведение — диалоги Платона. Философы придерживаются мнения, что Платон в своих ранних диалогах излагал не собственные идеи, а транслировал реальные диалоги своего учителя Сократа. С какого-то момента Платон начинает использовать эту форму уже для передачи нового содержания, продуцирует свою собственную философию, которая отличается от системы Сократа. Поскольку нет никаких документов, которые бы позволили провести эту разграничительную линию, логично появление попыток количественного решения этой проблемы. Этим занимался Винцента Лютославский в XIX веке, который, вероятно, и придумал само слово «стилометрия», которым мы обозначаем количественное исследование стилистики текста.

Очевидно, что одной «Дельты» не всегда достаточно для убедительных результатов определения авторства: она не может работать с короткими или разножанровыми текстами. Нужные другие методы, которые позволят это делать. Новые инструменты нужны, но не как замена «Дельты», а как дополнение в тех сферах, в которых она не справляется.

Полезные ссылки

1. Для проверки текстов с помощью «Дельты» сначала нужно установить R, это свободный и бесплатный интерпретатор языка R. Установщик для Windows, Mac и Linux. Если у вас уже стоит R или даже R Studio, то ничего дополнительно не нужно.

2. Попробовать открыть R — его значок выглядит вот так:

3. Напечатать в командной строке install.packages («stylo») — это установка пакета для стилеметрии. Нажать Enter. Он предложит выбрать зеркало, берите первое (Cloud).

4. После этого опять попробовать вызвать установленный пакет командой library (stylo). Нажать Enter. Он в ответ должен сказать, какая версия stylo. Что-то вроде ### stylo version: 0.6.5 ###

5. Наконец, попробовать запустить графический интерфейс stylo, вызвав функцию stylo (). Нажать Enter. Должно появиться такое окно:

6. Если вы используете MacOS и на экране появилась ошибка с упоминанием XQuartz — надо пойти на этот сайт, поставить XQuartz, перезагрузиться и снова попробовать пункты 2—5.

7. Создайте на компьютере папку, которая называется corpus (это важно, называться она должна именно так).

8. Укажите stylo, где находится папка с вашим корпусом.

9. В открывшемся меню в первой вкладке (Input & language) ставим язык Other и галочку UTF-8.

10. Если не трогать остальные настройки, то после нажатия «OK» тексты из папки corpus кластеризуются по своей стилеметрической близости.

11. Дальше можно изучить документацию и howto и начать работать самостоятельно.

Источник: ПостНаука