LABORATORY
FOR

COMPUTATIONAL
LEXICOGRAPHY

  Русский

Home

History

Research

Publications

Linguistic expeditions

Seminar

People

Contact

The next seminar
28.03.2017, 11 a.m.
The MSU Second Humanities Building, room 369.

 

 

"Cognitive aspects of computational lexicography":

 

Mikhail Yu. Mikheev
Doctor of Philology,
leading researcher,
Laboratory for Computational Lexicography
SRCC, Lomonosov Moscow State University

Lev I. Erlikh
computer programmer, Laboratory for Information Systems
SRCC, Lomonosov Moscow State University


М.Ю. Михеев,
доктор филологических наук,
ведущий научный сотрудник
лаборатории автоматизированных лексикографических систем НИВЦ МГУ имени М.В. Ломоносова

Л.И. Эрлих,
программист лаборатории информационных систем НИВЦ МГУ имени М.В. Ломоносова

 

Подход к определению авторства по частотам служебных слов
 

У каждого автора есть свои, отличающиеся от другого, предпочтения в употреблении какого-то одного элемента синонимического гнезда и неупотреблении другого. Рассматривается гипотеза, высказанная в 80-х годах ХХ века, о том, что наиболее удобным стилеметрическим инструментом при определении авторства текста могут быть частоты служебных слов (некоторые исследователи считали, что использованием этого факта можно опровергнуть статистические выводы известной работы Г. Хьетсо и др. о том, что автором первой половины романа Тихий Дон с большей достоверностью является Шолохов, нежели Крюков). В нашей работе начальная гипотеза видоизменена и доработана: сам корпус известных текстов Крюкова за прошедшее время серьезно расширен, в список "служебных слов" помимо предлогов, союзов и частиц добавлены наречия, модальные, дискурсивные и вводные слова, а также коннекторы разного рода, в том числе неоднословные, разрывные (вроде "такой..., как"), но вместо совокупной частоты всех служебных слов, вместе взятых, использовавшейся первоначально, предлагается методика, описывающая частоты каждого из этих элементов как конкретную составляющую идиолектного профиля автора.

 


S. F. Chlenova
"
Documenting of
endangered languages of East Indonesia"
(in Power Point format)