Skip to content
lilaspourpre edited this page Apr 26, 2018 · 10 revisions

Описание проекта

Проект “Непрямая речь” преследует две цели: 1) парсер для автоматического выделения прямой, косвенной и прочей речи в тексте и 2) корпус размеченных текстов. Всё это в дальнейшем может использоваться для самых разных гуманитарных исследований.

Какой будет корпус?

  • Русский язык, XIX — XX век
  • В текстах выделена речь
  • Определён её тип: прямая, косвенная, несобственно-прямая
  • Что не выделяется: цитаты, письма
  • Выделяются говорящий и адресат (отсылают к списку персонажей для каждого
  • произведения)
  • Отмечено, произнесена ли реплика вслух
  • Выделен авторский комментарий и его возможные характеристики
  • Выделен глагол речи и его характеристики

Как выглядит разметка?

Тег Для чего
<speech> “Контейнер” для прямой речи и слов автора, относящихся к ней; входит речь одного человека (т.е. по одной реплике в диалоге + сопровождающие её слова автора)
<said> (внутри <speech>) для прямой, косвенной, несобственно-прямой, замещенной и неразвернутой речи
<author_comment> (внутри <speech>) для слов автора
<speech_verb> (внутри <author_comment>) для глагола речи

Теги

<said>

Параметр тега Значение параметра Описание
type direct, indirect, free-indirect тип речи: прямая, косвенная, несобственно-прямая
who id, undefined, all, object говорящий: id персонажа, неопределённый, все присутствующие, объект
corresp id, None, undefined, all, object адресат: id персонажа, нет адресата, неопределённый, все присутствующие, объект
aloud true, false произнесена ли реплика вслух

<author>

Параметр тега Значение параметра Описание
characteristic loud, emotional, angry, sad, neutral, happy, etc описание речи автором (опираемся на наречия, модифицирующие глагол)

<speech_verb>

Параметр тега Значение параметра Описание
semantic speech, question, thought, feelings, state, movement, action - глаголы речи(говорить, сказать), вопрос(спросить), - мысли (подумать), - чувства(обрадоваться, огорчиться), - состояние (насупиться), - глаголы, обозначающие мимику, жесты, движения,- действия (писать, петь)
emotion loud, quiet, yes, no, smile, laugh, angry, sad, neutral, happy эмоциональная характеристика глагола

Как работает парсер?

  • На вход поступает plain text
  • На выход корпус, размеченный языком TEI

Этапы

  1. Создание парсера: a. Написание Розенталь-скрипта, выделяющего прямую речь на основе регулярных выражений, и его отладка на материале вручную размеченного корпуса (тестирование); b. Классификатор, выделяющий разные типы прямой речи, тестирование его на корпусе розенталь-скрипта (+ исправленный вручную); c. Создание модуля, выделяющего характеристики чужой речи;
  2. Создание корпуса: a. Применение парсера к корпусу текстов; b. Создание веб-интерфейса

Задачи

К нашим основным задачам относятся:

  1. Розенталь скрипт для автоматического выделения прямой речи в тексте
  2. Ручная разметка корпуса
  3. Тестирование Розенталь-скрипта -- выявление проблем при помощи корпуса, размеченного вручную
  4. Создание классификатора для определения различных типов речи (прямая речь, диалог, несобственно-прямая речь)
  5. Выделение элементов разных типов речи: ручная и автоматическая разметка
  6. Тестирование классификатора
  7. Объединение скриптов для создание единого парсера прямой речи
  8. Сборка единого размеченного корпуса
  9. Тестирование объединённого парсера
  10. Создание веб-интерфейса для парсера и корпуса
  11. Тестирование веб-интерфейса
  12. Отчет (курсовая работа)

Тестирование

Тестирование непосредственно является частью этапов и задач

Календарь

Ответственность

Розенталь скрипт Ручная разметка Классификатор Повторная разметка Общий парсер Общий корпус Веб-интерфейс
Ира Н. Ира С., Даня Ира Н. Ира С., Даня Все Все Все

Clone this wiki locally