-
Notifications
You must be signed in to change notification settings - Fork 5
Home
lilaspourpre edited this page Apr 26, 2018
·
10 revisions
Проект “Непрямая речь” преследует две цели: 1) парсер для автоматического выделения прямой, косвенной и прочей речи в тексте и 2) корпус размеченных текстов. Всё это в дальнейшем может использоваться для самых разных гуманитарных исследований.
- Русский язык, XIX — XX век
- В текстах выделена речь
- Определён её тип: прямая, косвенная, несобственно-прямая
- Что не выделяется: цитаты, письма
- Выделяются говорящий и адресат (отсылают к списку персонажей для каждого
- произведения)
- Отмечено, произнесена ли реплика вслух
- Выделен авторский комментарий и его возможные характеристики
- Выделен глагол речи и его характеристики
| Тег | Для чего |
|---|---|
| <speech> | “Контейнер” для прямой речи и слов автора, относящихся к ней; входит речь одного человека (т.е. по одной реплике в диалоге + сопровождающие её слова автора) |
| <said> | (внутри <speech>) для прямой, косвенной, несобственно-прямой, замещенной и неразвернутой речи |
| <author_comment> | (внутри <speech>) для слов автора |
| <speech_verb> | (внутри <author_comment>) для глагола речи |
| Параметр тега | Значение параметра | Описание |
|---|---|---|
| type | direct, indirect, free-indirect | тип речи: прямая, косвенная, несобственно-прямая |
| who | id, undefined, all, object | говорящий: id персонажа, неопределённый, все присутствующие, объект |
| corresp | id, None, undefined, all, object | адресат: id персонажа, нет адресата, неопределённый, все присутствующие, объект |
| aloud | true, false | произнесена ли реплика вслух |
| Параметр тега | Значение параметра | Описание |
|---|---|---|
| characteristic | loud, emotional, angry, sad, neutral, happy, etc | описание речи автором (опираемся на наречия, модифицирующие глагол) |
| Параметр тега | Значение параметра | Описание |
|---|---|---|
| semantic | speech, question, thought, feelings, state, movement, action | - глаголы речи(говорить, сказать), вопрос(спросить), - мысли (подумать), - чувства(обрадоваться, огорчиться), - состояние (насупиться), - глаголы, обозначающие мимику, жесты, движения,- действия (писать, петь) |
| emotion | loud, quiet, yes, no, smile, laugh, angry, sad, neutral, happy | эмоциональная характеристика глагола |
- На вход поступает plain text
- На выход корпус, размеченный языком TEI
- Создание парсера: a. Написание Розенталь-скрипта, выделяющего прямую речь на основе регулярных выражений, и его отладка на материале вручную размеченного корпуса (тестирование); b. Классификатор, выделяющий разные типы прямой речи, тестирование его на корпусе розенталь-скрипта (+ исправленный вручную); c. Создание модуля, выделяющего характеристики чужой речи;
- Создание корпуса: a. Применение парсера к корпусу текстов; b. Создание веб-интерфейса
К нашим основным задачам относятся:
- Розенталь скрипт для автоматического выделения прямой речи в тексте
- Ручная разметка корпуса
- Тестирование Розенталь-скрипта -- выявление проблем при помощи корпуса, размеченного вручную
- Создание классификатора для определения различных типов речи (прямая речь, диалог, несобственно-прямая речь)
- Выделение элементов разных типов речи: ручная и автоматическая разметка
- Тестирование классификатора
- Объединение скриптов для создание единого парсера прямой речи
- Сборка единого размеченного корпуса
- Тестирование объединённого парсера
- Создание веб-интерфейса для парсера и корпуса
- Тестирование веб-интерфейса
- Отчет (курсовая работа)
Тестирование непосредственно является частью этапов и задач
| Розенталь скрипт | Ручная разметка | Классификатор | Повторная разметка | Общий парсер | Общий корпус | Веб-интерфейс |
|---|---|---|---|---|---|---|
| Ира Н. | Ира С., Даня | Ира Н. | Ира С., Даня | Все | Все | Все |