БД

By M.Panov Date 18/10/2011 18:44

День добрый, Амина,

посмотрите описание моей БД - Corpus, я каждый день с ней работаю много лет, без единого "глюка". Там я хорошо изложил подход к единицам текста, их организации и поиску.

М.

By Амина Date 08/12/2011 22:31

Спасибо! Была без возможности доступа к стационарному интернету, посмотрю.

By А. И.-Т. Date 20/10/2011 00:24

Структура базы данных зависит от конкретных задач, ради которых эта база создается, и от того, какие инструменты она должна дать для их решения.
Важно понимать, что более высокая степень формализации вводимых данных всегда дает более богатые возможности компьютеризированного анализа, но делает ввод более трудоемким.
Можно определить два полярных подхода к проектированию баз данных для росписи текстов с точки зрения степени формализации.
Первый реализован в Thesaurus Linguae Aegyptiae. База данных этого проекта следует тем же принципам, по которым была организована картотека берлинского словаря, с той разницей, что вместо иероглифики используется транслитерация. При вводе в эту базу текст разбивается на слова, и каждое конкретное слово соотносится со словарной лексемой. То есть, условно говоря, есть четыре таблицы:
1) тексты (поля: № текста, название текста, прочие характеристики)
2) фразы (строки, «стихи») (поля: № фразы, № текста, порядковый номер фразы в тексте, перевод)
3) слова (поля: № фразы, порядковый номер слова во фразе, транлитерация, № лексемы, встречающаяся в тексте грамматическая форма)
4) лексемы (леммы) (поля: № лексемы, начальная форма, словарное значение, разные грамматические характеристики)
Это позволяет легко и безошибочно находить все вхождения лексемы в корпусе расписанных текстов по номеру лексему и делать разные запросы на сочетания лексем и т. д. (см. TLA). Ввод текстов в подобную базу данных очень трудоемок; в проекте TLA участвует несколько организаций и множество сотрудников.

Второй подход предусматривает минимальную степень формализации. В базу заносится транслитерация и перевод отдельных фраз (строк, «стих»), все дальнейшие операции с этим массивом данных осуществляются при помощи полнотекстового поиска (то есть поиска не по номеру лексемы, а по слову или части слова). (см., например, упомянутое выше описание Corpus: http://www.egyptology.ru/annotations/Corpus.pdf#page=12 )
Использование полнотекстового поиска имеет неизбежные издержки (будут показываться ненужные омонимы и пропадать различные варианты написания одного и того же слова), которые снижают точность результатов и функциональность базы данных. Зато заполнение такой базы данных требует не больше времени, чем обычная работа над переводом в текстовом редакторе.

Между этими двумя крайностями помещается все многообразие баз данных, заточенных под конкретные исследовательские задачи, в которых степень формализации и точность описания снижены по сравнению с вариантом TLA; например, в них может подробно расписываться только отдельный пласт лексики или единицей учета могут быть не лексемы, а отдельные типичные выражения (при работе с формулами).