1

Тема: автоматическое извлечение терминологических словосочетаний

Я столкнулась с вопросом создания онтологий в учебных целях. Для этого необходимо в исходном тексте выделить слова -термины, чтобы в дальнейшем из них получить таксономию. Попыталась применить для этого синтаксический анализатор, но мою задачу он не решил. Документ, конечно же, находится в поисковике, а вот, как применить результат не пойму. Может посоветуете чего из средств автоматического извлечения терминологических словосочетаний?
Спасибо.

Thumbs up Thumbs down

2

Re: автоматическое извлечение терминологических словосочетаний

Добрый день.
Опишите, пожалуйста, чуть подробнее вашу проблему.

Thumbs up Thumbs down

3

Re: автоматическое извлечение терминологических словосочетаний

Здравствуйте.
Проблема моя такая. Чтобы составить онтологию нужно в исследуемой предметной области выделить слова и словосочетания, которые, в дальнейшем, будут образовывать классы и подклассы в иерархии. Онтологию строила в Protege 3.4. Соответственно, понятия, которые использовала (классы и т.д.) выделяла из учебника в ручную. В статьях пишут, что все используют для этого какое- то программное средство. Я попробовала синтаксический анализатор (www.shipbottle.ru/ir/ - анализатор текста), он выделил из текста ключевые слова, но с моими классами и подклассами ничего не совпало. Вот я и спрашиваю, что вообще для этих целей используют?
Спасибо.

Thumbs up Thumbs down

4

Re: автоматическое извлечение терминологических словосочетаний

Для составления терминологических словосочетаний действительно используют анализаторы текста. Еще используют алгоритмы классификации и кластеризации, применяют нейронные сети.
Самый простой алгоритм - стемминг, но он показывает себя хорошо для англоязычных текстов.
Здесь главная проблема - величина выборки. Когда на руках только 1 статья, то определяющий термин может встретиться только один раз, хотя именно он и есть ключевым.
Поэтому только частота вхождения на малой выборке неэффективна.
На мой взгляд, у Вас именно такая ситуация.

Вот, помню читала здесь http://www.aot.ru/docs/sokirko/sokirko-candid-2.html
про семантический анализ.

Вот примерчик реферирования: http://visualworld.ru/.

Вам нужно определить, является ли вашей задачей автоматизация постороения онтологии.

Thumbs up +1 Thumbs down

5

Re: автоматическое извлечение терминологических словосочетаний

Юлия,
держите в курсе продвижения.
Эта задача особенно для русского языка интересует многих;-)
Например интересен Ваш отрицательный эксперимент "он выделил из текста ключевые слова, но с моими классами и подклассами ничего не совпало":
- текст,
- Ваши классы...,
- что дало средство.
Очень интересно!

Отредактировано ashkotin (2011-03-05 07:48:37)

Thumbs up Thumbs down

6

Re: автоматическое извлечение терминологических словосочетаний

И ещё:
- Вам стоит сходить на форум http://www.dialog-21.ru/forum/actualforum.aspx
- но ИМХО: создание состава терминов предметной области работа умственная и даже кропотливая. проще всего для начала взять книгу по предметной области в которой в конце есть глоссарий - там они и есть;-)
или взять wikipedia и посмотреть какие заголовки имеют в ключевых словах вашу предметную область.
- а вот найти в тексте термины из заданного состава это уже другая задача.
И вопрос: а у Вас то какая предметная область?

Thumbs up +1 Thumbs down

7

Re: автоматическое извлечение терминологических словосочетаний

ashkotin пишет:

создание состава терминов предметной области работа умственная и даже кропотливая. проще всего для начала взять книгу по предметной области в которой в конце есть глоссарий - там они и есть;-)
или взять wikipedia и посмотреть какие заголовки имеют в ключевых словах вашу предметную область.

Категорически согласен. В некоторых случаях ещё DMOZ добавить к wikipedia, и/или формализованные данные из dbpedia + opencyc + yago.

P.S. Уже забыл какой анализатор текстов, применённый к Конституции РФ для поиска юридических терминов, выделил "Алтай" как форму глагола "алтать" и "Адыгея" как форму глагола "адыгеть". И попробуй объяснить ему, где он не прав wink

8

Re: автоматическое извлечение терминологических словосочетаний

Однако дело "формализации" живёт и побеждает:
http://www.productontology.org/
тут главное научиться вставлять "_" перед заглавными буквами (начиная со второй;-)
и мы получим 300 000 терминов:-)

Thumbs up Thumbs down