1

Тема: Книжный магазин с семантикой в связях

Посмотрел состав этой ветки форума, удивительно мало топиков. Поэтому добавлю идию, которую придумал именно, чтобы тут что-нибудь было. Пока пишу текст, продумаю детали ).

Покупая книги иногда выбираешь их наугад, иногда по рекомендации, а иногда целенаправлено.
Когда целенаправлено, то смотришь оглавление, бегло пролистываешь, ...
В интернет-магазинах, чтобы бегло пролистать, то обычно есть "дема" в виде первой главы или оглавления, но гораздо круче, если бы было известно какие понятия описаны в книге.

Есть терминалогическая база, понятия, описанные там разделены на смысловые группы, а также связаны друг с другом отношениями (синонимы, онтонимы, входит_в, включает, ...). И эти термины связаны с книгами симментичным отношениям (книги тоже связаны с понятиями).

Собственно, интернет-магазин предлагает покупателю научную, техническую (тематическую) литературу, по его запросам. При этом дополнительные рекомендации будут звучать не так:
"Обычно с этой книги наши клиенты покупают также ..."
а вполне конкретно:
"То что Вы хотите прочитать также описано в книгах ..."
Что будет лучше стимулровать покупательскую способность.


Сложность - размечать содержимое книги придётся вручную. То есть кто-то предварительно прочтёт книгу, выделит понятия в ней, ... много ручного труда. Такое можно сделать только силами сообщества, но тогда надо давать книги сообществу, а не продавать их. При таком подходе ассортимент книг ограничивается open source книгами (книгами под свободными лицензиями).

В то же время, есть университеты, там есть филологи, которые заинтересованы в том, чтобы знать что написано в книгах. Еще есть библиотеки ,а у многих и них есть минимальные списки ключевых слов по большиснтву книг.

Конкуренты - google.
Там есть проекты
http://ngrams.googlelabs.com/info
http://www.google.com/intl/ru/googlebooks/about.html

Развитие (источники получения прибыли): пока будет расти терминалогическая база проекта и отрабатываться технология. Системы электронного документооборота накопят достаточно много документов, писем, обращений, ... в себе (это бизнес). Также наши ГОСТы, законы, поправки, письма к этим законам - тоже интересный материал для их "семантизации". И когда они (бизнес и государство) захотят семантизировать свой контент, то они  обратятся к Google или к независимому поставщику аналогичной технологии? Поставщику, который имеет опыт, свои наработки, видимый результат и может настроить, внедрить, обучить и предоставить в дополнение свою терминалогичекую базу (или же не свою: wordnet, dbpedia).

Другой варинат развития - это работа с идательствами. Пусть есть книга на английком/немецком/русском языке. Она семантически размечена, выделены ключевые понятия в ней, эти понятия и из значения переведены на другие языки. И если издательство хочет выпустить книгу ан другом языке, то подобные "точечные" переводы будут ему очень полезны.

Ну и самое незамысловатое - реклама.

Если сейчас нет заинтересованных людей в подобном проекте (перелопатить все книги), то, например, книги по семантическому вебу можно же так обработать. Пусть это будет фишкой текущего сообщества - видимый результат применения технологии обсуждаемой тут.

Отредактировано tester (2011-01-16 13:58:16)

Thumbs up +1 Thumbs down

2

Re: Книжный магазин с семантикой в связях

Развитие (источники получения прибыли): пока будет расти терминалогическая база проекта и отрабатываться технология. Системы электронного документооборота накопят достаточно много документов, писем, обращений, ... в себе (это бизнес). Также наши ГОСТы, законы, поправки, письма к этим законам - тоже интересный материал для их "семантизации".

Да, нишевые базы легче связывать (больше связей между книгами, меньше книг, меньше терминов, более целенаправленное сообщество).

"То что Вы хотите прочитать также описано в книгах ..."

Интересно. Хотя ведь можно разметить только содержание  - не так ли? Уже будет сильный эффект.

И когда они (бизнес и государство) захотят семантизировать свой контент, то они  обратятся к Google или к независимому поставщику аналогичной технологии? Поставщику, который имеет опыт, свои наработки, видимый результат и может настроить, внедрить, обучить и предоставить в дополнение свою терминалогичекую базу (или же не свою: wordnet, dbpedia).

Согласен.

Вижу следующие вопросы

  • Авторское право, разрешение на помещение книги, на разметку, на использование результатов поиска

  • Интеграция инструмента разметок с ридерами для облегчения размечивания "прямо на месте"

  • Вандализм и исправление ошибок  - по аналогии с википедией

С другой стороны, мне плохо понятна схема продаж сервисов и продуктов. A) Ведь для ЗАВЕДЕНИЙ - нужна автоматическая разметка, там нету возможностей для отвлечения специалистов. Т.е. нужен автоматический NLP + полнотекстовой поиск по массиву разнородных (или через ETL... приведенных в какую-то общую форму) данных. Фактически, это другой рынок, аналоги google desktop search / documentum search (?) или спец. дорогие решения. Мне кажется выходить на этот рынок нужно с решениями уже Security / Security Certified Approved. А это тянет на большие деньги.

б) Ну ладно, если не заведения - возьмем пользователей.
Они как раз могли бы "забесплатно" разметить все что угодно, однако чтобы это делать, средство прочтения книги должно быть интегрировано с нашим сервисом размечателя. Т.е. нужно а) протокол б) сервисы с) интеграция с ридерами по крайней мере на мобильных устройствах. А это +3года плюс масса действий и коммитетов.


Ну хорошо, возьмем издателей. Так как они работают по схеме подписки  или Per book, денежные затраты для них небольшие. Зато кто-то должен сидеть и размечать книгу. В итоге... Это должен сделать либо автор (значит он должен быть об этом осведомлен, значит сервис должен быть популярным, и издательства сами должны предлагать в рамках "электронных книг"), либо кто-то из редакции (значит, затраты на разметку должны окупаться интересом БОЛЬШОГО рынка или количества пользователей на таком сервисе). А это должна быть аудитория уже громадная. Вопрос, как ее собрать если ни а, ни б, видимо, не проходят.

Ну и в заключении, а  разве Abode что-то подобное не делает? У меня какое-то дежавю.

Подсказка - если найти прямую заинтересованность от издателей, то можно пробовать.

BTW, Shanghai Tiger

Thumbs up Thumbs down