1

Тема: Мой проект в двух словах. Интересны ваши мысли.

Во-первых, всем спасибо за полезную информацию и ответы на мои вопросы. Я не изучал семантическую сеть в институте, поэтому в некоторых концепциях мои познания не далеки. С другой стороны, я несколько лет занимаюсь веб девелопментом и юзер интерфейсами на нескольких довольно больших сайтах (что отчасти и заставило задуматься над этим проектом). Поэтому есть небольшой опыт в создании сайтов и решении вопросов их быстроты, в связи с чем и интерес мой больше в том, как делать сервисы, которые работают быстрее, но при этом проще с точки зрения функционала и интерфейса.

Это всё я говорю к тому, что возможно (я могу быть неправ) мой подход отличается от стандартного (написать всё на RDF/OWL, как обычно предлагают).

Теперь к теме.

Миссия: создание базы данных (на основе онтологий) о товарах, недвижимости и компаниях, и предоставление этих данных через API, приложения и веб интерфейс.

Проблемы: данные в сети неадекватны: неполны, неточны, неструктурированы и разбросаны по множеству ресурсов.
Проблема с т.з. семантической сети: нет общего стандарта, нет по-настоящему уникальных идентификаторов ресурсов.

Выражения этих проблем видны в следующем:
Для частных пользователей:
- Данные об одних и тех же товарах на разных веб сайтах могут различаться
- У пользователя нет уверенности в доверии к информации о товаре на каком-либо сайте (особенно, если у сайта нет репутации публикования качественной  информации)
- Зачастую отсутствие качественных медиа материалов касательно товаров (в частности, фотографий)
- Рецензии на товары разбросаны по многим сайтам, их поиск зачастую не приносит удовлетворительного результата

Для владельцев веб ресурсов:
- Если веб ресурс занимается реферрал программами, то обязательно сталкивается с проблемой качества фидов с данными о товарах (они могут достаточно отличаться для каждого товара у разных продавцов)
- Сложность с идентификацией одинаковых товаров (увы, UPC в фидах очень редко кто-то использует), а других уникальных идентификаторов товаров нет
- Расходны на добавление данных о новых товарах, и проблема ошибок со стороны тех людей, которые занимаются вводом данных
- Сложность использования данных с одних ресурсов на других. К примеру, Craigslist - с него "тянут" данные очень многие сайты, но это делать сложно, т.к. данные добавляются в свободной форме, важная информация может отсутствовать, и поэтому автоматическая обработка этих данных проблематична.

Решение проблем за счет:
- Доступных адекватных данных
- Качественных данных
- Данных, организованных на основе концепций семантической сети, что прибавляет им смысл и позволяет делать над ними ризонинг определенной сложности

Функционал:
- Структурированные данные о ресурсах (согласно строгим онтологиям доменов)
- Сосредоточенность на товарах, недвижимости и фирмах
- Легкий экспорт данных (character-separated, e.g. CSV, serialized as JSON, XML, и т.п.)
- API для сторонних девелоперов, который позволит создавать новые приложения на основе наших данных
- Комментируемость любых ресурсов / узлов
- Семантический и гео тэггинг ресурсов и медиа файлов
- Простые онтологии (менее академические, более прагматичные и ориентированные на бизнесе)
- Сбор информации об интересах пользователей (что можно использовать в recommender service и application personalization)
- Семантический ризонер
- Поиск как по ключевым словам, так и по классам/атрибутам/отношениям и т.п.)
- Адекватный и простой пользовательский интерфейс: небольшое количество простых действий, которые может выполнить пользователь
- Сбор данных двумя способами: добавляется пользователями и собирается в сети с помощью несложных алгоритмов семантического распознавания

Вот, собственно, и всё. Если есть мысли - пожалуйста пишите.

PS всё, что было раньше на сайте http://www.sodaq.com я убрал, т.к. это не соответствует текущему видению этого проекта.

Re: Мой проект в двух словах. Интересны ваши мысли.

Проблема с т.з. семантической сети: нет общего стандарта, нет по-настоящему уникальных идентификаторов ресурсов.

Ну вообще то uri вполне себе уникальный идентификатор..

Насчет остального - все довольно просто.
1) Человек переходит на ваш сервер по ссылке с другого ресурса
если данная ссылка я вляется идентификатором ресурса, то вы показываете человеку этот ресурс (товар, комментарий, картинку...) и внедряете в данную страницу rdfa для ботов.
2) если на страницу переходит бот, то он должен будет послать заголовок Accept: application/rdf+xml и соответственно вы отдадите ему чистый rdf (ну или json+rdf, n3, что попросит).
3) То что данные о товарах на разных сайтах отличаются это не совсем проблема - вы всегда можете писать откуда получены эти данные.


Проблема есть только в том, что вы будете делать если пользователь захочет перейти по ссылке на другой сервер ( если ссылка это uri ресурса). У вас тут есть выбор: кешировать данные по ресурсу у себя или же запрашивать каждый раз с сервера-источника.

Thumbs up Thumbs down

3

Re: Мой проект в двух словах. Интересны ваши мысли.

Евгений пишет:

Ну вообще то uri вполне себе уникальный идентификатор...

Я читал статьи, где с этим не соглашаются.
И почему в машинной обработке данных должны использоваться идентификаторы веб документов?

4

Re: Мой проект в двух словах. Интересны ваши мысли.

Евгений пишет:

3) То что данные о товарах на разных сайтах отличаются это не совсем проблема - вы всегда можете писать откуда получены эти данные.

Это 100%, но идея в том, чтобы была своя версия, и желательно правильная  smile

Евгений пишет:

Проблема есть только в том, что вы будете делать если пользователь захочет перейти по ссылке на другой сервер ( если ссылка это uri ресурса). У вас тут есть выбор: кешировать данные по ресурсу у себя или же запрашивать каждый раз с сервера-источника.

Опять же, все данные хостятся на моем сервере, включая то, что было аггрегированно с других ресурсов (согласно применимым копирайтам).

5

Re: Мой проект в двух словах. Интересны ваши мысли.

А вообще ноу-хау в том, что наиболее достоверной информацией владеют только её создатели, а всё остальное - испорченный телефон. Другими словами цель - привлечь оригинальных поставщиков данных - производителей, продавцов недвижимости / арендодателей и т.п.

IMO чем меньше звеньев в цепи, тем более точная информация.

Re: Мой проект в двух словах. Интересны ваши мысли.

sasha пишет:
Евгений пишет:

Ну вообще то uri вполне себе уникальный идентификатор...

Я читал статьи, где с этим не соглашаются.
И почему в машинной обработке данных должны использоваться идентификаторы веб документов?

Uri это не только http://example.com, mysql://example.com/dbname, git://example.com/master тоже вполне себе uri..
так что uri весьма удобно использовать как идентификатор ресурса, просто потому что можно всегда его по этому uri получить.

В остальном непонятно зачем вам что то универсальное если оно и так будет только у вас на сервере. Чем вообще принципиально это тогда будет отличаться от яндекс маркета?

Thumbs up 0 Thumbs down

7

Re: Мой проект в двух словах. Интересны ваши мысли.

Отличий нет, я с Яндекса идею слизал.

8

Re: Мой проект в двух словах. Интересны ваши мысли.

Вообще нравится, когда говорят - чувак, не парься, велосипед уже изобрели до тебя. Именно поэтому велосипеды больше никто не делает.

9

Re: Мой проект в двух словах. Интересны ваши мысли.

Ну да, ну да. Только почему то велосипедная индустрия цветет и пахнет... почему то  модно сейчас ездить на горном велосипеде  cool  Так и здесь, Яндекс.Маркет пытается поехать на семантике... А клоны и около того, могут быть и эффективней оригинала... Ну так еще стоит вспомнить аггрегатор магазинов и товаров HotLine, price.ru и др.

10

Re: Мой проект в двух словах. Интересны ваши мысли.

В общем то мысли как раз таки просматриваются у:

Cnet - качественный каталог электроники с affiliate моделью
Gdgt - каталог электроники, создаваемый пользователями
RentReferral и т.п. - каталоги недвижимости с серьезно структурированным форматом данных
Popshops - аггрегатор affiliate датафидов
Craigslist - доска частных объявлений - только данные добавляются в свободной форме
http://stippleit.com/ - тэггинг фото и видео

11

Re: Мой проект в двух словах. Интересны ваши мысли.

В общем я так понял, что если пост не о FOAF, RDF, OWL, Protege и т.п., то вам это не интересно обсуждать.

12

Re: Мой проект в двух словах. Интересны ваши мысли.

интересно, интересно  lol

13

Re: Мой проект в двух словах. Интересны ваши мысли.

Кстати нравятся мне тенденции яндекса в плане семантики. потехоньку подсаживают бизнес на использования простых микроформатов, при этом дают возможность подключать развитые средства для выражения семантики
плюс кто-то очень толковый у них сидит - добавляет патерны для расширения существующих микроформатов и метаданных.