1

Тема: Использование сем. веб в госпоиске

Каким должен быть госпоиск (и можно ли для него использовать custom search от google или yandex).
См. сообщение Ивана Ильина (@illyn) http://roem.ru/2010/10/04/addednews1672 … ssage75818

Как раз таки, если по "логике" — то со всей очевидностью можно сделать вывод — "не готово".

А "логика" — следующая.

Сегодня хороший "поиск" — подразумевает выдачу на запрос десятку разных документов, решающих задачу пользователя поиска. Навигационную, справочную и т.д.. В прямолинейном "коммерческом поиске" сделано предположение, что качество документа характеризуется ссылками на него, и ссылки вообще существуют, позволяют поставить один документ выше другого и пр. Худо-бедно данное предположение за 15 лет структурировало и сам контент в сети, и методы работы пищущих в сеть и выдачу поисковиками.

В "государственном" же поиске — ситуация совсем иная, по куче позиций. Часть из них такая:

Во-первых — вместо ссылок там сплошь и рядом, человеко-читаемые, машино-невидимые отсылки рода: "Согласно закону пермской губернии о синицах". Учитывать подобные ссылки необходимо, но учитывать "нечем".

Во-вторых — в госпоиске предполагается, что наболее подходящий документ для выдачи — это не "популярный документ", как в поиске коммерческом, а почти "наоборот".

Наиболее подходящий — это тот документ, что Наиболее Специфично описывает: "Что видят глаза госудрства, Конкретно про данного человека, данного возраста, данного класса, должности и т.д. в контексте заданнного им вопроса". То есть выдача должна структурироваться Не через авторитетность документов.
(выдавать всегда на первом месте Конституцию будет несколько странно, а наиболее авторитетна — она),
Что видно через систему соподчинённых законов, актов и пр., "исходящих от человека", а не "спускающихся к нему от старшей бумаги"?

Гипотетическпй "Госпоиск" (а не поиск Вообще) решает задачу разбора примерно следующих историй:

"Офицер РА, хочет из отпуска провести на место своей службы, самолётом, две пачки охотничих патрон, ружьё и прицел". 10 выданных документов

В тоже самое время — учитывать авторитетность документов в госпоиске — надо. Но не для выдачи Конституции по любому запросу. А для учёта непротиворечивости младших документов документам более высокого порядка (по закону противоречащие вышестящим — запрещены, тем не менее они существуют на практике).

Ну и так далее.

К прежднему возвратимся. К "логике".

Если бы у Яндекса была бы подобная история понимания смыслов написанного — он бы давно закрыл все вопросы по конкуренции с "гуглами". Порвал бы их да и всё.
Кроме того: сервисы рода Яндекс.Маркет, Яндекс.Новости, Яндекс.Авто — делались бы не отдельными командами с отдельным слабоотчуждаемым пластом технологий у каждого коллектива, а автоматически запускались, просто по анализу спроса на то на сё, за текущую неделю.

Попёрло в запросы "ЕГЭ" — автомат нагенерил портал Яндекс.Экзамены.
Где выдают только нужное для экзаменов, и понимают и не путают между собой что выдавать для "литература и русский язык", а что наоборот для экзамена по "истории". И не выдают "Первая Мировая Вообще, то ли книга, то ли событие". Попёрло в запросы "Жара в Москве", "глобальное потепление!" — щёлкнул тумблер и запустились Яндекс.Вентиляторы.

Понимание смыслов — прежде всего коммерчески выгодно. Представить себе ситуацию, когда такую сложную и нужную технологию сделали, но не стали использовать вообще, а придержали для госпоиска, Трудно.
Так что логика говорит — "не готово".

Просто потому, что если даже и запустить поиск общего типа лишь по срезу госсайтов

а) Он не является поисковиком никакого вообще качества. Ибо не учитывает вышеизложенных правил для него.

б) Искать по срезу, по ограниченному набору сайтов — не в стиле Яндекса. В стиле Яндекса придумывать алгоритмы (формирующие срезы, но Не Только) и танцевать от них.

BTW, Shanghai Tiger

Thumbs up Thumbs down

2

Re: Использование сем. веб в госпоиске

Переписывался недавно с одним нерядовым товарищем из Яндекса. Поскольку переписка не была приватной, можно процитировать фразы по теме:

У нас есть внутри аналоги этих вещей ((речь шла про WordNet, Calais и прочие "англоязычные" тулзы)) для проектов которые нам нужны, мы очень много денег вкладываем в создание корпусов и специалистов. Из того что у нас открыто РОМИП посмотрите.

Про Fact Extraction например посмотрите проект пресспортреты на новостях, где об огромном количестве персонажей и организаций автоматом экстрактятся данные - у гугла btw сейчас такого вроде нет, ms недавно только купил контору которая этим занимается.
http://news.yandex.ru/people/khristos_iisus.html
http://news.yandex.ru/people/putin_vladimir.html

Полуофицальная позиция: machine lerning и fact extration рулит, semantic web в контексте что "сейчас нам вебмастера весь веб разметят" не взлетит. Взлетит либо своя/финансируемая ручная разметка, либо автоматический extraction данных из источников.