Студопедия

КАТЕГОРИИ:

АстрономияБиологияГеографияДругие языкиДругоеИнформатикаИсторияКультураЛитератураЛогикаМатематикаМедицинаМеханикаОбразованиеОхрана трудаПедагогикаПолитикаПравоПсихологияРиторикаСоциологияСпортСтроительствоТехнологияФизикаФилософияФинансыХимияЧерчениеЭкологияЭкономикаЭлектроника


Классификация ИПС




По характеру предоставления логической организации хранимой информации разделяются на

· Фактографические накапливают и хранят данные в виде множества экземпляров одного или нескольких типов структурных элементов. Каждый из таких экземпляров структурных элементов или некоторая их совокупность отражают сведения, по какому либо факту, событию. Структура каждого типа информационного объекта состоит из конечного набора реквизитов, отражающих основные аспекты и характеристики сведений для объектов данной предметной области.

· В документальных единичным элементом информации является нерасчлененный на более мелкие элементы документ и информация при вводе, как правило, не структурируются, или структурируются в ограниченном виде. Для вводимого документа могут устанавливаться некоторые формализованные позиции дата изготовления, исполнитель, тематика. Некоторые виды документальных информационных систем обеспечивают установление логической взаимосвязи вводимых документов соподчиненность по смысловому содержанию.

· В геоинформационных данные организованы в виде отдельных информационных объектов привязанных к общей электронной топографической основе. Геоинформационные системы применяются для информационного обеспечения в тех предметных областях, структура информационных объектов и процессов в которых имеется географический компонент.

Рисунок-архитектура информационно-поисковой системы на примере ИПС Google

1. URL Server — список всех адресов.

2. Crawler — робот, который загружает страницы из списка адресов и

передает в Store Server.

3. Store Server сохраняет страницы в Repository, чаще всего в виде HTML

документа. При этом вся дополнительная информация, такая как кар-

тинки, flash-анимация и прочее, не сохраняется.

4. Indexer разбирает сохраненные в Repository HTML-документы в пос-

ледовательности слов и сохраняет их в Barrles (база данных).

5. Lexicon — список всех слов. Чаще всего слова храняться в таблице с

двумя полями “номер” и “слово”. Таким образом достигается экономия

места в базе данных, так как длинные слова заменяются достаточно

коротким номером.

6. Anchors — выделенные компонентом Indexer ссылки (URL).

7. URL Resolver — обработчик URL. Если находятся новые ссылки, то

они передаются в URL Server.

8. Links определяет какие сайт на какие ссылаются и передает это в

PageRank.

9. PageRank — определяет рейтинг сайта, основным критерием является

количество ссылок на этот сайт (подробнее смотрите раздел про PageRank).

10. Searcher — клиент. Чаще всего клиент пользуется статической базой

данных, которая обновляется примерно раз в сутки.


Основные принципы оптимизации текста для поисковых систем.
Для поиска в указателе пользователь должен сформулировать запрос и отправить его в поисковую машину. Запрос может быть очень простым, как минимум он должен состоять из одного слова. Для построения более сложного запроса нужно использовать булевы операторы, позволяющие уточнять и расширять условия поиска.


Чаще всего используются такие булевы операторы:

· AND – все выражения, соединенные оператором «AND», должны присутствовать на искомых страницах или в документах. В некоторых поисковых машинах вместо слова AND используется оператор «+».

· OR – по крайней мере, одно из выражений, соединенных оператором «OR», должно присутствовать на искомых страницах или в документах.

· NOT – выражение или выражения, следующие за оператором «NOT» не должно (не должны) появляться на искомых страницах или в документах. В некоторых поисковых машинах вместо слова NOT используется оператор «-».

· FOLLOWED BY – одно из выражений должно следовать непосредственно за другим.

· NEAR – одно из выражений должно находиться на расстоянии от другого, не большем, чем заданное количество слов.
Кавычки – заключенные в кавычки слова рассматриваются как фраза, которую следует найти в документе или файле.


Примеры информационно-поисковых систем:

· Google — самая популярная в мире поисковая система. Наглая, как и все американцы, но предоставляющая много возможностей. В общем, бесспорный мировой лидер среди поисковых роботов.

· Яндекс — отечественная поисковая система. Это одно из её немногих достоинств. В остальном имеем медленное обновление поисковой базы, постоянную смену правил игры (как для пользователей, так и для владельцев сайтов), своеобразное понимание качества поисковой выдачи и т.д. В общем, она популярна в Рунете лишь потому, что большинство пользователей не догадывается о существовании других искалок.

· BingНовая поисковая система от Microsoft — Bing заменила все предыдущие поисковики от этой всемирно известной компании. И, надо сказать, не случайно. Bing на порядок лучше старых поисковых систем от Microsoft.


Перспективы развития поисковых систем

Задаваемый булевыми операторами поиск является буквальным – машина осуществляет поиск слов или фраз точно в таком виде, в каком их ввели. Это может порождать проблемы, когда введенные слова многозначны. Например, английское слово «Bed» может означать кровать, клумбу, место, где рыба мечет икру, и многое другое. Если пользователя интересует только одно из этих значений, ему не нужны страницы со словом, имеющим другие значения. Можно построить буквальный поисковый запрос, нацеленный на отсечение нежелательных значений, но было бы неплохо, если бы сама поисковая машина могла оказывать соответствующую помощь.

Один из вариантов работы поисковой машины – концептуальный поиск. Часть такого поиска предусматривает использование статистического анализа страниц, содержащих введенные пользователем слова или фразы, для нахождения других страниц, которые могли бы этого пользователя заинтересовать. Понятно, что для концептуального поиска требуется хранить больше информации о каждой странице, и каждый поисковый запрос потребует большего числа вычислений. В настоящее время многие группы разработчиков занимаются повышением результативности и производительности поисковых машин такого типа. Другие исследователи сфокусировались на иной области, которую именуют естественно-языковыми запросами (natural-language queries).
Идея естественно-языковых запросов состоит в том, чтобы пользователь формулировал запрос так же, как он бы спрашивал у человека, сидящего рядом – при этом не нужно отслеживать булевы операторы или сложные структуры запросов. Наиболее популярным современным сайтом с естественно-языковыми поисковыми запросами является AskJeeves.com, анализирующий запрос с целью выявления ключевых слов, которые затем используются для поиска в построенном этой поисковой машиной указателе сайтов. Упомянутый сайт работает только с простыми поисковыми запросами, однако разработчики в условиях жесткой конкуренции занимаются разработкой машины с естественно-языковыми поисковыми запросами, способной обрабатывать очень сложные запросы.

 


 

30.Семантические системы: определение, назначение, техническая суть, классификация, характеристики, архитектура, примеры и перспективы развития. Основные принципы оптимизации семантической сети.

 

Семанти́ческая сеть (система) — информационная модель предметной области, имеющая вид ориентированного графа, вершины которого соответствуют объектам предметной области, а дуги (рёбра) задают отношения между ними. Объектами могут быть понятия, события, свойства, процессы. Таким образом, семантическая сеть является одним из способов представления знаний. В названии соединены термины из двух наук: семантика в языкознании изучает смысл единиц языка, а сеть в математике представляет собой разновидность графа — набора вершин, соединённых дугами (рёбрами). В семантической сети роль вершин выполняют понятия базы знаний, а дуги (причем направленные) задают отношения между ними. Таким образом, семантическая сеть отражает семантику предметной области в виде понятий и отношений.

Математика позволяет описать большинство явлений в окружающем мире в виде логических высказываний. Семантические сети возникли как попытка визуализации математических формул. Основным представлением для семантической сети является граф. Однако не стоит забывать, что за графическим изображением непременно стоит строгая математическая запись, и что обе эти формы являются не конкурирующими, а взаимодополняющими.

Основной формой представления семантической сети является граф. Понятия семантической сети записываются в овалах или прямоугольниках и соединяются стрелками с подписями — дугами (см. рис.). Это наиболее удобно воспринимаемая человеком форма Её недостатки проявляются, когда мы начинаем строить более сложные сети или пытаемся учесть особенности естественного языка. Схемы семантических сетей, на которых указаны направления навигационных отношений, называют картами знаний, а их совокупность, позволяющая охватить большие участки семантической сети, атласом знания.

В математике граф представляется множеством вершин V и множеством отношений между ними E. Используя аппарат математической логики, приходим к выводу, что каждая вершина соответствует элементу предметного множества, а дуга — предикату.

Пример семантической сети (системы)

В лингвистике отношения фиксируются в словарях и в тезаурусах. В словарях в определениях через род и видовое отличие родовое понятие занимает определённое место. В тезаурусах в статье каждого термина могут быть указаны все возможные его связи с другими родственными по теме терминами. От таких тезаурусов необходимо отличать тезаурусы информационно- поисковые с перечнями ключевых слов в статьях, которые предназначены для работы дескрипторных поисковых систем.


Поделиться:

Дата добавления: 2015-04-21; просмотров: 168; Мы поможем в написании вашей работы!; Нарушение авторских прав





lektsii.com - Лекции.Ком - 2014-2024 год. (0.007 сек.) Все материалы представленные на сайте исключительно с целью ознакомления читателями и не преследуют коммерческих целей или нарушение авторских прав
Главная страница Случайная страница Контакты