Что означает понятие полнотекстовый поиск

Что означает понятие полнотекстовый поиск

Финансовый словарь Финам .

Смотреть что такое "Полнотекстовый поиск" в других словарях:

Полнотекстовый поиск — Полнотекстовый поиск поиск документа в базе данных текстов на основании содержимого этих документов. Согласно ГОСТ 7.73 96 СИБИД «Поиск и распространение информации. Термины и определения»[1] 3.4.9 полнотекстовый поиск: Автоматизированный… … Википедия

полнотекстовый поиск — Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. [ГОСТ 7.73 96 ] Тематики поиск и распространение информации Обобщающие термины информационный … Справочник технического переводчика

полнотекстовый поиск — 3.4.9 полнотекстовый поиск: Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста en Full text searching fr Recherche en texte integral Источник … Словарь-справочник терминов нормативно-технической документации

полнотекстовый поиск — Rus: полнотекстовый поиск Eng: full text searching Fra: recherche en texte integral Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. ГОСТ 7.73 … Словарь по информации, библиотечному и издательскому делу

ПОЛНОТЕКСТОВЫЙ ПОИСК — согласно ГОСТ 7.73–96 «Поиск и распространение информации. Термины и определения», – автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста … Делопроизводство и архивное дело в терминах и определениях

Поиск данных — Поиск данных раздел информатики, изучающий алгоритмы для поиска и обработки информации как в структурированных (см. напр. базы данных) так и неструктурированных (напр., текстовый документ) данных. Поиск данных неразрывно связан с понятием… … Википедия

Поиск информации — Информационный поиск (ИП) (англ. Information retrieval) процесс поиска неструктурированной документальной информации и наука об этом поиске. Содержание 1 История 2 Информационный поиск как процесс … Википедия

Поиск информационный — Информационный поиск (ИП) (англ. Information retrieval) процесс поиска неструктурированной документальной информации и наука об этом поиске. Содержание 1 История 2 Информационный поиск как процесс … Википедия

Информационный поиск — (англ. Information retrieval) процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности (англ.)русск.,[1] и наука об этом поиске … Википедия

ГОСТ 7.73-96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения — Терминология ГОСТ 7.73 96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения оригинал документа: 3.2.5 автоматизированная информационно поисковая система: ИПС,… … Словарь-справочник терминов нормативно-технической документации

Полнотекстовый поиск — автоматизированный информационный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. По английски: Full text searching См. также: Автоматизированный информационный поиск… … Финансовый словарь

Читайте также:  Std string to qstring

полнотекстовый поиск — Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. [ГОСТ 7.73 96 ] Тематики поиск и распространение информации Обобщающие термины информационный … Справочник технического переводчика

полнотекстовый поиск — 3.4.9 полнотекстовый поиск: Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста en Full text searching fr Recherche en texte integral Источник … Словарь-справочник терминов нормативно-технической документации

полнотекстовый поиск — Rus: полнотекстовый поиск Eng: full text searching Fra: recherche en texte integral Автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста. ГОСТ 7.73 … Словарь по информации, библиотечному и издательскому делу

ПОЛНОТЕКСТОВЫЙ ПОИСК — согласно ГОСТ 7.73–96 «Поиск и распространение информации. Термины и определения», – автоматизированный документальный поиск, при котором в качестве поискового образа документа используется его полный текст или существенные части текста … Делопроизводство и архивное дело в терминах и определениях

Поиск данных — Поиск данных раздел информатики, изучающий алгоритмы для поиска и обработки информации как в структурированных (см. напр. базы данных) так и неструктурированных (напр., текстовый документ) данных. Поиск данных неразрывно связан с понятием… … Википедия

Поиск информации — Информационный поиск (ИП) (англ. Information retrieval) процесс поиска неструктурированной документальной информации и наука об этом поиске. Содержание 1 История 2 Информационный поиск как процесс … Википедия

Поиск информационный — Информационный поиск (ИП) (англ. Information retrieval) процесс поиска неструктурированной документальной информации и наука об этом поиске. Содержание 1 История 2 Информационный поиск как процесс … Википедия

Информационный поиск — (англ. Information retrieval) процесс поиска неструктурированной документальной информации, удовлетворяющей информационные потребности (англ.)русск.,[1] и наука об этом поиске … Википедия

ГОСТ 7.73-96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения — Терминология ГОСТ 7.73 96: Система стандартов по информации, библиотечному и издательскому делу. Поиск и распространение информации. Термины и определения оригинал документа: 3.2.5 автоматизированная информационно поисковая система: ИПС,… … Словарь-справочник терминов нормативно-технической документации

Задача поиска по тексту предполагает работу со сложными индексами и большими объемами данных. Поэтому для ее решения образовалась целая группа отдельных инструментов.

Многие базы данных имеют встроенную возможность поиска по тексту, однако всегда это очень ограниченная реализация. В большинстве случаев следует использовать более подходящие технологии.

Устройство полнотекстового индекса

Все технологии полнотекстового поиска работают по одному принципу. На основе текстовых данных строится индекс, который способен очень быстро искать соответствия по ключевым словам.

Читайте также:  При нажатии на экран появляются полосы

Обычно сервис поиска состоит из двух компонент. Поисковик и индексатор. Индексатор получает текст на вход, делает обработку текста (вырезание окончаний, незначимых слов и т.п.) и сохраняет все в индексе. Устройство такого индекса позволяет проводить по нему очень быстрый поиск. Поисковик — интерфейс поиска по индексу — принимает от клиента запрос, обрабатывает фразу и ищет ее в индексе.

Существует несколько популярных технологий для реализации полнотекстового поиска в приложениях.

1. Sphinx

Супер простое решение, которое подойдет для большинства случаев. По умолчанию поддерживает английский и русский язык. Имеет интерфейс для индексирования таблиц MySQL. Чтобы начать использовать Sphinx достаточно установить его из пакетов, настроить источник данных и запустить индексатор в cron задачу.

Конфигурация делится на source и index для определения источника данных и параметров индекса:

# настройка индексации таблицы products прямо из базы MySQL

После этого достаточно запустить индексатор в cron, например для переиндексации каждые 5 минут:

В таком режиме максимальная задержка до появления данных в поиске будет составлять 5 минут.

Sphinx поддерживает обычный MySQL протокол для поиска, поэтому чтобы найти в индексе какой-то текст достаточно подключиться к порту 9306 и отправить обычный MySQL запрос:

# В результате будут возвращены id найденных документов

# Sphinx вернет ID, по которому можно получить данные продукта из MySQL

При больших объемах можно использовать схему Delta индексов для ускорения индексации. Кроме этого, Sphinx поддерживает Real Time индексы, фильтрацию и сортировку результатов поиска и поиск по wildcard условиям.

2. Solr

Solr — не просто поисковый индекс, а еще и хранилище документов. Т.е. в отличие от Sphinx’a, документы сохраняются целиком и их не нужно дублировать в базу данных.

Решение Java-based, поэтому понадобится JVM и сам Solr. Из пакетов можно поставить все вместе:

Либо просто скачать Solr и запустить его:

После этого сервис станет доступен на порту 8983:

Solr работает по текстовому HTTP протоколу. Сразу после установки можно отправлять данные в индекс. Индекс — это что-то вроде таблицы в MySQL, для ее создания нужно выполнить команду:

# создаем индекс shop

Чтобы добавить документ в индекс, достаточно отправить такой запрос.

# Приставка _t нужна, чтобы значение стало доступно для полнотекстового поиска

Теперь можно сделать выборку документа по ID:

Чтобы стала доступной возможность поиска по индексу, необходимо запустить перестроение индекса:

После этого можно искать по тексту:

Получим что-то типа этого:

Solr поддерживает масштабирование в кластер, поэтому это решение подойдет для очень больших объемов данных и нагрузок. Кроме обычного текстового поиска этот поисковик может находить неточные соответствия (например, при поиске слов с ошибками).

Читайте также:  Сочетание клавиш на клавиатуре выключить компьютер

3. Elastic

Elastic search — целая инфраструктура для работы с данными, в том числе полнотекстовым поиском. Построен на основе Apache Lucene.

Установка из кастомного репозитория Debian:

После запуска (может занять несколько секунд) нужно проверить доступность:

Индексы (таблицы) создаются автоматически при индексации, а сам индексатор работает в режиме реального времени. Поэтому для добавления документа в индекс нужно сделать только один вызов:

# сохраняем продукт в индекс shop/products с >

Чтобы получить документ по id достаточно сделать такой вызов:

Для поиска документов по тексту:

Elastic имеет мега продвинутую систему хранения данных и протокол запросов. Поэтому во многих случаях его применяют, как движок для Ad-hoc запросов.

Самое важное

Для поиска по тексту следует использовать указанные инструменты, т.к. обычные базы данных весьма ограничены и неэффективны в этом вопросе. Короткая сводка поможет выбрать подходящее решение:

  • Sphinx. Простой, быстрый, легкий, используется в связке с базовый данных, поиск по русскому/английскому тексту, wildcard поиск.
  • Solr. Большой, мощный, выступает как хранилище, миллион функций, сделать можно практически все, есть неточный поиск и возможность масштабироваться из коробке.
  • Elastic. Не только поиск и хранилище, а и другие инструменты (визуализация, сборщик логов, система шифрования и т.п.). Умеет масштабироваться и позволяет выполнять выборки очень сложной формы, что делает это хорошим вариантов для аналитической платформы.

2 примера денормализации для оптимизации базы данных

Как решать типичные задачи с помощью NoSQL

Простые и быстрые варианты переноса ключей Redis на другой сервер.

Разделение базы данных на несколько независимых баз

Как строятся по-настоящему большие системы на основе MySQL

Типы и способы применения репликации на примере MySQL

Основные понятия о шардинге и репликации

Как делать перераспределение данных между серверами

Введение в hash-таблицы, основные методы борьбы с коллизиями

Разделение таблиц данных на разные узлы

Быстрый подсчет уникальных значений за разные периоды времени

Fuzzy search на основе ElasticSearch

Создание и использование Real-Time индексов в Sphinx’e

Реализация поиска по части слова на основе Sphinx

Использование FLUSH RTINDEX для сброса бинарных логов в Sphinx’e

Эмуляция запроса для выборки документов, которые не соответствуют условию текстового поиска

Худшие практики при работе над растущими проектами

Введение в кэширование данных на примере Memcache

Примеры использования Lua в Nginx для решения стандартных задач

Повышение скорости работы запросов с MySQL Handlersocket

Что такое индексы в Mysql и как их использовать для оптимизации запросов

Примеры использования колоночной базы данных Vertica

Выбор серверов под базы данных, бекенды и фронтенды

Ссылка на основную публикацию
Что написать о себе в инстаграмме девушке
Вроде как и всё ясно, но в самом деле, как только доходит до дела, написать о себе в Инстаграм, у...
Чем открыть cab файл на компьютере
Файл формата CAB открывается специальными программами. Чтобы открыть данный формат, скачайте одну из предложенных программ. Чем открыть файл в формате...
Чем открыть fb2 на телефоне
Формат электронных публикаций FB2, наряду с EPUB и MOBI, является одним из самых популярных для книг, публикуемых в интернете. Мы...
Что нового в айос 12 1
Apple выпустила iOS 12.1.1 − скорее всего, последнюю публичную сборку iOS 12 в этом году. Хотя это обновление по большей...
Adblock detector