Как работает поисковая система и облегчает вашу жизнь?
Короткие байты: Поисковая система — это программное обеспечение, которое позволяет отображать релевантные результаты веб-страниц на основе ввода поискового запроса с помощью веб-сканирования и веб-индексирования, некоторых сложных формул и интеллектуальных алгоритмов для сбора соответствующих данных.
За время загрузки этой веб-страницы на ваш компьютер было выполнено несколько тысяч поисковых запросов. Но стимулировало ли когда-нибудь ваши нейроны то, как работает поисковая система?
Как Google обеспечивает вам наилучшие результаты в мгновение ока? На самом деле, это не имеет значения, пока не появятся Google и Bing. Сценарий был бы совсем другим, если бы не было Google, Bing или Yahoo. Давайте окунемся в мир поисковых систем и посмотрим, как работает поисковая система.
Заглядывая в историю
Сказка о поисковых системах началась в 1990-х годах, когда Тим Бернерс-Ли записывал каждый новый веб-сервер, выходивший в Интернет, в список, поддерживаемый веб-сервером ЦЕРН. До сентября 1993 года в Интернете не существовало поисковых систем, а существовало лишь несколько инструментов, способных поддерживать базу данных имен файлов. Арчи, Вероника и Джагхед были первыми участниками этой категории.
Оскар Нирстраз из Женевского университета аккредитован как создатель самой первой поисковой системы под названием W3Catalog. Он написал несколько серьезных сценариев на Perl и, наконец, 3 сентября 1993 года выпустил первую в мире поисковую систему. Кроме того, в 1993 году появилось множество других поисковых систем. JumpStation от Джонатона Флетчера, AliWeb, WWW Worm и т. д. Yahoo! был запущен в 1995 году как веб-каталог, но с 2000 года он начал использовать поисковую систему Inktomi, а затем в 2009 году перешел на Bing от Microsoft.
Теперь, говоря о названии, которое является основным синонимом термина «поисковик», Google Search — это исследовательский проект двух выпускников Стэнфорда, Ларри Пейджа и Серджи Брина, первые шаги которого начались в марте 1995 года. Первоначально работа Google была вдохновлена с помощью метода обратных ссылок Пейджа, который проводил расчеты на основе количества обратных ссылок, исходящих с веб-страницы, чтобы измерить важность этой страницы во Всемирной паутине. «Лучший совет, который я когда-либо получал», — сказал Пейдж, вспоминая, как его руководитель Терри Виноград поддержал его идею. И с тех пор Google никогда не оглядывался назад.
Все начинается с ползания
Детская поисковая система на своей зарождающейся стадии начинает исследовать Всемирную паутину, своими маленькими руками и коленями она исследует каждую ссылку, которую находит на веб-странице, и сохраняет их в своей базе данных.
Теперь давайте сосредоточимся на некоторых скрытых технических мыслях: поисковая система включает в себя программное обеспечение Web Crawler, которое по сути представляет собой интернет-бота, которому поручено открыть все гиперссылки, присутствующие на веб-странице, и создать базу данных текста и метаданных из всех ссылок. . Все начинается с начального набора ссылок для посещения, называемого Seeds. Как только он переходит к посещению этих ссылок, он добавляет новые ссылки в существующий список URL-адресов для посещения, известный как Crawl Frontier.
Когда сканер проходит по ссылкам, он загружает информацию с этих веб-страниц для последующего просмотра в виде снимков, поскольку для загрузки всей веб-страницы потребуется очень много данных, и это обходится по карманной цене, по крайней мере, в такие страны, как Индия. И я могу поспорить, что если бы Google был основан в Индии, все их деньги были бы использованы для оплаты счетов за Интернет. Надеюсь, на данный момент это не тема для беспокойства.
Веб-искатель исследует веб-страницы на основе некоторых политик:
Политика отбора: Краулер решает, какие страницы ему следует загружать, а какие нет. Политика выбора направлена на загрузку наиболее актуального содержимого веб-страницы, а не каких-то неважных данных.
Политика повторного посещения: Краулер планирует время, когда он должен повторно открыть веб-страницы и отредактировать изменения в своей базе данных, благодаря динамичному характеру Интернета, из-за которого сканерам очень сложно оставаться в курсе последних версий веб-страниц.
Политика распараллеливания: Сканеры используют несколько процессов одновременно для исследования ссылок, известных как распределенное сканирование, но иногда существует вероятность того, что одну и ту же веб-страницу могут загружать разные процессы, поэтому сканер поддерживает координацию между всеми процессами, чтобы исключить любую вероятность дублирования.
Политика вежливости: Когда сканер проходит по веб-сайту, он одновременно загружает с него веб-страницы, тем самым увеличивая нагрузку на веб-сервер, на котором размещен веб-сайт. Следовательно, реализован термин «Задержка сканирования», при котором сканеру приходится ждать несколько секунд после загрузки некоторых данных с веб-сервера, и это регулируется Политикой вежливости.
Также читайте: Как создать базовый веб-сканер на Python
Высокоуровневая архитектура стандартного веб-сканера:
На рисунке выше показано, как работает веб-сканер. Он открывает первоначальный список ссылок, а затем ссылки внутри этих ссылок и так далее.
Как пишет Википедия, исследователи информатики Владислав Шкапенюк и Торстен Суэль отметили, что:
Хотя создать медленный сканер, который загружает несколько страниц в секунду в течение короткого периода времени, довольно легко, построение высокопроизводительной системы, способной загружать сотни миллионов страниц в течение нескольких недель, представляет собой ряд проблем при проектировании системы. Эффективность ввода-вывода и сети, а также надежность и управляемость.
Индексирование сканирования
После того, как детская поисковая система сканирует весь Интернет, она создает индекс всех веб-страниц, которые находит на своем пути. Наличие индекса намного лучше, чем тратить время на поиск поискового запроса в куче документов большого размера, это сэкономит и время, и ресурсы.
Существует множество факторов, которые способствуют созданию эффективной системы индексации для поисковой системы. Методы хранения, используемые индексаторами, размер индекса, возможность быстрого поиска документов, содержащих искомые ключевые слова, и т. д. являются факторами, отвечающими за эффективность и надежность индекса.
Одним из главных препятствий на пути к созданию успешных веб-индексов является столкновение двух процессов. Скажем, один процесс хочет найти документ, и в то же время другой процесс хочет добавить документ в индекс, что создает конфликт между двумя процессами. Проблема еще больше усугубляется внедрением поисковыми системами распределенных вычислений для обработки большего количества данных.
Типы индексов
Вперед: В индексах этого типа все ключевые слова, присутствующие в документе, хранятся в списке. Прямой индекс легко создать на начальном этапе индексирования, поскольку он позволяет асинхронным индексаторам взаимодействовать друг с другом.
Обеспечить регресс: Прямые индексы сортируются и преобразуются в обратные индексы, в которых каждый документ, содержащий определенное ключевое слово, объединяется с другими документами, содержащими это ключевое слово. Обратные индексы упрощают процесс поиска релевантных документов по заданному поисковому запросу, чего нельзя сказать о прямых индексах.
Читайте также: Что такое DNS (система доменных имен) и как она работает?
Парсинг документов
Также называемая токенизацией, она относится к разбивке компонентов документа, таких как ключевые слова (называемые токенами), изображения и другие носители, чтобы их можно было позже вставить в индексы. Этот метод в основном фокусируется на понимании родного языка и прогнозировании ключевых слов, которые может искать пользователь, что служит основой для создания эффективной системы веб-индексирования.
Основные проблемы включают в себя определение границ слов ключевых слов, которые необходимо извлечь, поскольку мы видим, что такие языки, как китайский и японский, обычно не имеют пробелов в своих языковых сценариях. Понимание двусмысленности, которой обладает язык, также вызывает беспокойство, поскольку некоторые языки начинают незначительно или даже значительно различаться в результате географических изменений. Кроме того, неэффективность некоторых веб-страниц из-за отсутствия четкого упоминания используемого языка также вызывает беспокойство и увеличивает рабочую нагрузку на индексаторов.
Поисковые системы имеют возможность распознавать различные форматы файлов и успешно извлекать из них данные, и в этих случаях необходимо проявлять максимальную осторожность.
Мета-теги также очень полезны для быстрого создания индексов, они сокращают усилия веб-индексатора и устраняют необходимость полного анализа всего документа. Мета-теги вы найдете внизу этой статьи.
Поиск по индексу
Теперь поисковик для ребенка уже не ребенок, он научился ползать и быстро и эффективно хватать вещи, а также систематически расставлять свои вещи. Предположим, его друг просит его найти что-нибудь из его аранжировки, что он сделает? Используются четыре типа поисковых запросов, хотя они не являются формальными, но со временем развивались и оказались действительными с точки зрения реальных запросов, сделанных пользователями.
Навигация: Этот термин используется для тех запросов, в которых пользователь хочет перейти на определенную веб-страницу или веб-сайт, существующий в Интернете. Например, когда вы ищете fossBytes в Google, вы запускаете навигационный запрос.
Информационный: Запросы этого типа имеют тысячи результатов и охватывают общие темы, которые расширяют знания пользователя. Например, когда вы ищете, скажем, Стив Джобс, вам будут представлены все ссылки, относящиеся к Стиву Джобсу.
Транзакционный: Запросы, ориентированные на намерение пользователя выполнить определенное действие, могут включать заранее определенный набор инструкций. Например, как найти потерянный/украденный ноутбук?
Возможности подключения: Запросы такого типа используются нечасто, они ориентированы на то, насколько связан индекс, созданный на веб-сайте. Например, если вы ищете «Сколько страниц в Википедии?»
Google и Bing создали несколько серьезных алгоритмов, способных определить наиболее релевантные результаты для вашего запроса. Google утверждает, что рассчитывает результаты поиска на основе более чем 200 факторов, таких как качество контента, новое или старое, безопасность веб-страницы и многие другие. В их лабораториях Поиска работают величайшие умы мира, которые выполняют сложные вычисления и работают с умопомрачительными формулами только для того, чтобы сделать Поиск более простым и быстрым для вас.
Другие примечательные особенности*
Поиск изображений: Вы будете удивлены, узнав, что вдохновило Google на создание их знаменитого инструмента поиска изображений. Джей Ло, да, вы правильно поняли, Джей Ло и ее зеленое платье от Versace (ver-sah-chay) на церемонии вручения премии «Грэмми» в 2000 году были настоящей причиной, по которой Google внедрил поиск изображений, поскольку люди были заняты поиском в Google этой информации. ее.
В то время это был самый популярный поисковый запрос, который мы когда-либо видели. Но у нас не было надежного способа дать пользователям именно то, что они хотели: Джей Ло в этом платье. Появился поиск изображений Google.
Сказал Эрик Шмидт в своей статье под названием «Ученик ремесленника», опубликованной 19 января 2015 года.
Голосовой поиск: Google был первым, кто после долгой кропотливой работы внедрил голосовой поиск в своей поисковой системе, а впоследствии его внедрили и другие поисковые системы.
Борьба со спамом: Поисковые системы используют серьезные алгоритмы, чтобы защитить вас от спам-атак. Спам – это, по сути, сообщение или файл, который распространяется по всему Интернету, возможно, в рекламных целях или для передачи вирусов. В этом случае ребята из Google также вручную информируют веб-сайт, который, по их мнению, несет ответственность за распространение спам-сообщений в Интернете.
Оптимизация местоположения: Поисковые системы теперь могут отображать результаты в зависимости от местоположения пользователя. Если выполнить поиск «Какая погода в Бангалоре», то статистика погоды будет относиться к Бангалору.
Лучше тебя понимает: Современные поисковые системы способны понимать смысл запроса пользователя, а не находить ключевые слова, введенные пользователем.
Автозаполнение: Возможность прогнозировать ваш поисковый запрос по мере ввода на основе ваших предыдущих поисков и поисков, выполненных другими пользователями.
График знаний: Эта функция, предоставляемая Google Search, демонстрирует ее способность предоставлять результаты поиска на основе реальных людей, мест и событий.
Родительский контроль: Поисковые системы позволяют маленьким родителям контролировать, чем занимается их ребенок в Интернете.
* Трудно охватить обширный список функций, предоставляемых этими мощными поисковыми системами.
Завершение
Поисковые системы сделали нашу жизнь проще, и тяжелая работа, которую они проделали, чтобы использовать всю информацию в Интернете, бесценна. Но это исследование привело к выставлению нашего личного пространства на всеобщее обозрение, и я должен сказать, что нам пора задуматься о пути, по которому мы шли все это время, если только нам не поздно оглядываться назад. и наша жизнь будет всего лишь биеннале конфузов. Мы не можем отрицать тот факт, что поисковые системы теперь являются жизненно важной частью нашего цифрового раздвоения личности. Нам нужно только использовать данную нам технологию, а не позволять ей поработить нас цепями наших собственных проступков.
Ладно, больше никаких эмоциональных разговоров, просто обожаю миловидность и таланты этого малыша-поисковика, который теперь стал подростком и понимает тебя гораздо лучше. Google был рядом, чтобы искать для нас все, для многих из нас это Интернет, и мы должны ценить тот хороший опыт, который мы получили, используя поиск Google. Ой! Я забыл упомянуть Бинга, ты тоже классный. Будьте бдительны, берегите себя и гуглите.
Посмотрите это видео и узнайте больше о поисковых системах:
Вы когда-нибудь нажимали кнопку Я чувствую себя счастливой кнопкой в Поиске Google. Откройте его и расскажите нам, какой рисунок вам понравился больше всего, в разделе комментариев ниже.