Вход на хостинг
IT-новости
20.04.2016 iPhone 2017 года поместят в водонепроницаемый корпус из стекла
Линейка iPhone в новом году серьезно поменяется. В этом уверен аналитический исследователь Мин Чи Ку......
30.07.2015 Ищем уникальный контент для сайта
Ищем уникальный контент для сайта Без уникального контента Ваш сайт обречен на то, что его страницы......
Рамблер во многих случаях снимает такие ограничения для сайтов, которые содержат, по мнению наших редакторов, уникальную информацию и/или являются популярными ресурсами. Также такие «послабления режима» возможны по просьбе авторов сайтов.
Выдержка из официальных сведений: «При поиске ресурсы, зарегистрированные в Top100, занимают первые несколько позиций (до пяти) и упорядочены в соответствии со своей посещаемостью». Разве это правильный подход в поиске информации? В результате имеем следующую нелепую ситуацию: какой-нибудь крупный ресурс, объединяющий в себе большой набор различных сервисов (например, мини-портал) и, имеющий очень высокую посещаемость только лишь за счет наличия большого информационного наполнения, получает к себе большой приток посетителей. Релевантность документа в этом случае не играет никакой роли.
На самом деле релевантность документа имеет также важную роль. Нерелевантные запросу страницы, пусть даже они и имеют огромный рейтинг Top100, все равно в выдачу не попадут. С другой стороны, из двух страниц, имеющих подобное содержание, раньше будет показана та, которая зарегистрирована в Top100 и имеет больший рейтинг. На наш взгляд, учет предпочтений пользователей имеет большое значение.
Как мне известно, база данных поисковых систем не хранит в чистом виде текст, найденный на страницах сайта. В БД сохраняются лишь какие-то слова с определенной информацией о себе (как часто встречается, какой уровень значимости и т. д.). Так каким же образом работает функция «реконструкция текста», например, в поисковой системе Апорт?
То, что вы пишете про БД, верно по отношению к той ее части, которая используется при собственно поиске. Тексты документов (в сжатом виде и с упрощенным форматированием), хранятся в отдельном хранилище и используются только для цитирования и реконструкции текста.
Мною на практике (на своих сайтах) замечено, что паук Апорта плохо индексирует сайты. Как правило, паук не индексирует больше 400 страниц, даже при повторном индексировании паук не заходит на остальные страницы. С чем связано такое явление? (для справки, все страницы *.html и имеют перекрестные ссылки).
Апорт применяет квотирование количества индексируемых документов с одного сайта. Размер квоты для сайта определяется его индексом цитируемости.