Вход на хостинг
IT-новости
20.04.2016 iPhone 2017 года поместят в водонепроницаемый корпус из стекла
Линейка iPhone в новом году серьезно поменяется. В этом уверен аналитический исследователь Мин Чи Ку......
30.07.2015 Ищем уникальный контент для сайта
Ищем уникальный контент для сайта Без уникального контента Ваш сайт обречен на то, что его страницы......
Почему Рамблер ведет подсчет найденных ресурсов в документах, а другие поисковые машины – в страницах?
Рамблер, в отличие от многих других поисковых машин, умеет «склеивать дубли» одного и того же текста, размещенные по разным адресам Сети, и хранит для таких текстов лишь одну копию. Поэтому при поиске он сообщает не количество найденных страниц, на которых есть слова запроса, а именно количество уникальных текстов, содержащих эти слова. Именно поэтому мы используем при подсчетах термин «документ», а не «страница». По нашим данным, миллион обработанных страниц порождает примерно 700 тысяч уникальных документов. Соответственно, 300 тысяч являются копиями.
Каков максимальный размер документа или размер той части, что будет проиндексирована? Есть ли это ограничение?
Робот скачивает примерно 200 Кб текста, а программы индексирования обрабатывают первые 65535 слов (знаки препинания считаются словами).
Подробности поведения робота – без комментариев.
128 Кб.
Сейчас у нас стоит ограничение на первые 200 Кб документа.
Есть ли возможность у вашего робота двигаться по ссылкам, код которых генерируется динамически? Вопрос связан с применением разного рода поп-ап и ролл-аут, даун меню... с их программной реализацией.
В настоящий момент робот учитывает ссылки, сформированные средствами HTML, и не выделяет ссылок из различных скриптов (JavaScript, VBScript): он попросту их игнорирует.
Подробности поведения робота – без комментариев.
Если речь идет о ссылках, генерируемых браузером при исполнении скриптов, то нет.
Насколько важно присутствие и содержание header-тегов (h1, h2 ...) на индекисруемых документах?
Поисковые системы, и Рамблер в том числе, ориентированы прежде всего на веб-документы, так что форматирование имеет не последнее значение. Конечно, оно учитывается при вычислении релевантности.
Подробности поведения робота – без комментариев.