Чтобы просматривать отчеты об ошибках, типичных для Google News, издатели новостей должны иметь веб-сайт учитываемый в Google, а также создать учетную запись Инструментов для веб-мастеров с добавленным к нему определенным веб-сайтом.
Ошибки, типичные для сайта Google News
Статья непропорционально короткая
Текст статьи, получаемый со страницы сайта, является слишком коротким по сравнению с другими блоками текста на сайте, которые не содержат ссылок.
Это относится к большей части веб-сайтов, содержащих сочетание сообщений или мультимедийных объектов вместо полных новостных статей. Ошибка генерируется, чтобы избежать включения неправильного фрагмента текста.
Проблему часто, вызывает:
- Слишком много мест для связанных статей – для того, чтобы улучшить работу программы извлечения, стоит предоставить возможность выбора этих фрагментов.
- Функции типа «Послать статью знакомым» с длинными описаниями – рассмотрите применение стиля display:none или visibility:hidden, чтобы текст был не виден или динамическое создание этих фрагментов с использованием JavaScript.
- Комментарии пользователей – вы можете вложить комментарии в элемент iframe, настроить их динамическую загрузку с помощью технологии AJAX или перенести их на другую страницу сайта.
Статья разделена на фрагменты
Текст статьи, извлекаемый со страницы, состоит из отдельных предложений, не соединенных в абзацы. Ошибка генерируется, чтобы избежать включения неправильного фрагмента текста.
Рекомендации:
- Соединить фрагменты текста статьи в абзацы, содержащие по несколько предложений.
- Убедитесь, что в предложениях используется правильная пунктуация.
- Позаботьтесь о том, чтобы абзацы, не содержали многочисленные теги «br» и «p» .
- Попробуйте удалить со страницы части текста, которые не принадлежат к статье.
Слишком длинная статья
Текст статьи, извлекаемый со страницы, является слишком длинным, чтобы это была новостная статья. Ошибка генерируется, чтобы избежать включения неправильного фрагмента текста. Типичные причины, это, в частности, комментарии пользователей, расположенные под статьей.
Рекомендации:
Попробуйте удалить со страницы части текста, которые не принадлежат к статье. Если страница со статьей, содержит комментарии пользователей, попробуйте использовать одно из следующих решений:
- Поместите их в элемент iframe.
- Настройте их динамическую загрузку с помощью технологии AJAX.
- Переместить часть комментариев на другую страницу.
Слишком короткая статья
Текст статьи, извлекаемый со страницы, содержит слишком мало слов, чтобы это можно было назвать новостной статьей. Это относится к большей части веб-сайтов, содержащих сочетания сообщений или мультимедийных объектов вместо полных новостных статей. Ошибка генерируется, чтобы избежать включения неправильного фрагмента текста.
Рекомендации:
- Соединить фрагменты текста статьи в абзацы, содержащие по несколько предложений.
- Убедитесь, что статье имеется не менее 80 слов.
Не найдена дата
Программа извлечения не смогла определить дату публикации статьи.
Рекомендации:
Ниже приведены рекомендации о форматировании даты:
- Укажите конкретную дату и время в отдельной строке HTML-кода, между названием и текстом каждой статьи. Дата должна определить дату публикации статьи.
- Удалите все другие даты из HTML-кода страницы со статьей.
- Создайте карту сайта для Google Новостей. Значение тега «publication_date» позволит установить правильную дату статьи.
- Используйте микроразметку Schema.org
Слишком давняя дата
Дата статьи определенная на основе тега «publication_date» в карте сайта или дате на странице HTML, является слишком старой.
Рекомендации:
- Убедитесь в том, что статье максимум 2 дня. В настоящее время Google News собирает статьи, которые не старше двух дней.
- Примените выше указанные рекомендации к форматированию даты.
Пустая статья
Текст статьи, извлекаемый со страницы HTML, является пустым.
Рекомендации:
- Убедитесь, что полный текст каждой статьи доступен в исходном коде страницы со статьей.
- Убедитесь, что в исходном коде статьи не используется стиль display:none или visibility:hidden.
- Убедитесь, что ссылки на статьи ссылаются непосредственно на страницы со статьями, а не на промежуточные страниц, содержащие перенаправление JavaScript.
Извлечение не удалось
Программа не смогла извлечь статью из этой страницы. Извлечение не удается, если невозможно определить действительный заголовок, тело статьи или временную метку для статьи.
Рекомендации:
- Убедитесь, что заголовок, текст и временная метка легко доступны для сканирования (например, в виде текста, а не как изображения).
- Отправьте карту новостей сайта.
Недействительный метатег даты
Страница содержит тег «meta» даты, который невозможно проанализировать.
Рекомендации:
Теги «meta» для даты должны иметь форму «meta name="DC.date.issued" content="ГГГГ-ММ-ДД"» , где дата представлена в формате W3C (https://www.w3.org/TR/NOTE-datetime). Дата должна определять дату публикации статьи.
Не найдена ссылка
Робот Googlebot-News не нашел на сайте каких-либо ссылок на действительные новостные статьи. Эта ошибка относится только к страницам, содержащим раздел с новостями.
Рекомендации:
- Убедитесь, что URL статей содержат трехзначный номер. В противном случае используйте sitemap для новостей.
- Убедитесь, что статьи расположены в домене сайта, включенного в Новости Google.
- Проверьте страницу, которая привела к возникновению ошибки, и убедитесь, что она содержит доступные для сканирования ссылки на новостные статьи. Робот Googlebot-News лучше всего справляется со ссылки ввиде HTML и не может сканировать графические ссылки или размещенные в коде JavaScript.
Не обнаружены предложения
Текст статьи, извлекаемый со страницы, не содержит длинных последовательностей слов, разделенных знаками препинания. Ошибка генерируется, чтобы избежать добавления неправильного раздела текста.
Рекомендации:
- Убедитесь, что текст ваших статей состоит из предложений и абзацев, и не содержит многочисленных тегов «br» и «p» .
- Убедитесь, что полный текст каждой статьи был доступен в исходном коде страницы со статьей.
- Убедитесь, что ссылки на статьи ссылаются непосредственно на страницы со статьями, а не на промежуточные страницы, содержащие перенаправление JavaScript.
Найден тег noindex
Страница статьи содержит тег «meta» со значением noindex, который запрещает Google индексировать страницы.
Рекомендации:
Удалите тег «meta» со значением noindex со страниц со статьями.
Переадресация вне сайта
Страница раздела или статьи перенаправляет на URL в другом домене.
Рекомендации:
- Все страницы, разделы и статьи должны быть расположены в домене сайта, включенного в Новости Google.
- Если вы не используете перенаправления на веб-сайт, убедитесь, что ваш сайт не был изменен кем-то другим.
Слишком большая страница
Длина страницы раздела или статьи превышает максимально допустимое значение.
Рекомендации:
Размер исходной страницы HTML, не может превышать 256 КБ.
Недопустимый заголовок
Заголовок, извлеченный со страницы, предполагает, что это не статья с новостью.
Рекомендации:
Часто эту проблему можно решить, заключив заголовок статьи в тег «title» на странице HTML, и повторив его в заметном месте на странице, например, в теге «h1» .
Не найден заголовок
Не удалось извлечь заголовок статьи со страницы HTML.
Рекомендации:
- Используйте наши рекомендации на тему форматирования заголовка.
- Чтобы убедиться в том, что статьи будут корректно отображаться на мобильных устройствах, якорный текст заголовка не может начинаться с цифры.
Извлечение не удалось
Робот Googlebot-News обнаружил, что страница была сжата, но не смог ее распаковать. Это может быть связано с условиями, принятыми в сети или неправильной установкой или настройкой веб-сервера.
Рекомендации:
Проверьте состояние сети и веб-сервера.
Неподдерживаемый тип содержания
Тип содержания HTTP на странице не поддерживается в Google News.
Рекомендации:
Статьи должны иметь один из следующих типов данных: text/html, text/plain или application/xhtml+xml.