website geotargeting (russian)
DESCRIPTION
Автоматическая Геоклассификация веб сайтов.Иван БегтинTRANSCRIPT
![Page 1: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/1.jpg)
Автоматическая геоклассификация вебсайтов
Иван БегтинDPLabs
![Page 2: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/2.jpg)
Зачем это нужно?Области применения
![Page 3: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/3.jpg)
Области применения
1. Региональный поиск
2. Обогащение интернет каталогов
3. Дополнительные данные для других алгоритмов классификации*
* Например, при выявлении SEO ссылок или определения геопривязки email адресов.
![Page 4: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/4.jpg)
Основы
геоклассификацииТермины и онтология
![Page 5: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/5.jpg)
Основы геоклассификации
1. Геометки - тематическая привязка сайта к определенному географическому положению
2. Геосправочники – справочники и классификаторы для выявления геометок
3. Геопризнаки – информационные объекты связанные с веб-сайтом содержащие информацию о его географическом положении
![Page 6: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/6.jpg)
Виды геометок
1. Местонахождение - где находится домен/ IP адрес хостинга
2. Владение - где находится владелец
3. Аудитория – откуда приходят посетители, какие посетители привлекаются
4. Тематика – какой теме посвящен веб-сайт
![Page 7: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/7.jpg)
Местонахождение
Как используется
• Отвечает на вопрос: Где расположенсайт?
• Определяется по принадлежности домена и IP адреса хостинга
Ограничения
• Не применимо к бесплатным хостингам
• Не применимо к сайтам скрытым за CDN
![Page 8: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/8.jpg)
Владение
Как используется
• Отвечает на вопрос: Где находится владелец сайта?
• Определяется по контактным данным владельца:
– в WHOIS
– на страницах веб-сайта
Ограничения
• WHOIS данные недоступны для большинства доменов 3-го уровня
• Контактные данные неизвлекаемы для сайтов на Flash и публикующими контакты в виде изображений
![Page 9: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/9.jpg)
Аудитория
Как используется
• Отвечает на вопрос: Где находятся посетители сайта?
• Определяется по :
– по геопривязке IP адресов посетителей сайта
– по регистрационным данным в онлайн каталогах
– по языку веб сайта (в случае национальных языков РФ)
Ограничения
• Требуется доступ к счетчикам сайта с геопривязкой – GA, LI.ru
• Небольшое число сайтов в онлайн каталогах
![Page 10: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/10.jpg)
Тематика
Как используется
• Отвечает на вопрос: О чем написано на веб сайте?
• Определяется по ключевым словам в тексте страниц сайта
Ограничения
• Значительная ресурсоѐмкость если не ограничивать число проверяемых страниц
• Разные типы сайтов могут иметь более одной геопривязки
![Page 11: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/11.jpg)
Подготовка к
классификацииРабота со справочниками
![Page 12: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/12.jpg)
Справочники и классификаторы
• База LIRов (IPGeobase)
• База почтовых индексов РФ
• Телефонные коды городов (ABC коды)
• Телефонные коды сотовых операторов (DEF коды)
• Справочник СОУН (база налоговых органов)
• База юридических лиц РФ
• База кредитных учреждений РФ
• База ключевых слов/фраз/регулярных выражений геотематики
• Классификация доменов– По географическим доменам
– По ключевым словам в названиях
– По типовым шаблонам в названиях доменов
• множество других…
![Page 13: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/13.jpg)
Нормализация справочников
• Нормализация справочников проводится для сайтов относящихся только к Рунету
• Все справочнику приводятся к единому рубрикатору на базе КЛАДР
• Обязательный уровень детализации – субъект РФ
• Допустимый уровень детализации –муниципальные образования и города регионального значения
![Page 14: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/14.jpg)
ГеопризнакиРабота со справочниками
![Page 15: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/15.jpg)
Виды геопризнаков
• Адреса, включая почтовые индексы
• Телефонные номера – городские и мобильные
• Ключевые слова в тексте
• Аббревиатуры и сокращения
• Коды ИНН, КПП, ОГРН
• Коды расчетных счетов + БИК
![Page 16: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/16.jpg)
КлассификацияРабота со справочниками
![Page 17: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/17.jpg)
Текущий статус
• Алгоритм создан в 2008 году Иваном Бегтиным в рамках DPLabs в рамках исследований по географической и тематической классификации сайтов
• Классифицировано около 20 000 сайтов
• Ведется работа по построению онтологии геоклассификации
![Page 18: Website Geotargeting (russian)](https://reader038.vdocument.in/reader038/viewer/2022100603/55925dba1a28ab72278b45ac/html5/thumbnails/18.jpg)
Как это работает
1. Веб-сайт анализируется на наличие различных геопризнаков на его страницах и связанных с ним информационных объектах: WHOIS домена, IP адресах
2. Геопризнаки согласно специальным правилам проверяются по справочникам и приводятся к геометкам
3. Правила обладают приязкой к месту нахождения геометки и объекту, а также имеют разный вес.
4. Результат состоит из двух отчетов:
– детальный отчет со всеми правилами и метками
– суммарный отчет по совокупности числа правил и меток учитывая их вес