opendata practice for global editors hackathon
DESCRIPTION
Open Data practice in RussiaTRANSCRIPT
![Page 1: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/1.jpg)
Открытые и большие данные на практике
Иван Бегтин Директор НП “Информационная культура”
![Page 2: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/2.jpg)
Типовые ситуации в data-‐журналистике
![Page 3: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/3.jpg)
Есть данные -‐ нет идеи
![Page 4: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/4.jpg)
Есть идея – нет данных
![Page 5: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/5.jpg)
Нет ни данных, ни идеи, но сделать надо завтра!
![Page 6: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/6.jpg)
Идеальная ситуация
Это когда есть: ü Идея ü Данные ü Время ü + Технологии
![Page 7: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/7.jpg)
Что делать?
![Page 8: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/8.jpg)
Готовимся заранее: Данные
• Большие данные: знаем где искать, знаем что делать
• Ключевые онлайн API и наборы данных • Screen Scraping • Основные инструменты очистки данных
![Page 9: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/9.jpg)
Как быстро найти данные?
• Спросить: • Quora.com • StackOverclow -‐ http://opendata.stackexchange.com/ • Рассылки OKF, группы в Facebook и тд.
• Каталоги • The Data hub – http://thedatahub.org • Хаб открытых данных – http://hubofdata.ru • Data Catalogs – http://datacatalogs.org/
![Page 10: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/10.jpg)
Wikipedia
![Page 11: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/11.jpg)
Wikipedia
• Wikipedia: • API -‐ http://en.wikipedia.org/w/api.php • Дампы – http://download.wikimedia.org • DBPedia – http://dbpedia.org • Wikidata – http://wikidata.org • FreeBase -‐ http://www.freebase.com/
![Page 12: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/12.jpg)
Основные базы данных онлайн
• Международные: • The Data Hub – http://thedatahub.org • Всемирный банк – http://data.worldbank.org • ООН – http://data.un.org
• Национальные • Хаб открытых данных – http://hubofdata.ru • США – http://data.gov • UK – http://data.gov.uk
![Page 13: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/13.jpg)
Основные способы работы с большими данными • Выкачивать целиком под задачу • Найти и использовать чужое API • Сделать своё API
![Page 14: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/14.jpg)
Web / Screen scraping
![Page 15: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/15.jpg)
Что такое Web/Screen/Data Scraping?
• не ждем данных – собираем их сами • извлекаем их из веб-‐страниц, файлов и печатных документов • переводим неструктуриованное в базы данных
![Page 16: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/16.jpg)
Инструменты
• Программирование • Python + lxml or BeautifulSoup + база данных • Или …любой другой язык программирования
• Платформы: • ScraperWiki.com – тоже Python, но проще
• Abbyy PDFTransformer + Finereader
![Page 17: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/17.jpg)
Технологии
![Page 18: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/18.jpg)
Технологии
• Открытый код • Инструменты визуализации • Обработка данных
![Page 19: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/19.jpg)
Government.github.com
![Page 20: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/20.jpg)
Selection.datavizualisation.ch
![Page 21: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/21.jpg)
Developers.google.com
![Page 22: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/22.jpg)
Tech.yandex.ru
![Page 23: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/23.jpg)
Пример: Российская общественная
инициатива
![Page 24: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/24.jpg)
Сайт РОИ
![Page 25: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/25.jpg)
Как действовать
• Собрать идеи • Написать scraper и посмотреть данные • Посмотреть что сделали другие: • WeThePeople – http://petitions.whitehouse.gov • E-‐Petitions http://petitions.direct.gov.uk
![Page 26: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/26.jpg)
Что есть?
• Анализ данных РОИ и аналогичных проектов – http://habrahabr.ru/company/infoculture/
• Код на Python -‐ https://github.com/ivbeg/apiroi • Дамп базы -‐ http://hubofdata.ru/dataset/roi-‐dump
![Page 27: Opendata practice for Global Editors Hackathon](https://reader033.vdocument.in/reader033/viewer/2022052621/558594e3d8b42abc7b8b4a69/html5/thumbnails/27.jpg)
Вопросы?
Иван Бегтин Email: [email protected] Сайт: http://ivan.begtin.name Facebook: facebook.com/ibegtin twitter.: ibegtin