digital society laboratory (Аршавский)

21
цели Digital Society Laboratory ЛЦО

Upload: andzhey-arshavskiy

Post on 11-Jul-2015

1.670 views

Category:

Technology


2 download

TRANSCRIPT

Page 1: Digital Society Laboratory (Аршавский)

цели

Digital Society Laboratory

ЛЦО

Page 2: Digital Society Laboratory (Аршавский)

Нап

рав

ле

ни

я и

ссл

едо

ван

ий

Направления исследований

Экономика внимания

Исследования интернет сообществ

Информационная вирусология

Анализ вкусовых предпочтений

Топология социальных сетей

Page 3: Digital Society Laboratory (Аршавский)

Нап

рав

ле

ни

я и

ссл

едо

ван

ий

Модель работы

Sociologists

Data Scientists

Developers

OpenSNAP

Page 4: Digital Society Laboratory (Аршавский)

концепция и перспектива

Digital Society Laboratory

OpenSNAP

Page 5: Digital Society Laboratory (Аршавский)

Идея

Мы хотим построить универсальную систему работы с данными социальных сетей. Систему, ориентированную на накопление и параллельную обработку данных о взаимодействиях пользователей ряда соцсетей. Эта система станет ядром платформы для упрощения социального анализа и осуществления сложных аналитических запросов к социальным графам.

Идея платформы OpenSNAP

Page 6: Digital Society Laboratory (Аршавский)

Примеры аналитических запросов:

• «Найти ТОП2000 социально влиятельной аудитории, которая проводит в соцсетях более 2 часов в день со следующими параметрами < мужчины>,<30-45>,<средний достаток>.В ответе указать статистику временной и тематической активности в различных СС.»

• «Показать как изменялась структура сети и модель общения за последний год в русскоязычном facebook и сравнить эти изменения с тем, что происходило в “моем мире”

• «Провести подсчет индикаций вкусовых предпочтений в Вконтактепо кино и книгам у заданной списком имен и доп. параметров аудитории»

Примеры вопросов на которые поможет ответить OpenSNAP

Page 7: Digital Society Laboratory (Аршавский)

Бизнес модель:

Предоставление вычислительных и информационных услуг исследователям, рекламным компаниям и компаниям развивающим интернет проекты. Мы дадим возможность исследователям и стартапам анализировать данные социальных сетей на универсальной площадке с готовой инфраструктурой.

Стратегия монетизации монетизация

4 ступеней модели>>

Page 8: Digital Society Laboratory (Аршавский)

Четыре ступени бизнес модели

Программируемая полуавтоматическая

платформа

Инструмент социолога

Среда работы внешних

исследователей+

Рынок данных и алгоритмов

Аналитический инструмент

маркетологов👬

👬

👬

👬

👬

👬

👬

👬

👬

👬👬

Page 9: Digital Society Laboratory (Аршавский)

Общий вид площадки

OpenSNAP

⊛= Vis(M,a,b,c)

1

23

4

Page 10: Digital Society Laboratory (Аршавский)

Сценарий площадки

OpenSNAP

1

23

4�

«Социомат»

Библиотекаоператоров

Page 11: Digital Society Laboratory (Аршавский)

Данные и форматы

1

ETL

2

ETL℀

Page 12: Digital Society Laboratory (Аршавский)

Операторы и преобразования

ETL1 ETL1 op Vis

⊙◉☉= opn(M,a,b,c)

⊙◉☉

Page 13: Digital Society Laboratory (Аршавский)

OpenSNAP в конкурентном ландшафте: данные

Наборы данных собранные в ручную или результаты предварительных выборок могут поместиться в памяти. Графы в 1,000 узлов (с вероятностью связности 0.8 = 800,000 связей) потребуют 100MB без учета атрибутов. Такой же граф в 2,000 узлов (и почти 2М связей) потребует500MB. В общем случае связность оценивается в O(n)=n +n2=n(n+1).

1000узлов

10^6

10^9

Небольшие, собранные в ручную данные

Средние данные,Снимки сетей через API

Big DataДанные для обработки

в реальном времени

«Плоские» файлы в памяти

SQL базы данных

Big Data технологии

Page 14: Digital Society Laboratory (Аршавский)

OpenSNAP зачем нам нужны Big Data решения?

“…Going back to Twitter as an example, we can scan the 1% sample stream for generaltrends and topics—anything important enough to generate at least a hundred messageswill probably show up. Or, since we are interested in networks, the very active peoplewill make a blip on our radar and we can even see some connections. If that is all wewant, storing even a few hundred gigs worth of traffic (in this example, equivalent to afew months time) is no big deal. But what if we wanted to explore trends among thelesser active participants over a few years? The answers would lie in some pretty bigdata, and to get them, we would have to store and process it somehow.Now that we have some idea of the scope of the problem, what do we do with aterabyte of social chatter a day?

–Maksim Tsvetovat

1. Средства анализа и визуализации графов существуют уже в большом количестве и разнообразии

2. Мы можем занять нишу коллекторов больших объемов данных с возможностями ретроспективных временных срезов

3. Мы также можем построить технологии запуска вычислительных задач на наших системах и это будет единственным живым решением для аналитиков во всем мире, т.к. скачать их будет невозможно, если конечно они не инвестируют значительное время и ресурсы для того, чтобы сделать ту работу, которую хотим взять на себя мы. Это также обычно не задача исследователей + на инфраструктурные работы у них нет ресурсов

Page 15: Digital Society Laboratory (Аршавский)

Сотрудничество + платформа, дадут возможность широкому кругу исследователей сосредоточиться на научных задачах вместо того, чтобы тратить свое время на инфраструктуру вычислений и работу с данными

Collaboration

Page 16: Digital Society Laboratory (Аршавский)

Пр

им

ер

ы т

ого

что

се

йча

с е

сть I2 Social Network Analysis

Позволяет визуально представить структуру взаимоотношений в социальных сетях путем расчета betweenness, closeness, degree and eigenvector hubs and authorities centrality measures.

>video

Page 17: Digital Society Laboratory (Аршавский)

Пр

им

ер

ы т

ого

что

се

йча

с е

сть DataSift

Позволяет получить базу Твитов или подключиться к онлайн потоку, настроить фильтр и визуализировать информацию. Для сторонних разработчиков выступает в роли платформы для написания и встраивания своих фильтров.

>video

Page 18: Digital Society Laboratory (Аршавский)

Пр

им

ер

ы т

ого

что

се

йча

с е

сть NetworkX

Библиотека на Python для анализа графов

>http://networkx.github.com

Page 19: Digital Society Laboratory (Аршавский)

Пр

им

ер

ы т

ого

что

се

йча

с е

сть NodeXL

Приложение + Excel plugin для анализа графов визуализации.http://nodexl.codeplex.comhttp://www.smrfoundation.org

Page 20: Digital Society Laboratory (Аршавский)

Пр

им

ер

ы т

ого

что

се

йча

с е

сть Stanford Large Network Dataset Collection

Коллекция данных Лесковцаhttp://snap.stanford.edu/data/

Page 21: Digital Society Laboratory (Аршавский)

Пр

им

ер

ы т

ого

что

се

йча

с е

сть Nodus Lab

Лаборатория типа того что мы хотели бы стать)http://noduslabs.com/about/http://www.facebook.com/noduslabs