Your browser doesn't support the features required by impress.js, so you are presented with a simplified version of this presentation.
For the best experience please use the latest Chrome, Safari or Firefox browser.
Sistemas complexos e redes complexas:
fundamentos e algumas aplicações em redes sociais e linguagem
Pesquisador: Renato Fabbri
Instituto de Ciências Matemáticas e de Computação (ICMC/USP)
FAPESP, projeto 2017/05838-3
Roteiro
Introdução
sistemas complexos e redes complexas
redes em estruturas sociais humanas e na linguagem
Materiais
Alguns métodos
medidas fundamentais/básicas
PCA
setorialização de Erdös
adaptação do teste de Kolmogorov-Smirnov
wordnet
Alguns resultados e discussão
estabilidade topológica
diferenciação textual
audiovisualização de redes
LOSD: linked open social database
bots
Conclusões e trabalhos futuros
1
Introdução
2
Introdução
3
Introdução
Considere \(\approx 10^{80}\) átomos no universo observável,
uma escala de referência.
Seja \(N\) o número de indivíduos necessários para haver
mais redes possíveis que átomos no universo.
Cada aresta é uma variável de Bernoulli: a aresta pode estar presente ou não:
I.e. com apenas 24 vértices, existem mais redes possíveis que átomos no universo.
Isso explicita a utilidade dos paradigmss para redes,
e de medidas genéricas para cada vértice e para cada rede,
instrumentais para a área das redes complexas, incluindo
redes de interação e relacionamento humanas.
Sistema Complexo \(\Rightarrow\)
consiste de partes cuja interação apresenta comportamento
emergente.
É usual considerar que um sistema complexo:
processa informação, possui mecanismos de adaptação,
pode apresentar mecanismos de reprodução.
Um sistema complexo é integrado a outros sistemas complexos
e ao meio em que subsiste.
4
Introdução
Exemplos de áreas em que as redes complexas são utilizadas:
Redes complexas (pesquisa de base/fundamental)
Mineração de texto
Visualização de dados/redes
Dados ligados
Participação social
Programação, APIs, protocolos
Arte
5
Materiais
Resultados obtidos com dados de:
Emails (da base de dados Gmane)
Facebook
Twitter
IRC
Cidade Democrática
ParticipaBR
Autorregulação Algorítmica (AA)
6
Métodos
Obtenção de redes (de relacionamento ou interação)
PCA de medidas topológicas
Setorialização de Erdös
O método principal que utilizamos para observar diferenciação linguística
dentre os setores de Erdös é uma adaptação do teste de Kolmogorov-Smirnov.
Para realizar a pesquisa, tivemos que utilizar métodos para:
Audiovisualização das redes
Representação dos dados como dados ligados
Considerações tipológicas e humanísticas
Estatísticas direcionais (ou circulares ou esféricas)
são genéricas para manifolds Riemannianos e foram usados para observar
as distribuições de atividade ao logo do tempo.
Utilizamos medidas padrão de grau e força (totais, de entrada e saída), centralidade de betweenness, e coeficiente de clusterização.
Também utilizamos medidas não-padrão de "assimetria" e "disequilíbrio".
10
Adaptação do teste de Kolmogorov-Smirnov de duas amostras
c(\alpha) < \frac{D_{n,n'}}{\sqrt{\frac{n+n'}{nn'}}} = c'
α
0.1
0.05
0.025
0.01
0.005
0.001
c(α)
1.22
1.36
1.48
1.63
1.73
1.95
11
Audiovisualização dos dados
12
Representações em dados ligados e ontologias
Para dar suporte à pesquisa, desenvolvemos:
tradução de dados relacionais (e.g. SQL) para RDF através de scripts Python.
Formalização de instâncias e mecanismos de participação social em OWL.
Mantivemos uma infraestrutura online para navegação e busca nestes dados ligados 2m 2015.
Os serviços de computação em nuvem começaram a ser cobrados,
motivo pelo qual retiramos o serviço.
13
Considerações tipológicas e humanísticas
Estas redes são constituídas de seres humanos.
Fatores com potencial para o preconceito.
O ambiente em que a rede é observada.
Experimentos percolatórios e performances em sistemas sociais virtuais.
Física antropológica.
14
Resultados
Estabilidade temporal e topológica.
Diferenciação textual gritante.
Inicialização da nuvem brasileira de dados ligados de participação social.
Versinus: um método para (áudio)visualização de redes em evolução temporal.
Desenvolvimento de software.
15
Estabilidade temporal de atividade e topológica
Estatísticas circulares mantiveram-se as mesmas para as listas de email, nas escalas de segundos a semestres.
Frações fixas de participantes em cada setor de Erdös, em concordância com a literatura.
Estabilidade das componentes principais (PCA).
Tipologia humana dos setores de Erdös.
16
Estabilidade temporal e topológica
17
Estabilidade temporal e topológica
18
Estabilidade temporal e topológica
19
Estabilidade temporal e topológica
20
Diferenciação linguística
The texts produced by each of the Erdös sectors are extremely
different. The differences found are greater than between
different networks or between the same sector of different
networks.
The differences are sometimes evident: hubs use smaller words, sentences and messages. Peripherals
use more nouns and less adjectives.
Correlations of topological and textual measurements do not present trivial patterns.
Principal components are mainly of textual or topological
metrics; the merge of these different sets of metrics is modest.
Persistence of the differences in incident and existent
words.
21
Diferenciação linguística
22
Diferenciação linguística
23
Audiovisualização com Versinus
No Versinus (Latim versus+sinus meaning line+sinusoid),
os setores de Erdös são posicionados nos meio-perídos da senóide
e na reta superior. O tamanho dos vértices correspondem às forças de entrada
e saída. A cor reflete o coeficiente de clusterização.
A música é sintetizada utilizando a força total dos 4 hubs mais ativos.
24
Linked social data
Formalização de ontologias (OWL) e vocabulários (SKOS)
de estruturas sociais. OPS, OPA, OPP, Ontologiaa, OCD, OBS,
VBS.
Scripts Python para tradução de dados relacionais para RDF.
Método de síntese de ontologias orientado aos dados.
25
Arte e mapeamentos sensoriais
Four hubs dance. Social prelude.
Versinus.
Other pieces: online app (PHP+Python) for rendering email
related images and measurements. Sonifications.
Official Python packages (PyPI) for precise and efficient sharing
of the developments:
Observation of circular measurements, topological stability
and textual differentiation. The Percolation package.
Routines for representing as RDF the relational data from
the social participation portals ParticipaBR, Cidade Democrática
and AA. The Participation package.
Routines for representing as RDF the relational data from
the social networking portals/protocols Facebook, Twitter and
IRC. The Social package.
Routines for representing as RDF the relational data from
email lists in the Gmane database. The Gmane package.
Routines rendering music and data sonification. The Music package.
27
Conclusões
Entendemos que a estabilidade das redes de interação humana estão
melhor quantificadas e qualificadas através da invariância da fração
de participantes em cada setor, da dispersão pequena das componentes principais
e das estatísticas circulares.
A linguagem apresentada por cada setor é bastante diferente.
Em alguns casos, é fácil verificar estas diferenças na leitura direta dos textos.
Legado em dados, ontologias e software.
Tipologias derivadas das análises.
Muitas possibilidades para passos seguintes:
inclusão de medidas relacionadas ao TF-IDF, análise de sentimento,
inclusão de outras medidas de texto e topologia, analítica (áudio)visual.
28
Bibliography
BIRD, C. et al. Mining email social networks. In:
INTERNATIONAL WORKSHOP ON MINING SOFTWARE REPOSITORIES. 2006,
Shanghai. Proceedings… New York: ACM. p. 137–143, 2006.
NEWMAN, M. Networks: an introduction. Oxford: Oxford
University Press, 2010.
COSTA, L. F. et al. Characterization of complex networks: a
survey of measurements. Advances in Physics, v. 56, n. 1, p.
167–242, 2007.
BIRD, S.; KLEIN, E.; LOPER, E. Natural language processing
with Python: analyzing text with the natural language toolkit.
Beijing: O'Reilly, 2009.
BECK, F. et al. A taxonomy and survey of dynamic graph
visualization. 2016.