Serwis DATA.WORLD (czytaj: data - dot - world) - https://data.world - jest jak na razie bezpłatny i zawiera olbrzymie zasoby danych ilościowych, łatwych do przeglądania i analizy. Dane można oczywiście pobrać w formacie tekstowym/CSV. Ale po co, skoro twórcy serwisu przewidzieli możliwość wykorzystania m.in. R oraz Pythona do pobierania danych - w eleganckiej formie, wraz z zestawem meta-danych, słownikiem i opisem.

Aby zacząć korzystać z danych serwisu, konieczne jest zainstalowanie biblioteki do obsługi serwisu:

pip install datadotworld

W kolejnym kroku należy skonfigurować bibliotekę poleceniem (identycznie dla Win/Mac/Linux):

dw configure

Na tym etapie zostaniemy poproszeni o podanie klucza API, który można pobrać po zalogowaniu na stronie https://data.world/settings/advanced

I gotowe. Dla każdego zbioru danych możemy pobrać "startowy" notebook, który zawiera polecenia pobrania zbioru danych.

Przykładowa interakcja w jupyter notebook:

%matplotlib inline
import datadotworld as dw

# Datasets are referenced by their URL
dataset_key = 'https://data.world/lwolcott/us-immigration-enforcement-1925-2015'

# Load dataset (onto the local file system)
dataset_local = dw.load_dataset(dataset_key)  # cached under ~/.dw/cache

# See what is in it
dataset_local.describe()

# what dataframes are available?
print(dataset_local.dataframes)

# load dataframe to standard df variable
df = dataset_local.dataframes['immigrationenforcement']