2020-03-23
Statystyki Listy Dyskusyjnej Mandragoratu Wandystanu są udostępniane jako dane połączone, przy użyciu słownictwa RDF Data Cube. Zapisane są one w postaci JSON-LD z odpowiednim kontekstem, i mogą być przetwarzane zarówno za pomocą narzędzi przeznaczonych dla JSON-LD, jak i bezpośrednio, tak jak zwykłe dokumenty JSON.
Wszystkie odnośniki podane w postaci względnej posiadają podstawę https://wandystan.eu/statistics/ – przykładowo, "key": "key/by-period" oznacza odnośnik do adresu https://wandystan.eu/statistics/key/by-period.
Kod źródłowy skryptów statystyk jest dostępny w repozytorium Git na warunkach Powszechnej Licencji Publicznej GNU Affero w wersji 3 lub późniejszej. Pełną informację o licencji można znaleźć na dole tego dokumentu.
Udostępniane są następujące rodzaje danych:
Statystyki liczby wiadomości wysłanych przez danego wysyłającego w danym dniu, pogrupowane wg okresu w jakim zostały wysłane.
Ze względu na ogromną ilość udostępnianych danych, statystyki podzielone są na wiele dokumentów:
Dokument opisujący udostępniany zbiór danych wraz z odnośnikami do jego wycinków obejmujących okres pojedynczego miesiąca.
Adres dokumentu: https://wandystan.eu/statistics/by-period/.
Układ dokumentu:
@type – rodzaj obiektu: zbiór danych statystycznych.title – tytuł zbioru danych; obiekt którego kluczami są kody języków, a wartościami – tytuł zapisany w tym języku.description – opis zbioru danych; obiekt którego kluczami są kody języków, a wartościami – opis zapisany w tym języku.publisher – odnośnik do wydawcy dokumentu.structure – odnośnik do formalnego opisu układu danych statystycznych.slices – tablica odnośników do wycinków zbioru danych obejmujących okres pojedynczego miesiąca.Dokumenty zawierające dane statystyczne z wybranego okresu.
Adres dokumentu: https://wandystan.eu/statistics/by-period/⟨przedział⟩; gdzie ⟨przedział⟩ to przedział dat w zapisie ISO 8601, z podaną co najmniej jedną datą początkową lub/i jedną datą końcową, bez podanego czasu. Data początkowa jest zawsze uznawana jako zawierająca się w danym okresie, zaś data końcowa jako niezawierająca się. Przykłady poprawnie zapisanych przedziałów:
2018-12-11/2019-04-21 – okres od 11 grudnia 2018 r. (włącznie) do 21 kwietnia 2019 r. (wyłącznie).2020-02/P1M – cały luty 2020 r.P2M5D/2020-W03 – 2 miesiące i 5 dni poprzedzające trzeci tydzień 2020 r.Jeżeli w podanym przedziale napisano więcej niż 10 000 wiadomości, pod uwagę brane będą tylko te najpóźniej wysłane, więc nie jest zalecane podawanie zbyt długich przedziałów.
Układ dokumentu:
@type – rodzaj obiektu: wycinek zbioru danych statystycznych.key – odnośnik do klucza danych wycinka.period – okres, którego dotyczy dany wycinek.
@type – rodzaj obiektu: przedział czasu.hasBeginning – początek przedziału czasu.
@type – rodzaj obiektu: chwila w czasie.timestamp – znacznik czasu w zapisie ISO 8601.hasEnd – koniec przedziału czasu; obiekt o takim samym układzie co hasBeginning.observations – poszczególne dane jednostkowe (spostrzeżenia) dotyczące danego okresu – tablica obiektów o następującej strukturze:
@id – oznaczenie przypisane do danego spostrzeżenia.@type – rodzaj obiektu: dana jednostkowa (spostrzeżenie).dataset – odnośnik do zbioru, do którego przypisana jest dana.date – dzień w którym zostały wysłane wiadomości na listę, w zapisie ISO 8601.sender – wysyłający wiadomości na listę w danym dniu.
@id – oznaczenie przypisane do danego wysyłającego.@type – rodzaj obiektu: osoba bądź inna jednostka (organizacja, program samoczynnie wysyłający wiadomości, itp.) mająca możliwość podejmowania działań.name – nazwa tej osoby bądź jednostki.name_fnv1a32sum – skrót nazwy utworzony za pomocą algorytmu FNV-1a w odmianie 32-bitowej, zapisany w postaci szesnastkowej. Może być przekształcony w równoważny ciąg bitów, bądź 32-bitową liczbę bez znaku.posts – ilość postów wysłanych na listę przez danego wysyłającego w danym dniu.