Zarządzanie danymi/ Data Management
Zarządzanie danymi/ Data Management
Materiały przygotowano na podstawie informacji dostępnych na stronach Uniwersytetu Warszawskiego, Uniwersytetu Jagiellońskiego, Uniwersytetu Mikołaja Kopernika oraz UMCS.
Dane badawcze (Research Data) to zarejestrowane materiały o charakterze faktograficznym (w postaci liczbowej, tekstowej, graficznej czy dźwiękowej), powszechnie uznawane przez społeczność naukową za niezbędne do oceny wyników badań naukowych.
Dane badawcze dzielić można na:
- Dane surowe, czyli takie, które uzyskano bezpośrednio w wyniku zastosowania narzędzia badawczego, w różnych przedsięwzięciach naukowych lub też zgromadzone na potrzeby konkretnych projektów, nieprzeanalizowane. Surowe dane badawcze są to dane (materiał) powstałe w wyniku badań empirycznych w wyniku zastosowania różnych technik badawczych, m.in. ankiety, eksperymentu, obserwacji testu. Przykłady danych: filmy rejestrujące przebieg eksperymentu, materiały audio, notatki z obserwacji, protokoły laboratoryjne.
- Dane, które zostały poddane obróbce.
Plan zarządzania danymi (Data Management Plan – DMP)
https://www.youtube.com/watch?v=iopHvHKFD-A
Relacja z wykładu Bożeny Bednarek-Michalskiej zatytułowanego: "Zarządzanie danymi badawczymi – informacje ogólne i plany zarządzania danymi (PZD)", jaki miał miejsce z okazji Tygodnia Otwartej Nauki 21 października 2019 roku w BGUMK. (trwa 56 minut).
Plan zarządzania danymi (Data Management Plan – DMP) określa w jaki sposób dane badawcze mają być zarządzane podczas projektu badawczego, jak i po jego zakończeniu.
Instytucje i programy finansujące badania naukowe coraz częściej wymagają od naukowców przedstawienia DMP na etapie składania i oceny wniosków grantowych. DMP powinien zawierać zarys postępowania z danymi badawczymi w trakcie trwania projektu oraz po jego zakończeniu. Należy opisać w nim:
- sposób pozyskiwania danych,
- jakie dane zostaną wytworzone lub zebrane (format i typ plików, liczba danych),
- jak zostaną uporządkowane i opisane (metodologia, standardy, metadane),
- kwestie etyczne i prawne (własność intelektualna, prawa autorskie, dane niejawne),
- w jaki sposób dane zostaną udostępnione (jak, kiedy, komu),
- które dane będą przechowywane długoterminowo (kwestia sposobu przechowywania i ochrony danych).
Kwestię bezpieczeństwa oraz przechowywania danych należy określić dla całego procesu gromadzenia i ewentualnego przetwarzania danych badawczych. Należy przeanalizować kwestię dostępu do danych (szczególnie jeżeli zawierają dane wrażliwe), by zapobiec niewłaściwemu dostępowi do poufnych danych. Konieczne jest też opracowanie planu tworzenia kopii zapasowych, by zapobiec utracie danych w wyniku np. awarii sprzętu.
Polecane strony:
DMPTool – narzędzie online służące tworzeniu planów zarządzania danymi; zawiera przykłady takich planów https://dmptool.org/
DMPonline – kreator planów zarządzania danymi badawczymi https://dmponline.dcc.ac.uk/
Prezentacja "Zarządzanie danymi badawczymi – ogólne informacje i PZD" (format pdf), autorka: mgr Bożena Bednarek-Michalska, BGUMK.
Wymogi w zakresie zarządzania danymi uzyskanymi w trakcie badań w Uniwersytecie Rzeszowskim oraz procedur zachowania środków ochrony danych oraz ich dostępności.
Zalecenia w zakresie opisu danych oraz pozyskiwania lub ponownego wykorzystania dostępnych danych
Należy wyjaśnić, jakie metodologie lub oprogramowanie zostaną wykorzystane do gromadzenia danych badawczych. Podać wszelkie ograniczenia, jeżeli takie istnieją, dotyczące ponownego wykorzystania istniejących danych. Rodzaje gromadzonych danych są bardzo różnorodne, zależne od dziedziny nauki oraz przyjętej metodologii badań. Są to m.in.:
- Dokumenty tekstowe, notatki
- Dane liczbowe
- Kwestionariusze, ankiety, wyniki badań ankietowych
- Nagrania audio i video, zdjęcia
- Zawartość baz danych (video, audio, teksty, obrazy)
- Modele matematyczne, algorytmy
- Oprogramowanie (skrypty, pliki wejściowe...)
- Wyniki symulacji komputerowych
- Protokoły laboratoryjne, opisy metodologiczne
- Próbki, artefakty, obiekty*
Kwestią wartą przemyślenia są typy danych, sposób ich gromadzenia i/lub przetwarzania, ilość i częstotliwość występowania.
Formaty plików mogą być dowolne, jednak dbając o powszechny dostęp i otwartość, dobrze korzystać z formatów, które nie wymagają komercyjnego oprogramowania do odczytu danych. W jednym opisie można dodać wiele plików. Jeżeli plików jest dużo, dobrym rozwiązaniem jest ich pogrupowanie i spakowanie, np. do postaci .zip. Należy także dobrze przemyśleć nazewnictwo plików. Odpowiednio nazwany plik/zbiór plików może znacząco ułatwić użytkownikowi korzystanie z danych. Wszystkie te elementy składają się na późniejsze efektywnie wykorzystanie danych we właściwym kontekście.
Zalecenia w zakresie dokumentacji i jakość danych
Dokumentacja powinna opisywać metodologię prowadzonych badań oraz ich kontekst i źródło. Informuje o sposobie organizacji danych w trakcie projektu np. przyjętej konwencji, wersji i strukturze folderów. Często zawiera także dodatkowe pliki potrzebne do skorzystania z danych (np. skrypty) czy wykorzystane standardowe słowniki. Można np. utworzyć osobny plik ReadMe.txt, który będzie zawierał dokumentację pozyskiwania danych badawczych, licencje, prawa autorskie itp. Jeżeli istnieje już publikacja naukowa, w której opisana jest dokumentacja badawcza, należy podać odnośnik do niej w polu adres URL.
Metadane umożliwiają nam scharakteryzowanie danych badawczych, tak by potencjalny użytkownik wiedział jakiego rodzaju są to dane. Metadane charakteryzują opis całego zbioru danych (autor, tytuł, data powstania, licencja, dyscyplina naukowa etc.). Dane badawcze muszą być udostępnione wraz z ich metadanymi.
W metadanych opisujących dane badawcze powinny znajdować się następujące informacje:
- Autor lub autorzy danych,
- Ujednolicony tytuł,
- Data udostepnienia danych,
- Opis, w którym osoba wprowadzająca dane badawcze powinna krótko scharakteryzować ich zawartość, pochodzenie, stosowane metody badawcze, kontekst badań i inne,
- Zakres czasowy: należy podać datę początkową i datę końcową określającą czas prowadzonych badań, który często jest tożsamy z okresem trwania grantu,
- Dostawca danych: do jakiej instytucji lub osoby należą dane,
- Obszar badań: należy wskazać Dziedzinę nauki/sztuki z zawężeniem do Dyscypliny naukowej/artystycznej.
- Unikalny identyfikator danych badawczych – jeśli repozytorium, w którym deponowane są dane nadaje im unikalne identyfikatory np. DOI.
W gromadzeniu danych istotna jest kontrola jakości na każdym etapie prowadzonych badań.
Należy wyjaśnić w jaki sposób spójność i jakość gromadzonych danych będzie kontrolowana i udokumentowana. Opis może zawierać np. procesy takie jak kalibracja, powtarzanie przygotowania próbek lub wykonania pomiarów, znormalizowane przechwytywanie danych, sprawdzanie poprawności wprowadzania danych, wzajemna ocena danych lub reprezentacja z kontrolowanymi słownikami.
Zalecenia w zakresie przechowywania i tworzenia kopii zapasowych podczas badań
Kwestię bezpieczeństwa oraz przechowywania danych należy gruntownie przemyśleć dla całego procesu gromadzenia i ewentualnego przetwarzania danych badawczych. Należy przeanalizować kwestię dostępu do danych (szczególnie jeżeli zawierają dane wrażliwe), by zapobiec niewłaściwemu dostępowi do poufnych danych. Konieczne jest też opracowanie planu (wyznaczenie osoby/osób odpowiedzialnych oraz określenie częstotliwości tworzenia kopii zapasowych) tworzenia kopii zapasowych, by zapobiec utracie danych w wyniku np. awarii sprzętu. Należy określić gdzie będą przechowywane i zabezpieczane dane w trakcie procesu badawczego (zalecane jest tworzenie kopii danych badawczych w dwóch różnych lokalizacjach/miejscach). Zaleca się przechowywanie danych w centralnych systemach gromadzenia informacji na macierzystej uczelni. Przechowywanie danych w pamięciach masowych, komputerach przenośnych itp. może spowodować ich utratę. Należy opisać w jaki sposób dane zostaną odzyskane w przypadku awarii sprzętu. Wszystkie dane badawcze powinny być zdeponowane w sposób elektroniczny w min. dwóch nośnikach na wypadek utraty/awarii dysku. Przechowywanie oryginalnych danych/danych źródłowych powinno być zlokalizowane na terenie UR, a wskazani pracownicy przez kierownika tematu badawczego/projektu powinni mieć pełny dostęp do tych danych oraz znać ich lokalizacje na terenie UR. W przypadku utraty dostępu do danych należy niezwłocznie powiadomić dział Uniwersyteckiego Centrum Informatyzacji. Komputery, na których przechowywane są dane, powinny być chronione przez licencjonowane oprogramowanie antywirusowe. Dane administracyjne (z danymi osobowymi lub finansowymi) mogą być administrowane wyłącznie przez osoby uprawnione i przechowywane na komputerze z ochroną hasłem i silnie ograniczonym dostępem. Dodatkowo Zarządzeniem nr 155 /2021 Rektora Uniwersytetu Rzeszowskiego z dnia 17 września 2021 r. została wprowadzona Instrukcja Zarządzania Systemami Informatycznymi, w której opisane zostały wytyczne w zakresie tworzenia kopii zapasowych. Zostały także wdrożone rozwiązania pozwalające na przechowywanie danych w chmurze Microsoft lub Google w zależności od preferencji użytkownika. Są to odpowiednio usługi Microsoft OneDrive i Google Dysk. Logowanie odbywa się za pomocą indywidualnego konta pracowniczego UR. Pracownicy UCI świadczą pomoc przy odzyskiwaniu plików z wymienionych usług.
Zalecenia w zakresie wymów prawnych oraz kodeksu postępowania
Dane wrażliwe to dane ujawniające pochodzenie rasowe lub etniczne, poglądy polityczne, przekonania religijne lub światopoglądowe, przynależność do związków zawodowych oraz dane genetyczne, dane biometryczne jednoznacznie identyfikujące osoby fizyczne lub dane dotyczące zdrowia, seksualności lub orientacji seksualnej.
Jeżeli badania zakładają gromadzenie i/lub przetwarzanie danych wrażliwych konieczne jest określenie ich właściwej ochrony. Uniwersytet Rzeszowski powołał Inspektora Ochrony Danych. Więcej informacji na stronie /uniwersytet/rodo/wytyczne.
Prawa autorskie i licencje – należy wskazać właścicieli praw autorskich i praw własności intelektualnej do wszelkich pozyskiwanych i wytwarzanych danych. Trzeba określić czy istnieją jakiekolwiek ograniczenia prawne dotyczące ponownego wykorzystania danych pochodzących od osób trzecich. Regulamin zarządzania prawami autorskimi prawami pokrewnymi i prawami własności przemysłowej oraz zasad komercjalizacji https://www.uctt.ur.edu.pl/Naukowiec.html#sec-ff15
Należy także wskazać licencje dla udostępnianych danych badawczych. Rekomenduje się korzystanie z otwartych licencji Creative Commons, możliwe jest też udostępnienie danych na zasadach domeny publicznej.
Wszystkie oferowane przez Creative Commons licencje i narzędzia są darmowe. Należy wybrać odpowiednie:
- Uznanie autorstwa 4.0 – Licencja ta pozwala na kopiowanie, zmienianie, rozprowadzanie, przedstawianie i wykonywanie utworu jedynie pod warunkiem oznaczenia autorstwa. Jest to licencja gwarantująca najszersze swobody licencjobiorcy.
Przystępne podsumowanie Tekst licencji
- Uznanie autorstwa-Na tych samych warunkach 4.0 – Licencja ta pozwala na kopiowanie, zmienianie, rozprowadzanie, przedstawianie i wykonywanie utworu tak długo, jak tylko na utwory zależne będzie udzielana taka sama licencja. Jest to licencja używana przez Wikipedię i jej siostrzane projekty.
- Przystępne podsumowanie Tekst licencji
- Uznanie autorstwa-Użycie niekomercyjne 4.0 – Licencja ta pozwala na kopiowanie, zmienianie, remiksowanie, rozprowadzanie, przedstawienie i wykonywanie utworu jedynie w celach niekomercyjnych. Warunek ten nie obejmuje jednak utworów zależnych (mogą zostać objęte inną licencją).
- Przystępne podsumowanie Tekst licencji
- Uznanie autorstwa-Bez utworów zależnych 3.0 Polska – Licencja ta zezwala na rozpowszechnianie, przedstawianie i wykonywanie utworu zarówno w celach komercyjnych i niekomercyjnych, pod warunkiem zachowania go w oryginalnej postaci (nie tworzenia utworów zależnych).
- Przystępne podsumowanie Tekst licencji
- Uznanie autorstwa-Użycie niekomercyjne-Na tych samych warunkach 4.0 – Licencja ta pozwala na rozpowszechnianie, przedstawianie i wykonywanie utworu jedynie w celach niekomercyjnych oraz tak długo jak utwory zależne będą również obejmowane tą samą licencją.
- Przystępne podsumowanie Tekst licencji
- Uznanie autorstwa-Użycie niekomercyjne-Bez utworów zależnych 3.0 Polska – Licencja ta zezwala na rozpowszechnianie, przedstawianie i wykonywanie utworu jedynie w celach niekomercyjnych oraz pod warunkiem zachowania go w oryginalnej postaci (nie tworzenia utworów zależnych). Jest to najbardziej restrykcyjna z licencji.
Przystępne podsumowanie Tekst licencji
Autor deponujący dane badawcze w repozytorium odpowiada za uzyskanie wszelkich zgód na udostępnienie danych, jak również odpowiada za anonimizację/pseudonimizację danych osobowych i wrażliwych. Należy pamiętać, że w przypadku prawa o ochronie danych osobowych (tj. RODO) konieczne będzie uzyskanie świadomej zgody uczestników na utrwalanie i udostępnianie ich danych osobowych.
Zalecenia w zakresie udostępniania i długotrwałego przechowywania danych
Zapewnienie dostępu do danych badawczych polega na ich udostępnieniu oraz opisaniu. Należy określić kiedy dane zostaną udostępnione (czy w trakcie trwania, czy po zakończeniu badań, należy podać termin lub terminy udostępnienia) oraz czy dostęp będzie pełny czy ograniczony (w tym przypadku należy wskazać ograniczenia i przeszkody uniemożliwiające ich pełne/częściowe udostępnienie).
Ponowne użycie danych badawczych w innym kontekście powinno być zapewnione poprzez zastosowanie unikalnego i trwale przypisanego identyfikatora, np. DOI.
Długoterminowa archiwizacja to przechowywanie danych badawczych w dłuższym okresie czasu. W planie zarządzania danymi należy uwzględnić gdzie będą przechowywane dane. W przypadku wyboru instytucji zewnętrznej, która udostępnia repozytorium danych badawczych, istotne jest uwzględnienie m. in.: czy posiada plan przechowywania danych w dłuższym okresie czasu, czy pliki, w których są zapisane dane, można opisać metadanymi, kto jest odpowiedzialny za dostęp do danych np. za 10 oraz lat, kto finansuje repozytorium i jakie są warunki przechowywania.
Przykładowo:
- Upowszechnienie wyników badań nastąpi w wyniku publikacji papierowej na zasadach określonych w umowie z wydawnictwem.
- W projekcie przewidziano środki finansowe na udostępnienie danych w formie Open Access.
- Wyniki badań zostaną udostępnione w repozytorium po upływie odpowiedniego czasu przewidzianego w umowie z wydawnictwem/czasopismem.
- Dodatkowo wyniki badań mogą być deponowane i udostępnione w repozytorium. Dane surowe mogą być udostępnione przez kierownika projektu w otwartym Repozytorium Danych Badawczych Uniwersytetu Rzeszowskiego, które dostępne jest pod adresem https://rdb.ur.edu.pl.
- Wyniki badań będą udostępnione w formie artykułu w czasopiśmie ukazującym się on-line (Gold Open Access).
Wyszukiwarka repozytoriów
https://repositoryfinder.datacite.org/
Zalecenia w zakresie zadań związanych z zarządzaniem danymi oraz zasobami danych
Należy określić kto będzie odpowiadał za zarządzanie danymi (tj. kto będzie ich opiekunem) w trakcie i po zakończeniu badań. Opiekun rozumiany jest tutaj jako osoba lub instytucja, która docelowo zajmie się zarządzaniem danymi w dłuższym okresie czasu.
Jeżeli dane zostaną przekazane do wybranego repozytorium (instytucjonalnego, centralnego, dziedzinowego itp.), to należy opisać jak będzie w nim zapewniona: jakość danych, przechowywanie i tworzenie kopii zapasowych, długoterminowa archiwizacja, udostępnianie oraz kto będzie odpowiadał za zarzadzanie danymi (np. instytucja, osoba).
Jeżeli dane nie zostaną przekazane do żadnego repozytorium, to podobnie jak wyżej należy sprecyzować jak będą przechowywane i kto będzie odpowiadał za ich zarządzanie w trakcie i po zakończeniu badań.
Należy rozważyć jakie zasoby (np. ludzkie, finansowe, czasowe) będą potrzebne do zarządzania danymi zbieranymi w trakcie własnych badań. Jeżeli badania prowadzone są przez kilka instytucji, to kto w danym projekcie będzie odpowiedzialny za zarządzanie danymi i kto poniesie koszty finansowe. Mogą to być koszty: przechowywania i archiwizacji, zakupu sprzętu, opłacenia personelu, przygotowania danych, związane z opłatami depozytowymi, utrzymania repozytorium.
Należy oszacować potrzebne koszty i ustalić w jaki sposób zostaną opłacone.
W trakcie wyboru sposobu zarządzania danymi należy ustalić czy gwarantuje on przestrzeganie zasad FAIR lub jakie koszty trzeba ponieść, żeby spełnić te zasady.
Zasady FAIR Data w rozwinięciu oznaczają:
- Findable - łatwo znajdowane i wyszukiwane.
- Accessible - dostępne dla wszystkich.
- Interoperable - interoperacyjne, tak aby można było je połączyć z innymi danymi.
- Reusable - wielokrotnego użytku.
Zasady FAIR Data służą jako wytyczne dla umożliwienia ponownego wykorzystania danych
naukowych w wyraźnie opisanych warunkach, zarówno przez ludzi, jak i przez maszyny. Więcej o FAIR Data można przeczytać tutaj: https://www.go-fair.org/fair-principles.
Narzędzie do szybkiej oceny czy dane spełniają zasady FAIR znajduje się pod tym linkiem:
Science Europe przygotowała przewodnik w wersji angielskiej, w którym jest przykładowy szablon planu zarządzania danymi:
https://www.scienceeurope.org/media/jezkhnoo/se_rdm_practical_guide_final.pdf
Przydatne serwisy i materiały
- Plan Zarządzania Danymi Badawczymi (UMK), w tym modele planów dla NCN opracowane przez pracowników UMK
- Poradnik – plan zarządzania danymi badawczymi (KUL)
- prezentacje i poradniki Platformy Otwartej Nauki (ICM UW)
- Selekcja i przygotowanie danych badawczych do udostępniania
- Jak korzystać z zasobów w repozytoriach danych
- Udostępnianie danych badawczych – zagadnienia prawne (N. Rycko)
- Zarządzanie danymi badawczymi (N. Gruenpeter)
- „Dziedzinowe Repozytoria Otwartych Danych Badawczych”
- praktyczny przewodnik dotyczący ujednoliconych europejskich praktyk związanych z zarządzaniem danymi naukowymi (Science Europe)
- kursy online:
- MANTRA – darmowy kurs dla studentów, naukowców i bibliotekarzy stworzony w Uniwersytecie w Edynburgu
- Research Data Management and Sharing – bezpłatny kurs MOOC dostępny na platformie Coursera prowadzony przez pracowników The University of North Carolina on Chapel Hill i University of Edinburgh
- Checklist for a Data Management Plan – lista kontrolna ułatwiająca sprawdzenie poprawności przygotowanego DMP
- modele metadanych