Jak zaprojektować Twoje dane aby trudniej było popełniać błędy? Jak zachować funkcjonalność naszych cennych danych na dłużej? Jak utrzymać wysoką jakość danych przez cały cykl życia projektu? Postaram udzielić odpowiedzi na te i inne pytania w niniejszym wpisie.
Czyszczenie danych nie jest jednorazową czynnością, po której zbiór danych jest zawsze jakościowy. Raczej jest to powtarzający sie proces który należy przeprowadzać w rozsądnych odstępach czasu.
Spis treści
Zaprojektuj proces
Zapobieganie jest lepsze niż leczenie. Zamiast nieustannie czyścić dane przy uzyciu tych metod możesz zaprojektować proces, który wspomaga utrzymanie dokładności Twoich danych. Tym lepiej, jeśli dodatkowo jesteś w stanie zainteresować tym użytkowników poprzez podanie im instrukcji i przykładu wypełniania tabeli, lub po prostu przymusić ich do wstawiania prawidłowych typów danych. Chcę się podzielić pomysłami odnośnie różnych rozwiązań. Mam nadzieję, że znajdą Twoje uznanie i wprowadzisz je do swojego projektu. A może już używasz niektórych z tych pomysłów? Proszę napisz w komentarzach poniżej niniejszego artykułu 🙂
W przykładach praktycznych, posłużę się najpowszechniejszym oprogramowaniem do zarządzania danych – Excelem. Jestem pewny, że wciąż jest to dominujące oprogramowanie w branży AEC. Jeżeli rozumiesz Excela – tym łatwiej zrozumiesz inne, “właściwe” programy do obsługi baz danych.
Pewnie istnieje milion blogów czy vlogów na temat Excela. A jednak, arkusze kalkulacyjne wciąż są tworzone źle! Rzesza pracowników nie kuma jak ustrukturyzować dane. Niemożliwe jest nauczyć wszystkich, jak tworzyć dane o wysokiej jakośći. Z tego pwodu Ty, jako menedżer danych (lub osoba odpowiedzialna za zarządzaniem danymi projektowymi) powinieneś stworzyć takie środowisko, które wręcz wymusza wprowadzenie danych w poprawny sposób oraz minimalizuje błędy ludzkie. Mam nadzieję iż po zapoznaniu się z tym wpisem, Twój arkusz kalkulacyjny przy projektach będzie wprost wyśmienity. 🙂
Nigdy tego nie rób
Zacznijmy z listą “nie rób tego nigdy”. Jeżeli chcesz aby twój arkusz kalkulacyjny posiadał uporządkowany zestaw danych, nie wstawiaj:
- Pustych linii w środku Twojej tabeli. W przeciwnym razie tabela automatycznie zatrzyma się w tym miejscu, zaś w Twojej analizie danych zabraknie każdego wiersza występującego po pustej linii.
- Tekstu w pola liczb. W przeciwnym razie, tabela przestawna nie bedzie funkcjonować, a to jest podstawowa funkcja do przeprowadzenia analizy danych w Excelu.
- Nie scalaj rzędów lub kolumn w środku tabeli. W przeciwnym razie, nie będziesz mógł ustawić filtrów i stworzyć tabeli.
Uprość wprowadzanie danych
Jest to pierwszy i zarazem najistotniejszy krok. Przytłaczająca większość błędów występuje podczas etapu wprowadzania danych. Dlaczego by nie ułatwić ręczną pracę Twoich współpracowników lub dostawców? W rezultacie ułatwisz sobie pracę.
Stwórz miejsce do gromadzenia danych wysokiej jakości. Zdefiniuj zasady dla wierszy oraz kolumn, tak aby każdy użytkownik nie tylko otrzymywał komunikat o błędzie podczas wprowadzania niepoprawnych wartości, ale równiez komunikat objaśniający jaka wartość jest oczekiwana (wszyscy nienawidzimy niezrozumiałych komunikatów o błędach).
Istnieje wiele sposobów podejścia do tego zagadnienia.
Użycie list rozwijanych
Listy rozwijane są wyliczanymi typami danych. Jeżeli przeczytałeś ten wpis, to zapewne wiesz że ten typ danych jest jednym z najłatwiejszych do zarządzania. Dlaczego więc z niego nie skorzystać, by ułatwić sobie pracę?
Możesz stworzyć dowolną listę rozwijaną postępując zgodnie z krokami pokazanymi na video powyżej:
- Utwórz dozwolone dane w oddzielnym arkuszu kalkulacyjnym (możesz go ukryć przed wysłaniem do użytkowników)
- Idź do opcji Sprawdzanie poprawności danych
- Zdefiniuj typ danych wejściowych dla określonej kolumny do listy rozwijanej
Wartości logiczne
Jest to typ pola PRAWDA/FAŁSZ. Pamietaj żeby sprecyzować jakie wartości użytkownik powinien używać, po to aby system mógł odczytać je prawidłowo. Powinno być PRAWDA/FAŁSZ, czy też może TAK/NIE? A może jednak numeryczne: 1/0? To ostatnie jest czasami konieczne aby móc dokonać dalszych kalkulacji.
W powyższym video, zobaczysz jak stworzyć pola wartości logicznych.
Dodatkowa wskazówka: aby dokonac kalkulacji z wartościami logicznymi, musisz zamienić je z tekstu/logiczny na liczby. Możesz używać podwójnego przeczenia przed dowolna logiczną funkcją:
=--(FUNKCJA Z WYNIKIEM PRAWDA/FAŁSZ)
Automatyzacja wprowadzania danych
Cokolwiek może zostać zautomatyzowane, powinno. Automatyczne wypełnianie podczas pisania istnieje w Excelu z domysłu. Co jeszcze możesz zautomatyzować oraz jak to uczynić?
Funkcje. Spróbuj wydusić z funkcji ile tylko się da, przy możliwie minimalnym kopiowaniu i wprowadzaniu danych. To automatyzuje i przyśpiesza pracę z danymi oraz zabezpiecza wysoką jakość wprowadzanych danych. Dzięki temu w wielu przypadkach, użytkownik musi wypełnić jedynie jedną komórkę, pozostałe są automatycznie kalkulowane.
Standaryzacja wprowadzania danych
Trzymanie się standardów oraz określonych procesów z reguły jest dobrą praktyką. Ujednolicenie metody wprowadzania danych jest tym bardziej istotniejsze im więcej masz różnych tabel i chcesz je razem zestawić w celu dokonania analizy danych. Wyobraż sobie taki oto przykład: w jednej tabeli masz TAK/NIE, w innej PRAWDA/FAŁSZ, a w trzeciej T/N. Musisz każdą taką tabelę wyczyścić i przekształcić we wspólny format.
Rozwiązania są dwa:
- Użycie list rozwijanych (opisane powyżej)
- Wprowadzenie kilka przykładowych wierszy w tabeli oraz stworzenie instrukcji/read-me na pierwszej stronie
Zapobieganie błędom
Ogranicz dane tekstowe
Zablokowanie możliwości wstawienia wartości tekstowych tam, gdzie wymagane są inne wartości, znacznie zmniejsza ilość błędów w bazie danych. Z tym jedynym ustawieniem, ograniczysz wszystkie dziwne komórki takie jak: ???, ?, 1? 1-2, może 3 itp. W tym artykule odniosłem się do tego, oraz podałem powody dla których jest to tak istotne. Zachęcam Ciebie do przeczytania go.
W poniższym video przedstawione zostało jak stworzyć kontrolę typu danych w Excelu:
- Wybierz kolumne zezwalającą tylko wartości numeryczn
- Przejdż do Danych- Walidacja Danych oraz ustawień
- Zezwól: niestandardowe, Formula: “=ISNUMBER(A2)”
Zapobieganie duplikatom
W Excelu możesz albo zabronić tworzenia duplikatów poprzez użycie opcji Sprawdzenie poprawności danych lub kodowania VBA (link jak to zrobić), lub też możesz stworzyć regułę (formatowanie niestandardowe), które zaznacza duplikaty. W ten sposób, każdy użytkownik będzie powiadomiony w przypadku wartości zduplikowanej, a która miała być unikalna.
Regulacja dostępności danych
Jest to następny istotny, aczkolwiek często zaniedbywany (lub niewłasciwie zarządzany), etap. Baza danych nie jest do edycji dla wszystkich. A na pewno nie cała baza. Znam tysiace przykładów, kiedy jeden użytkownik wprowadził zmiany które na końcu okazały się niewłaściwe, co doprowadziło do kosztownych zmian projektowych w póżniejszych etapach. Błędy mogą pochodzic z wielu różnych żródeł:
- Proste pomyłki (edytowanie niewłaściwego pola lub literówki)
- Niedostateczna wiedza (“Myślę, że tak jest dobrze …. “)
- Brak dyscypliny (“Tak, wiem że nie można dokonywać zmian, ale uważam, że to jest krytyczne…”)
- Nieświadomość konsekwencji (“Przecież ja tylko dodałem jedno urządzenie, to nie jest dużo!”)
I tak dalej… Kończy się to tym, iż projekt musi zapłacić za błędne dane.
To jest powód dla którego uważam, że kontrola dostępności danych jest tak istotnym krokiem, który należy przedsięwziąć i utrzymywać przez cały czas trwania projektu. Oznacza to udzielanie dostępu nowym użytkownikom tylko po odpowiednim przeszkoleniu, oraz blokowanie dostępu tym, którzy już zakończyli swoją pracę nad bazą danych.
Trudno jest podać przykłady jak to zrealizować w praktyce, każde oprogramowanie jest inne. W Excelu, kontrola dostępu jest tylko na poziomie czytaj/edytuj/komentuj, chociaż można je ograniczyc w czasie. Może warto się nad tym zastanowić?
Kontrola i czyszczenie danych
Chociaż ustawiłeś wymagania dla każdego typu danych. Chociaż zautomatyzowałeś wprowadzanie danych wszędzie tam gdzie możliwe. Wprowadziłeś zasady i warunki zapobiegania duplikatów, a także ograniczyłeś dostęp tylko dla odpowiednich pracowników.
To wciąż pojawiają się błędy w danych.
Niewiele możesz z tym zrobić – błędy będą zawsze. W celu zminimalizowania ich wpływu na projekt, powinienes przeprowadzać regularne kontrole jakości danych oraz utrzymywać wysoką jakość danych (sam musisz określić co to dokładnie znaczy. Jednak pozwól na to by była poniżej 100% dokładności!). Możesz przeczytac jak wykonać sprawdzenie jakości danych w jednym z moich poprzednich wpisów.
Okresowość takich przeglądów jest sprawą indywidualną dla każdego zestawu danych. Zależy od ich wielkości (większe zestawy generują więcej błędów), ilości pracowników mających prawo do edycji (im więcej ludzi, tym więcej błędów), jak często nowe dane są wprowadzane (im częściej, tym więcej błędów), oraz jak trudne i czasochłonne jest wykonanie takiego audytu (im więcej czasu zajmuje, tym rzadziej).
Podsumowanie
Niniejszy artykuł omówił przedsięwzięcie pewnych podstawowych kroków w celu utrzymania danych projektowych na wysokim poziomie. Oczywiście, lista nie jest kompletna, zwłaszcza w przypadku wprowadzenia wyspecjalizowanego oprogramowania w zakresie zarządzania danymi. Próbowałem zwrócić uwagę na tworzenie lepszych arkuszy kalkulacyjnych oraz utrzymania danych na wysokim poziomie w projektach AEC. Myślę, że to dobry początek.
Co sądzisz o zaprezentowanych tutaj środkach? Może masz inne na swoim projekci? Jeżeli znasz osobę zainteresowaną lub pragnąca coś się dowiedzieć na temat niniejszego artykułu – wyślij jej/jemu od razu!