Milan Meloun: Chem. Listy 91, 266 - 269 (1997).

Sedmero tajemství ukrytých v datech a sedmero kroků v analýze dat
Milan Meloun, Univerzita Pardubice, 532 10 Pardubice

Počítače jsou všude, na úřadech, v továrnách, v prodejnách ale i doma. Vedle televizoru, ledničky, pračky a telefonu se stává počítač součástí vybavení rodiny zvláště, když má doma studenta. Na vysokých školách je řada předmětů postavena na práci s počítačem. Praxe si totiž dovednosti na počítači žádá a finančně je i náležitě oceňuje, a to prozíraví studenti dobře vědí. Mladí lidé si vybírají především ty školy, specializace a předměty, kde se pracuje s počítačem.

1. Počítač není pouze psací stroj

Dnešní počítač není "cvičeným robotem", automaticky vykonávajícím jednoduché, programem řízené operace. Není ani psacím strojem, na který bývá žel často degradován. Programy - říkejme jim raději software - jsou dnes již takové komplexnosti, že jimi i začátečník dokáže záhy nakreslit složitý graf, napsat článek, sestavit si vizitku z různých druhů písma, vypočítat příklad nebo sestavit telefonní seznam. Umožňují tvořivou, kreativní činnost, která je pro každého zajímavá a především přitahuje mladé lidi. Přirozená studentská soutěživost žene k co nejhezčímu protokolu, plnému komplikovaných obrázků, vyrobených a do textu zařazených čistě elektronicky, bez nůžek a lepidla.
Studenti rádi tvoří a předvádějí umění počítačových triků, statistické a matematické znalosti ale také vtip a vkus v textovém a grafickém editoru. Využívají široké palety matematických a typografických znaků, elegantního zařazování grafů, diagramů a obrázků, tabulek přetažených z tabulkového procesoru. Nezapomeňme, že textový editor je opatřen i kontrolorem pravopisu, gramatiky a slovníkem synonym a antonym, které pomohou text jazykově „vybrousit", vyjádřit myšlenky tím nejvýstižnějším výrazem. Textový editor obsahuje i řadu stylů, které usnadní psaní dopisů, faxů, faktur, protokolů, formulářů, všech dokumentů s předepsanou strukturou a vzhledem. Čtenář vždy dá přednost dobře vyhlížejícímu textu, který ho více vtáhne do svého obsahu. Již pouhé zvýraznění písma je působivější než holý text z psacího stroje.

2. Sedmero tajemství ukrytých v datech

Počítače se "živí" daty. Z dat "vysají" zákonitost, zisk, penále nebo úrok, obecně říkáme informaci. V chemických laboratořích a chemických provozech počítače monitorují data o výrobě, procesu či kvalitě sloučeniny a automaticky zapisují veškerá měření z přístrojů do databanky. V datech je uložena informace, a to třeba o vlivu hnojiva na výnosy plodiny, o vlivu krmiva na přírůstky dobytka, o vlivu kyselého deště na kyselost půdy, o obsahu chemikálie v produktu, atd. Obsah a míra čistoty sloučeniny, její vlastnosti, důkaz její kvality jsou důležité informace, které mnohdy není tak jednoduché z dat vyextrahovat. Vedle střední hodnoty obsahu sloučeniny ve vzorku, obsahu léčiva v krvi, fibrinogenu v krevní plasmě, obsahu škodlivé látky, atd. jsou zajímavé i odlehlé, vybočující hodnoty, typ rozdělení a homogenita výběru, a konečně i nezávislost prvků ve výběru. Závislé prvky totiž prozrazují poruchu na měřícím zařízení, kinetický děj v systému nebo zfalšovaná data.
    Bohatou informaci obsahují i vícerozměrná data, je však daleko složitější ji z dat vyextrahovat. Představme si, například, 160 aut charakterizovaných svými 12 ukazateli jako jsou značka auta, model auta, spotřeba, objem válců, hmotnost, akcelerace, výkon, rozměry, atd. Seskupovací analýza vyhledá skupiny, shluky uvnitř 160 aut s přihlédnutím ke všem těmto 12 ukazatelům a odhalí podobnosti a rozdíly mezi nimi. Podobně může biolog klasifikovat např. 40 jedinců polétavých mšic dle 19 ukazatelů a odhalit počet dominantních druhů. Data absorbanční matice 50 spekter, měřených při 40 vlnových délkách v sobě ukrývají informaci o počtu barevných částic v roztoku, o jejich koncentraci a jejich fyzikálních konstantách. Přes 660 podobných úloh z rozličných oborů přírodních a ekonomických věd, (B biologická, biochemická a farmakologická data, C chemická a fyzikální data, E environmentální, potravinářská a zemědělská data, H hutní a mineralogická data, S sociologická a ekonomická data), přináší nedávno publikovaná sbírka exaktního zpracování dat v úlohách [1].
    Analyzovaná data odkrývají svá tajemství, mají však i své "vrtochy" anomálie a rušivé poruchy, tak jak je příroda či výrobní proces do dat vložily. Tyto bariéry velmi komplikují vlastní analýzu dat. Je nutné proto předem zkoumat zvláštnosti dat interaktivní průzkumovou analýzou a ověřovat základní předpoklady o datech. Která tajemství, fakta, poruchy či problémy a anomálie budeme na počítači interaktivně monitorovat? Jak vyextrahujeme z dat co největší objem informace ?
    (1) V datech jsou skryté problémové hodnoty. Odhalíme hrubé chyby, systematické chyby, odlehlé hodnoty, extrémy. Musíme rozhodnout, zda odstraníme neobvyklé hodnoty z další analýzy či je ponecháme nebo je opravíme.
    (2) Nezávislost dat znamená, že prvky analyzovaného výběru nejsou spojeny žádným skrytým vztahem a byly získány nezávisle, bez ovlivnění člověkem, přístrojem, bez ovlivnění postupem odběru dat.
    (3) Soubor obsahuje chybějící data. Pak je třeba upravit tabulku dat, která má "díry" tak, aby data přesto poskytla co nejspolehlivější výsledky. Soubor může však obsahovat i málo dat. Když je získání většího počtu dat drahé či obtížné, je třeba na malý výběr aplikovat Hornův postup pivotů. Tak odhadneme objektivní míry polohy a rozptýlení, a to bodové i intervalové.
    (4) Průzkum v datech provádíme rozličnými grafickými pomůckami. Do dat se lze podívat různými diagnostikami průzkumové analýzy a odhalit symetrii rozdělení, druh rozdělení, lokální koncentraci dat, homogenitu dat, anomálie a velikost šumu.
    (5) Efektivní analýza dat pozná zvláštní hodnoty, které jsou v datech velmi vlivné. Vlivné body totiž významně ovlivňují hledané parametry. Vlivným bodům je třeba proto věnovat zvláštní péči.
    (6) Filtrování vlivu jednotlivých proměnných. Data monitorují výsledek, který je složen z vlivů několika proměnných. Parciální grafy dokáží odfiltrovat působení právě zvolené proměnné a vyříznout graf jejího působení z vícerozměrného prostoru. Je proto užitečné se podívat, jak je tento systém v datech monitorován.
    (7) Parametry tvořených modelů, jež dostatečně popisují data, mají definovaný význam a musí vyhovovat svou velikostí, znaménkem, tj. fyzikálním smyslem.

3. Sedmero kroků v analýze dat

Na školách jsou počítačové učebny, počítačová sít propojuje počítače mezi sebou a Internetem pak se světem. Studenti se učí zpracovávat data a extrahovat z nich maximální množství informace. Vedle programů Microsoft Office, které umožní napsat protokol či diplomovou práci (Word), zpracovat složitá data v tabulce a grafu (Excel), roztřídit bázi dat (Access) nebo nakreslit obrázky na plakát, blánu či diapozitiv (Power-Point) je cílem především zpracování experimentálních dat. Toto zpracování se dnes provádí t. zv. interaktivní analýzou dat. Existuje k tomu řada programů, které tvoří náplň nových vědních oborů jako chemometrie, biometrie, ekonometrie, medicínská statistika, obchodní statistika, statistika pro sociology, psychology, atd. Nový přístup k analýze dat se objevuje v poslední době v řadě monografií, jmenujme alespoň jednu, na které jsou postavena licenční studia ale i řádné studium chemometrie u nás [2]. Kniha vyšla dříve anglicky ve dvou dílech [3] a [4].
Počítačová analýza experimentálních dat spočívá obvykle z provedení sedmi obecných kroků analýzy:

1. krok: Načtení a příprava dat
V datech lze objevit trendy a skryté zákonitosti a tajemství, která bychom v databázových nebo spreadsheetových programech nezjistili. Soubory dat lze agregovat, přidávat, spojovat, editovat, transponovat, setřiďovat dle proměnných. Statistický software čte a zapisuje matice dat tak, že přebírá a předává soubory dat ze software nebo do jiných software jako jsou Excel, dBASE, Lotus 1-2-3, Sylk, ale také čte data a zapisuje data do pevného, volného formátu a formátu tabulky ASCII souborů. Načítá komplexní struktury hierarchických souborů, opakující se data, smíšené soubory.

2. krok: Flexibilní formátování prezentačních tabulek
Kvalitní tabulková zpráva pro publikace a prezentace umožní jasné a efektní zobrazení i nejkomplikovanějších analýz dat formou prezentačních tabulek. Účelné přepočítání a přeformátování tabulek pro revidovaná data slouží ke kondenzování výsledků vícenásobných odpovědí, flexibilní analýze matic dat i s případně chybějícími hodnotami a k dokonalému ovládání struktury svých tabulek. Do jedné tabulky lze umístit řádky, sloupce a vrstvy. Dokonalý vzhled tabulek umožní dokonalou kontrolu výsledného vzhledu tabulky. Mezi desítkami stylů předvolených tabulek lze měnit šířku sloupců, šířku a styl řádek, typ a barvu písma, kreslit rozličné čáry, zarovnat text vpravo, vlevo či text centrovat, je zde i možnost přidání poznámek k tabulce a zaokrouhlovat čísla na určený počet desetinných míst. Pivotované vícerozměrné tabulky umožňují zaměnit řádky, sloupky a vrstvy pomocí přesunu přes ikonu a pohyb mezi vrstvami kliknutím na ikonu.

3. krok: Dynamická grafika k diagnostickému prohlížení dat
Nejširší výběr grafických znázornění poskytuje informativnější pohled na data. Zahrnuje koláčové, spojnicové a sloupkové grafy, rozptylové souřadnicové grafy, vrstevnicové grafy, rozsáhlé mapy pro kontrolu kvality. Objektově orientované grafy oživí data. Retransformace dat umožní specifické znázornění a poskytne nejlepší představu o datových relacích. Při rotaci jsou zřetelné úhly, úrovně a interakce v trojrozměrném (3D-) grafu. Snadno lze změnit popisy, symboly, vzory, barvy a typy čar. Je k dispozici přes 120 typů diagnostických grafů z oblasti statistiky a řízení jakosti, která prozradí o datech důležitou informaci. Grafy se mohou generovat samostatně nebo jako součást analýzy, zprávy. Rychlá integrální a vizuální statistická analýza je výkonou pomůckou.

4. krok: Interaktivní diagnostický přístup v průzkumové analýze dat
Kromě základních popisných charakteristik, frekvencí a kontingenčních tabulek obsahuje software obvykle několik desítek různých měr a statistik, které podstatně rozlišují hranice analýzy za běžný statistický popis. Diagnostické grafy odhalí statistické zvláštnosti v datech, konstrukci empirického rozdělení výběru, porovnání tohoto rozdělení s normálním rozdělením, vyšetření chování řady statistik na různých částech výběru. Na jejich základě je třeba rozhodnout jakým způsobem budeme postupovat při další analýze. Je-li v datech odhaleno asymetrické rozdělení, je třeba data transformovat za účelem přiblížení se k normalitě. Po každé transformaci je vyčíslen průměr, rozptyl a asymetrický interval spolehlivosti. Bohatá statistická metodologie v modulech umožňuje práci s číselnými a kategorizovanými daty a poskytuje úplný systém prostředků pro analýzu dat.

5. krok: Vysvětlení souvislostí v datech
Analýza dat umožní hlouběji proniknout do nitra dat a porozumět více souvislostem, které jsou v datech ukryty, odhalit vztahy a závislosti v datech. Precizní regresní techniky se nabízejí v případech regrese, kdy nelze užít klasické metody nejmenších čtverců: vážené nejmenší čtverce, dvoustupňová metoda nejmenších čtverců, metoda racionálních hodností nebo ortogonální regrese se nabízí tam, kde je třeba dát některým pozorováním více váhy, nebo obě proměnné jsou zatíženy šumem či skrytým vztahem mezi proměnnými. Pomáhá také zvládnout korelace mezi prediktorem a chybami, které se často vyskytují v datech závislých na čase.
K odhalení souvislostí, které jsou ve vícerozměrných datech ukryty se užívají techniky pro klasifikaci dat. Faktorová analýza identifikuje skupiny proměnných a jejich zátěží, které vysvětlují celkové chování. Ve výzkumu chování zákazníků lze odhalit názory na kvalitu produktu, které se vztahují k trvanlivosti, dostupnosti a prospěšnosti produktu. Seskupovací analýza vyhledá skupiny, shluky uvnitř dat a odhalí podobnosti a rozdíly mezi daty. Biolog může klasifikovat skupiny živočichů a rostlin. Ve výzkumu trhu dokáže ekonom odhalit společné rysy lidí, kteří zakoupili určitý produkt.
Diskriminační analýza odvodí pravidla pro začlenění pozorování do vytvořené skupiny.

6. krok: Testem ke správnému rozhodnutí
Korektní statistické závěry na základě statistického testování umožní lépe rozhodovat, i když jsou k dispozici jen malé výběry dat nebo podskupiny. Chceme-li zjistit, zda existuje mezi proměnnými nějaký vztah, díváme se zpravidla nejdříve na hodnoty dosažené hladiny významnosti. Je-li získání rozsáhlého souboru dat nemožné nebo příliš nákladné, je možné plánovat malé výběry a přesto neztratit k výsledkům důvěru. Nijak tím nebudeme zaostávat za konkurencí, která má více prostředků, se kterými může uskutečnit rozsáhlejší studie. Není třeba slučovat kategorie aby byly splněny předpoklady tradičních testů, a tak mnohdy ztratit původní informaci. Software umožní ponechat v analýze i málo zastoupené kategorie, tak jak vyplynuly z povahy experimentu. Na otázku, kdy jsou tradiční testy spolehlivé, neexistuje jasná odpověď, protože ověřování teoretických předpokladů je v praxi nemožné. I když pracujeme s rozsáhlými soubory, budou určité situace volat po exaktním testu. Přes 30 exaktních testů nabízí správný statistický software, který odpovídá struktuře našich dat a pokrývá celé spektrum problémů s malými i velkými množinami neparametrických a kategorizovaných dat. Zahrnují jednovýběrový, dvouvýběrový a K-výběrový test pro nezávislé ale i závislé výběry, testy dobré shody, testy nezávislosti v kontigenčních tabulkách m × n a testy měr asociace.

7. krok: Prezentace výsledků
Výstupní tabulky můžeme formátovat, snadno doplnit hlavičky, fonty, barvy, velikosti a další parametry tabulek. Vzniklé tabulky lze snadno přenášet do dalších protokolů, zpráv. Velká flexibilita při formátování tabulek nabízí pohodlí při psaní protokolu.

4. Analýza dat při kontrole jakosti

Na analýze dat je postavena nejenom výzkumná práce ale především kontrolní činnost pracovníků kontrolních laboratoří a zkušeben kontroly kvality. Prosazuje se názor, že člověk, který daty disponuje, je také zodpovědný za získání informace z nich a za jejich další využití. Na stále větším počtu pracovišť záleží, zda je pracovník schopen kvalifikovaně rozhodovat na základě objektivní analýzy informací, zda je schopen na základě naměřených dat účinně zachovávat stejnou kvalitu. Důležité je také, zda je schopen tuto kvalitu doložit. Chce-li manažer v podniku dosáhnout jistého stupně excelence, musí sám ovládat paletu rozmanitého software interaktivní analýzy dat a rozpoznat včas náznaky nepříznivých jevů a vztahů a umět odhalit i zdroje ztrát. To se týká manažerů zdravotnických, veterinárních a vodohospodářských laboratoří, potravinářské a zemědělské inspekce, chemických, potravinářských, farmaceutických a zemědělských výrob. Je ovšem také pracovní náplní pracovníků kontroly životního prostředí všech odvětví průmyslu, energetiky a zemědělství, technologů, pracovníků řízení jakosti.

5. Formy průběžného vzdělávání

Důkazem aktuální potřeby počítačových metod statistiky a nové interaktivní analýzy dat v naší odborné veřejnosti je více než 750 absolventů odborných kurzů a seminářů, pořádaných v posledních třech letech na Univerzitě Pardubice. Absolventi se rekrutují z oblasti sledování životního prostředí, soukromých i státních laboratoří, zkušeben a výzkumných ústavů stejně jako z průmyslu důlního, hutnického, železářského, textilního, plastikářského, chemického, potravinářského, farmaceutického - abychom vyjmenovali ty nejznámější. K zájmu o tento druh kurzů přispívá jejich poněkud netradiční pojetí. Po hodině přednášky následuje vždy hodinové procvičování na počítači, takže po týdnu získá účastník konkrétní praktické dovednosti s náročným softwarem. Na velkém počtu vyřešených úloh z praxe se naučí diagnostikovat data, extrahovat maximální množství informace z dat, což činí týdenní kurz zvláště kvalitním a pro začátečníka atraktivním. Pro náročnější zájemce o práci manažerskou je k dispozici i dvouleté licenční studium, ve kterém se vedle 18 počítačových předmětů objevují i předměty jako je psychologie osobnosti manažera, akreditace a certifikace kontrolní laboratoře a formy grafické prezentace a počítačová typografie. Zvláštní kategorii průběžného vzdělávání tvoří celostátní semináře "Analýza dat", které již od roku 1990 pořádá společnost TriloByte dvakrát do roka v Lázních Bohdaneč. Zásadou je, že vybraní lektoři zde vyučují originálním způsobem užitím vlastních publikací. Zde se každoročně prezentují novinky software ve statistickém zpracování dat a především v interaktivní analýze dat. Zde také můžeme vidět poslední verze světově známých paket S-Plus, Statistica, SPSS, Systat, STATGRAPHICS, SOLO, NCSS, MathSoft, Statistical Science, Microcal a dalších, kterým úspěšně konkurují české produkty ADSTAT, WinPlot a QC-Expert. ADSTAT je nejrozšířenějším statistickým softwarem u nás, a proto jsou pardubické týdenní kurzy postaveny především na něm. V licenčním studiu je důraz kladen na nejlepší sofware z USA.

6. Závěr

Seznámení s interaktivní analýzou dat v řádné výuce studentů, týdenních kurzech a v licenčním studiu formou novinek software z celého světa je obsahem globální koncepce výuky průběžného vzdělávání vysokoškoláků a zvyšování kvalifikace českých pracovišť, jejímž cílem je pozvednout je na evropskou úroveň nejen cenami, ale také přístupem, zodpovědností, vědomostmi a v neposlední řadě sebevědomím.

Doporučená literatura:
1. M. Meloun, J. Militký: STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT - SBÍRKA ÚLOH S DISKETOU, Nakladatelství Univerzita Pardubice 1996.
2. M. Meloun, J. Militký: STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT, Nakladatelství PLUS Praha 1994, EAST PUBLISHING Praha 1998.
3. M. Meloun, J. Militký, M. Forina: CHEMOMETRICS FOR ANALYTICAL CHEMISTRY, Volume 1. PC-AIDED STATISTICAL DATA ANALYSIS, Ellis Horwood Chichester 1992.
4. M. Meloun, J. Militký, M. Forina: CHEMOMETRICS FOR ANALYTICAL CHEMISTRY, Volume 2. PC-AIDED REGRESSION AND RELATED METHODS, Ellis Horwood Chichester 1992.