Chemometrie II - Vícerozměrná data

A jako sebeúrodnější půda nemůže být plodná bez obdělávání, tak ani duše nenese plody bez učení.
UT AGER QUAMVIS FERTILIS SINE CULTURA FRUCTUOSUS ESSE NON POTEST, SIC DOCTRINA ANIMUS, Marcus Tullius Cicero (3.1.106 př.n.l. - 7.12.43 př.n.l.) Tusculanae disputationes. II, 5, 13.

A. Potřebná literatura a vzory semestrálních prací:

M. Meloun, J. Militký: STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT, Plus, Praha 1994 (1. vydání) nebo East Publishing Praha 1998 (2. vydání), Academia 2004, INTERAKTIVNÍ STATISTICKÁ ANALÝZA DAT, Karolinum Praha 2012.
M. Meloun, J. Militký: Kompendium statistického zpracování dat, Učebnice s CD, Academia Praha 2002 (1. vydání), Academia Praha 2006 (2. vydání), Karolinum Praha 2013 (3. vydání)
M. Meloun, J. Militký: Sbírka úloh - STATISTICKÉ ZPRACOVÁNÍ EXPERIMENTÁLNÍCH DAT, Univerzita Pardubice 1997.
M. Meloun, J. Militký: Počítačová analýza vícerozměrných dat v příkladech, Učebnice s CD, Academia Praha 2002 (1. vydání), Statistická analýza vícerozměrných dat v příkladech, Učebnice s CD, Academia Praha 2012 (2. vydání). Data k úlohám.
Vzory semestrálních prací studentů v řádném studiu.
Vzory semestrálních prací studentů v licenčním studiu.

B. Slidy přednášek v Power-Pointu

Programy v NCSS 2007:

C. Sylabus a okruhy otázek ke zkoušce:

1. Charakter vícerozměrných dat: Datová matice, objekty a proměnné. Typy proměnných a vícerozměrný náhodný vektor. Odhady parametrů polohy a rozptýlení vícerozměrných dat. Příklady vícerozměrných dat v analýzách životního prostředí.

2. Předúprava vícerozměrných dat: Druhy transformací. Centrování a normování dat. Druhy zobrazení vícerozměrných dat. Průzkumová analýza vícerozměrných dat a vyhledávání odlehlých měření. Stopová analýza.

3. Statistické testování vícerozměrných náhodných výběrů: Odhady parametrů polohy a rozptýlení. Statistická analýza vektoru středních hodnot, statistická analýza kovariančních matic. Vybočující body.

4. Analýza kovariance: Výklad kovarianční matice. Předpoklady analýzy kovariance. Využití kovariance v analýze vícerozměrných dat. Analýza korelace, analýza korelační matice. Korelační modely pro více náhodných veličin. Párový korelační koeficient, parciální korelační koeficient, vícenásobný korelační koeficient.

5. Průzkumová analýza vícerozměrných dat: Zobrazení vícerozměrných dat, analýza profilů. Testy normality. Grafy k ověření normality.

6. Metody k odhalení struktury ve znacích a objektech.

7. Analýza hlavních komponent PCA: Podstata a matematický popis metody. Vlastnosti hlavních komponent. Geometrický význam PCA. Statistická analýza hlavních komponent. Interpretace hlavních komponent. Grafické pomůcky analýzy hlavních komponent. Diagnostika metody hlavních komponent. Určení počtu komponent směsi analýzou absorbanční matice. Využití ve spektrální analýze, využití v analýze dat GC a HPLC, metody rozpoznání vzoru. Řešení častých problémů v PCA.

8. Faktorová analýza FA: Zaměření a cíle metody. Podstata metody a postup FA. Model faktorové analýzy a odhad parametrů faktorového modelu. Odhad faktorového skóre, rotace faktorů. Formulace úlohy FA. Grafické pomůcky v FA. Postup diagnostikování FA. Nalezené řešení a dosažená těsnost proložení. Interpretace výsledků a pojmenování faktorů. Kankareho metoda určení počtu částic ve vícesložkové směsi, Wernimontova metoda klasifikace spektrofotometrů.

9. Kanonická korelační analýza CCA: Zaměření a cíle metody. Podstata metody a postup CCA. Formulace úlohy CCA. Předpoklady CCA. Postup diagnostikování CCA. Test významnosti kanonických korelací. Vysvětlení kanonických proměnných. Analýza redundance. Nalezené řešení a dosažená těsnost proložení. Interpretace výsledků.

10. Diskriminační analýza DA: Klasifikace objektů. Zaměření a cíle metody DA. Podstata metody, postup DA a zařazovací pravidla. Lineární a kvadratická diskriminační funkce. Formulace úlohy DA. Předpoklady DA. Volba znaků. Úprava prahového bodu. Průběh diagnostikování DA. Diagram teritoriální mapy. Nalezené řešení a dosažená těsnost proložení. Interpretace výsledků.

11. Logistická regrese LR: Zaměření a cíle metody. Podstata metody a postup logistické regrese. Logistický regresní model. Formulace úlohy LR. Předpoklady LR. Odhady parametrů a jejich statistická významnost. Volba proměnných a jejich interpretace. Kvalita vyhodnocení a nalezené řešení a dosažená těsnost proložení logistickým modelem. Interpretace výsledků.

12. Shluková analýza CLU: Podstata shlukové analýzy. Míry podobnosti a vzdálenosti. Vhodnost standardizace dat. Kritéria pro posouzení kvality rozkladu do shluků, vzdálenost a podobnost objektů. Hierarchická posloupnost rozkladů. Dendrogramy hierarchického shlukování. Fuzzy shlukování. Shlukování metodou nejbližších středů-medoidů. Postup obecné analýzy shluků. Těsnost proložení ve výstavbě shluků.

13. Mapování objektů vícerozměrným škálováním MDS: Zaměření a cíle metody. Podstata metody a postup vícerozměrného škálování. Metrická a nemetrická metoda MDS. Formulace úlohy MDS. Předpoklady MDS. Postup MDS. Nalezené řešení a dosažená těsnost proložení. Interpretace výsledků.

14. Korespondenční analýza CA: Zaměření a cíle metody. Podstata metody a postup korespondenční analýzy. Formulace úlohy CA. Předpoklady CA. Nalezené řešení a dosažená těsnost proložení. Interpretace výsledků.

D. Kontrolní otázky ke zkoušce

4.1 Pojem vícerozměrné náhodné veličiny (z látky učebnice na str. 244 až 280)
4.1.1 Vysvětlete pojem vícerozměrné náhodné veličiny a jejího rozdělení.
4.1.2 Vysvětlete pojmy vícerozměrné normální rozdělení, kovarianční matice, korelační matice.
4.1.3 Jak vyjádříme intenzitu vztahu mezi dvěma znaky?
4.1.4 Jak je definována vícerozměrná šikmost a špičatost a k čemu slouží?
4.1.5 Uveďte odhady parametrů polohy, rozptýlení a tvaru vícerozměrného výběru.
4.1.6 Vysvětlete eukleidovskou vzdálenost a Mahalanobisovu vzdálenost a uveďte, kdy které dáte přednost.
4.1.7 Co způsobují vybočující body ve vícerozměrných datech a jak je lze identifikovat?
4.1.8 Co to znamená maskování a překryv u vybočujících bodů v datech?
4.1.9 Které testy vektoru středních hodnot znáte?
4.1.10 Které testy kovarianční matice znáte?
4.1.11 Uveďte různé formy standardizace dat a uveďte kdy kterou použijete?
4.1.12 K čemu užíváme statistické váhy a jaké druhy statistických vah u vícerozměrných dat znáte?

4.2 Obecný postup analýzy (z látky učebnice na str. 244 až 280)
4.2.1 Uveďte rozdíly mezi sdruženou, marginální a podmíněnou hustotou pravděpodobnosti.
4.2.2 Popište základní vlastnosti kovariance.
4.2.3 Popište základní vlastnosti korelačních koeficientů.
4.2.4 Uveďte možnosti stanovení vybočujících bodů pomocí robustních odhadů.
4.2.5 Proveďte rozdělení metod vícerozměrné statistické analýzy.

4.3 Průzkumová analýza vícerozměrných dat (z látky učebnice na str. 281 až 299)
4.3.1 Popište účel a význam průzkumové (exploratorní) analýzy vícerozměrných dat.
4.3.2 Jaké grafy ve dvou- a tří-rozměrném souřadnicovém systému znáte k identifikaci vybočujících objektů nebo k identifikaci různých struktur v datech?
4.3.3 Jaký je rozdíl v diagnostikování mezi rozptylovými diagrami a symbolovými grafy?
4.3.4 Které rozptylové diagramy znáte a co indikují v diagnostice?
4.3.5 Popište symbolové grafy (profily, polygony, zváře, křivky, stromy, atd.) a uveďte co indikují?
4.3.6 K čemu se užívají profilové grafy při posouzení dvou tříd, dvou kategorií, dvou shluků?
4.3.7 Jak posoudíte a vyšetříte testy podobnosti mezi dvěma skupinami profilovým grafem?
4.3.8 Jak lze rozšířit podobnost profilům více skupin vícerozměrnou analýzou rozptylu MANOVA?
4.3.9 Vysvětlete jak se k posouzení podobnosti profilů aplikuje F-test, t-test a χ2-test?
4.3.10 K ověření normality vícerozměrného rozdělení užíváme grafy a testy. Porovnejte grafy pro ověření vícerozměrné normality.
4.3.11 Porovnejte testy k ověření normality vícerozměrného rozdělení: Roystonův H-test, Smallův Q-test, Omnibus test šikmosti a špičatosti.
4.3.12 Vysvětlete postup Boxovy-Coxovy transformace vícerozměrných dat. Ukažte jak se nalezne vektor λ exponentů pro všechny znaky.

4.4 Metoda hlavních komponent PCA (z látky učebnice na str. 300 až 343)
4.4.1 V jakém vztahu je míra variability znaku ke hlavní komponentě? Přispívá znak s nulovou proměnlivostí k rozlišení mezi objekty?
4.4.2 Je rozdíl při vyčíslení hlavních komponent vychází-li se z kovarianční matice nebo korelační matice?
4.4.3 Vysvětlete jak se sleduje zmenšení informace projekcí do menšího počtu rozměrů mírou těsnosti proložení modelu PCA nebo-li chybou modelu PCA.
4.4.4 Proč je třeba před aplikací PCA vyšetřit vícerozměrnou normalitu nebo alespoň symetrii rozdělení dat?
4.4.5 Co lze indikovat Cattelovým indexovým grafem úpatí vlastních čísel? Uveďte užívaná kritéria indikace zlomu na křivce tohoto grafu.
4.4.6 Uveďte přehled modifikací Cattelova grafu úpatí při analýze absorbanční matice spekter za účelem určení počtu světlo-absorbujících částic ve směsi.
4.4.7 Co lze indikovat z grafu komponentních vah? Vysvětlete, jak lze v tomto grafu detekovat umístění znaků, podobnost znaků, znaky ve shluku, osamělé znaky a odlehlé znaky?
4.4.8 Co lze indikovat z grafu komponentního skóre? Vysvětlete, jak lze v tomto grafu detekovat umístění objektů, podobnost objektů, objekty ve shluku, osamělé objekty, odlehlé objekty, a konečně i vysvětlení pojmenování objektů?
4.4.9 Co lze indikovat na dvojném grafu? Co říká úhel mezi průvodiči dvou objektů?
4.4.10 Jak se indikuje interakce znaků a objektů ve dvojném grafu a jak se indikuje?
4.4.11 Jak se pozná v maticovém diagramu znaků zda data potřebují škálování? Jaké informace pro předúpravu dat poskytne EDA?
4.4.12 Uveďte postup analýzy PCA. Vedle Cattelova grafu úpatí a grafu komponentních vah a komponentního skóre s dvojným grafem je třeba analyzovat také rezidua objektů a rezidua znaků, která by měla vesměs prokazovat dostatečnou těsnost proložení. Vysvětlete co je třeba učinit, když tomu tak není?
4.4.13 K čemu slouží Prokrustova analýza?
4.4.14 Jak poznat, že data neobsahují předpokládanou informaci?
4.4.15 Jak poznat, že bylo užito příliš málo hlavních komponent?
4.4.16 Jak poznat, že bylo užito příliš mnoho hlavních komponent?
4.4.17 Jak poznat, že nebyly včas odstraněny odlehlé objekty?
4.4.18 Jak poznat, že odstraněné odlehlé objekty obsahovaly důležitou informaci?
4.4.19 Jak poznat, že bylo komponentní skóre nedostatečně analyzováno při zanedbání důležitých rysů v datech?
4.4.20 Jak poznat, že bylo provedeno vysvětlení komponentních vah se špatným počtem hlavních komponent?
4.4.21 Jak poznat, že byla užita špatná a nevhodná předúprava dat?
4.4.22 Který diagram v PCA ukazuje na strukturu objektů, shluky objektů, odlehlé objekty, anomálie, atd.?

4.5 Faktorová analýza FA (z látky učebnice na str. 344 až 370)
4.5.1 Co znamená sumarizace dat a redukce dat ve faktorové analýze?
4.5.2 Jaký je základní rozdíl mezi PCA a FA?
4.5.3 Vysvětlete faktorový model a pojmy faktorová zátěž, komunalita a specificita.
4.5.4 K čemu slouží rotace faktorů a které druhy rotace se užívají?
4.5.5 Vysvětlete podstatu faktorové analýzy FA.
4.5.6 Co lze vyčíst z grafu faktorových zátěží? Uveďte možné závěry diagnozy.
4.5.7 Co lze vyčíst z grafu faktorového skóre? Uveďte možné závěry diagnozy.
4.5.8 Popište průběh diagnostikování faktorovou analýzou podle Haira.
4.5.9 Jaký je obecný cíl FA? Jaký je rozdíl mezi R-faktorovou analýzou (čili korelace mezi znaky) a Q-faktorovou analýzou (čili korelace mezi objekty)? V čem spočívá redukce dat a sumarizace dat?
4.5.10 Jaký je rozdíl mezi Q-faktorovou analýzou a analýzou shluků?
4.5.11 Proč říkáme klíčovým znakům markery nebo indikanty?
4.5.12 Při formulaci úlohy FA se dbá o velikost výběru. Na jeden znak se doporučuje 10 až 20 objektů. Proč?
4.5.13 Jak se vyšetří dostatečná korelace mezi znaky? Existuje rámcové pravidlo o minimální hodnotě korelačního koeficientu, aby byla FA ještě účinná?
4.5.14 Vysvětlete podstatu Barttletova testu sféricity o korelacích mezi původními znaky.
4.5.15 Diskutujte proč jsou parciální korelační koeficienty citlivým indikátorem síly vztahu mezi znaky?
4.5.16 Ukažte na využití anti-image korelační matice parciálních korelací mezi původními znaky s MSA hodnotami na diagonále k vyšetření korelace mezi znaky.
4.5.17 Popište využití Kaiserovy-Meyerovy-Olkinovy míry KMO k posouzení korelace mezi dvěma znaky.
4.5.18 Popište využití míry MSA k posouzení vnitřní korelace mezi původními znaky.
4.5.19 Statistika R2 mezi jedním znakem a všemi ostatními je citlivým kritériem síly lineárního vztahu mezi znaky. Proč musí být k vhodnému užití FA splněna dostatečná korelace mezi znaky?
4.5.20 Jaký je rozdíl mezi FA a PCA v popisu původní matice znaků?
4.5.21 Proč je v FA třeba užít takový faktor, který sdílí právě původní znaky?
4.5.22 Které druhy rozptylů rozlišuje faktorová analýza?
4.5.23 Uveďte nevýhody metody FA.
4.5.24 Uveďte kritéria použitelných faktorů.
4.5.25 Jak zhodnotíte těsnost proložení faktorového modelu?
4.5.26 Komentujte kroky v interpretaci faktorů: (1) neotočená faktorová matice s faktorovými zátěžemi pro každý znak a v každém faktoru, (2) rotace faktorů vede ke zjednodušení faktorové struktury, (3) úprava faktorového modelu.
4.5.27 Při výkladu faktorů vyberte faktory a vysvětlete: (1) zaručení praktického významu, (2) posouzení statistické významnosti, (3) úprava založená na počtu znaků, (4) vyšetření matice faktorových zátěží, (5) odhalení nejvyšší zátěže u každého znaku, (6) stanovení komunalit znaků, (7) pojmenování faktorů.
4.5.28 Jak se provádí ověření nalezeného faktorového modelu na dvou subvýběrech, vzniklých z původního výběru objektů?
4.5.29 Vysvětlete pojem zástupný znak a jeho použití a rozdíl od smíšeného znaku.
4.5.30 Dvě hlavní výhody sumační stupnice vedou k využití v řadě disciplin. Ukažte proto na základní vlastnosti sumační stupnice: (a) Pojmová definice, která se týká obsahové platnosti a jmenovité platnosti. (b) Rozměrnost, která se týká bezrozměrnosti položek. (c) Spolehlivost která představuje klíčové pravidlo o korelaci položka-celek. Koeficient spolehlivosti má pak míru Cronbachovo alfa. (d) Správnost, která je mírou, kdy stupnice dobře vystihuje obsah zájmu. Jsou tři formy správnosti: konvergence, diskriminace, nomologická platnost.
4.5.31 Vysvětlete pojem faktorového skóre a ukažte na jeho použití.
4.5.32 Ukažte na základní rysy diagnostikování problémů ve faktorové analýze.
4.5.33 Vyšetřete sílu vztahu mezi znaky Gleasonovou-Staelinovou mírou redundance.
4.5.34 Pro velké výběry rozměru n > 150 objektů vyšetřete korelaci mezi znaky Barttletovým testem sféricity.
4.5.35 Vyšetřete Cattelův indexový graf úpatí vlastních čísel za účelem určení počtu užitečných a použitelných faktorů.
4.5.36 Vyšetřete, kterými znaky je nejvíce ovlivněn první faktor a kterými druhý faktor?
4.5.37 Co vyjadřuje komunalita vzhledem k proměnlivosti znaku vyjádřené dotyčným faktorem?

4.6 Kanonická korelační analýza CCA (z látky učebnice na str. 371 až 384)
4.6.1 Co je podstatou kanonické korelační analýzy CCA?
4.6.2 Jaký je rozdíl mezi CCA a vícenásobnou lineární regresí?
4.6.3 Popište princip tvorby první kanonické korelace a druhé kanonické korelace.
4.6.4 Co je cílem testu významnosti kanonických korelací?
4.6.5 Zátěže kanonických proměnných nebo-li koeficienty kanonické struktury jsou korelace mezi každým původním znakem a kanonickou proměnnou a vysvětlují vztah mezi znaky a kanonickými proměnnými. Vysvětlete pojem zátěže kanonických proměnných.
4.6.6 Co značí analýzu redundance.
4.6.7 Co značí redundanční index a k čemu slouží?
4.6.8 K čemu slouží graf závislosti skóre kanonických proměnných Ui na Vi?
4.6.9 Vysvětlete průběh diagnostikování CCA podle Haira.
4.6.10 Vysvětlete cíle kanonické korelační analýzy CCA u dat tvořených dvěma skupinami znaků, nezávisle a závisle proměnných, i když jde o dělení proměnných čistě formální.
4.6.11 Jak souvisí velikost výběru se statistickou významností koeficientů modelu či korelací?
4.6.12 CCA vyžaduje jedině lineární vztahy. Je nutná normalita metrických znaků? Jak bude působit heteroskedasticita u znaků?
4.6.13 Jak je vyjádřena síla vztahu mezi páry kanonických proměnných?
4.6.14 Co to jsou kanonické kořeny?
4.6.15 Uveďte kritéria rozhodování, která kanonická proměnná by měla být vysvětlena: (a) vypočtená hladina významnosti, (b) velikost kanonické korelace, (c) míra redundance sdíleného rozptylu. Vysvětlete užití Stewartova-Loveova indexu redundance, který je součinem dvou složek.
4.6.16 Jak interpretovat kanonický vztah statisticky významný a kanonické kořeny resp. index redundance ještě přijatelné?
4.6.17 Co značí kanonické proměnné?
4.6.18 Vysvětlete kanonické zátěže?
4.6.19 Vysvětlete použití a smysl kanonických křížových zátěží.
4.6.20 Z výběru objektů se vytvoří dva dílčí podvýběry a provede se CCA s každým podvýběrem odděleně. Jak ověříme nalezené výsledky pro jeden a druhý podvýběr?
4.6.21 Uveďte kritická úskalí CCA.
4.6.22 Co vyjadřuje hodnota kanonické korelace a co čtverec kanonického korelačního koeficientu?
4.6.23 Interpretujte hodnotu spočtené hladiny významnosti P, když je P blízká nule?
4.6.24 Interpretujte hodnotu Wilkova lambda významnost kanonické korelace, když λ je blízká nule?
4.6.25 Komentujte tabulku objasněné proměnlivosti v datech v každé skupině znaků, vysvětlované jinou skupinou znaků čili dotyčnou kanonickou proměnnou Ui a Vi?
4.6.26 Co udává procento objasnění ve skupině znaků?
4.6.27 Co vyjadřuje kanonický koeficient determinace?
4.6.28 Jak se provádí odhady kanonických parametrů?
4.6.29 Na co ukazují korelace párů původního znaku a kanonické proměnné?
4.6.30 Co lze vyčíst z grafů kanonického skóre pro všechny objekty pro jednotlivé páry kanonických proměnných?

4.7 Diskriminační analýza DA (z látky učebnice na str. 385 až 404)
4.7.1 Co je cílem klasifikace objektů? Které klasifikační metody znáte?
4.7.2 Co je podstatou diskriminační analýzy?
4.7.3 Znaky se dělí na diskriminátory (nezávisle proměnné) a jedinou binární závisle proměnnou (0-1, Ano-Ne). Cílem je vytvořit predikční model, a to k čemu? Jak se potom zařadí všechny objekty do tříd?
4.7.4 Vysvětlete apriorní pravděpodobnost zařazení objektu do první třídy a do druhé třídy.
4.7.5 Vysvětlete Bayesovu aposteriorní pravděpodonost příslušnosti k j-té třídě (j = 1, 2).
4.7.6 Jak určíme prahový bod C u dvou normálních rozdělení?
4.7.7 Kdy lze použít lineární diskriminační funkci LDA a kdy kvadratickou QDA?
4.7.8 Jak bude u LDA vypadat pravidlo zařazení do 1. třídy?
4.7.9 Jakou rovnicí je u LDA vyjádřena dělící přímka?
4.7.10 Jaký je rozdíl mezi koeficienty kanonické diskriminační funkce a koeficienty Fisherovy lineární diskriminační funkce?
4.7.11 Jak se provádí volba vhodných diskriminátorů?
4.7.12 Jak pracuje postup krokového výběru diskriminátorů?
4.7.13 Vysvětlete použití tolerance při výběru diskriminátorů?
4.7.14 Jak se užívá test změny Wilkova kritéria lambda a k čemu?
4.7.15 Jak se testuje dle Raova V-kritéria a k čemu?
4.7.16 Jak se testuje F-testem Mahalanobisova vzdálenost mezi dvěma třídami 1 a 2? Lze využít také k výběru diskriminátorů?
4.7.17 Test, zda přidaný diskriminátor zlepší zařazení objektů vychází z nulové hypotézy: H0: Dp+12 = Dp2 a je postaven na F-kritériu. Ukažte jak?
4.7.18 Jak měříme efektivnost diskriminační funkce dle aktuálního diskriminačního skóre ve třídách? Co znamená “dobrá” diskriminační funkce stran mezitřídní proměnlivosti a proměnlivosti přes všechny třídy?
4.7.19 Jak posoudíme “dobrou” dikskriminační funkci pomocí Wilkova kritéria λ?
4.7.20 Jak se posuzuje kvalita zařazení objektů do tříd?
4.7.21 V případě silné nenormality se užívá logistický model diskriminace, uveďte jak?
4.7.22 Ukažte jednotlivé kroky průběhu diagnostikování diskriminační analýzou DA.
4.7.23 Ukažte čtyři cíle DA, které zřetelně objasní povahu diskriminační analýzy DA.
4.7.24 Jak se provede formulace úlohy diskriminační analýzy a volba diskriminátorů?
4.7.25 Mohou být ve zdrojové matici pro diskriminační analýzu nějaké “díry”?
4.7.26 Jak zvolíme závisle proměnnou z některého znaku a jak pak nezávisle proměnné diskriminátory z ostatních znaků?
4.7.27 Někdy se týká závisle proměnná 2 tříd (dichotomie), 3 tříd (trichotomie) a více tříd (multichotomie). Vysvětlete.
4.7.28 Vysvětlete princip metody polárních extrémů?
4.7.29 Ukažte jak je diskriminační analýza citlivá na poměr velikosti výběrů objektů vůči počtu diskriminátorů.
4.7.30 Výběr se rozdělí na dva podvýběry objektů: na analyzovaný výběr k určení a výstavbě diskriminační funkce a na klasifikovaný výběr k testování diskriminační funkce.
4.7.31 Jediným předpokladem EDA je vícerozměrná normalita diskriminátorů. Když není splněna užije se logistická regrese. Objasněte postup.
4.7.32 Jak rušivě působí multikolinearita diskriminátorů?
4.7.33 K výpočtu diskriminační funkce je třeba vybrat vhodnou metodu a rozhodnout o počtu užitých deskriptorů. Nejdůležitější vlastností je predikční schopnost počtu správně klasifikovaných objektů do správných tříd. Objasněte postup.
4.7.34 Komentujte dvě metody odvození diskriminační funkce, a to jednak přímé metody a jednak krokové metody.
4.7.35 Při hledání diskriminační funkce užijeme řadu kritérií. Komentujte jejich testační postup u kritéria Wilkova lambda, u Pillaiova kritéria a u Mahalanobisovy vzdálenosti.
4.7.36 K vyčíslení statisticky významných diskriminačních funkcí se posoudí těsnost proložení výpočtem: (1) diskriminačního Z-skóre pro každý objekt, (2) vyhodnocením rozdílu mezi jednotlivými třídami v diskriminačních Z-skóre, (3) přiřazením predikční schopnosti tříd.
4.7.37 Výpočet diskriminačního Z-skóre pro každý k-tý objekt spočívá ve vyčíslení Fisherovy lineární diskriminační funkce pro k-tý objekt. Vypočtená hodnota Z-skóre nabízí přímé porovnání objektů. Jak se vysvětluje velikost koeficientů u jednotlivých diskriminátorů co do důležitosti dotyčného diskriminátoru?
4.7.38 Co je mírou úspěchu diskriminační analýzy při rozdělení objektů do rozličných třídních těžišť? Rozdíly jsou měřeny v jednotkách Mahalanobisovy vzdálenosti a jsou k dispozici také testy vyšetřující, zda jsou tyto rozdíly významné.
4.7.39 Přiřazení predikční schopnosti: vypočtená hladina významnosti není dobrým ukazatelem, jak diskriminační funkce klasifikuje mezi dvě třídy. Naproti tomu hit poměr odhalí, jak dobře diskriminační funkce zařazuje objekty. Vysvětlete postup.
4.7.40 Jak určíme prahový bod, respektive jeho optimální hodnotu?
4.7.41 Jak vyčíslíte prahový bod pro nestejné rozsahy tříd?
4.7.42 Jak vystihuje optimální prahový bod cenu chybného zařazení objektu do chybné třídy?
4.7.43 U konstrukce klasifikačních matic rozdělíme výběr na dva podvýběry: analyzovaný podvýběr a klasifikovaný podvýběr. Zařazení do 1. nebo 2. třídy posoudí Studentův t-test určením vypočtené hladiny významnosti pro klasifikační správnost.
4.7.44 Jak měří hit poměr predikční schopnost diskriminační funkce u každé klasifikační matice?
4.7.45 Jak se provede určení predikční schopnosti pomocí kritérií pravděpodobnosti? Popište metodu kritéria maximální pravděpodobnosti.
4.7.46 Kdy užijeme kritéria poměrné pravděpodobnosti?
4.7.47 K čemu se užívá Pressova q-statistika diskriminační síly klasifikační matice?
4.7.48 Jaké diagnostiky chybného diskriminování objektů znáte?
4.7.49 Co popisuje teritoriální mapa?
4.7.50 Které metody určující relativní důležitost každého diskriminátoru v zařazování mezi třídami znáte?
4.7.51 Jak v interpretaci Fisherových lineárních diskriminačních funkcí využijeme znaménka a velikosti standardizovaných diskriminačních koeficientů?
4.7.52 Co to jsou a jak využijeme diskriminační zátěže čili strukturní korelace?
4.7.53 U krokové metody užíváme parciální F-hodnoty k vysvětlování relativní diskriminační síly diskriminátorů. Komentujte proč velké hodnoty F značí velkou diskriminační sílu.
4.7.54 Jak postupujeme při interpretaci dvou a více diskriminačních funkcí?
4.7.55 Interpretujte index vlivu pro vyjádření relativní míry diskriminační síly každého diskriminátoru xi. Ukažte jak se vyčíslí ve třístupňovém postupu.
4.7.56 Jak se vypočtou hodnoty vlivu pro každou významnou diskriminační funkci?
4.7.57 Jak se vypočte index vlivu přes všechny významné funkce?
4.7.58 Co lze určit z grafu diskriminačních zátěží?
4.7.59 Popište způsoby ověření výsledků: rozdělení výběru na dva podvýběry a přiblížení rozdílu mezi třídami.

4.8 Logistická regrese LR (z látky učebnice na str. 429 až 453)
4.8.1 Jaké je zaměření a cíl metody logistické regrese LR a její spojitost s diskriminační analýzou a klasifikací.
4.8.2 Vysvětlete jak se tvoří logitová transformace z poměru šancí?
4.8.3 Vysvětlete jednotlivé typy logistické regrese.
4.8.4 Vysvětlete logistický regresní model přes pravděpodobnostní poměr L(1)/L(0) čili poměr šancí.
4.8.5 Vysvětlete a nadefinujte logistický model ln(L(1)/L(0) ) = ?
4.8.6 Jak se provádí odhad parametrů logistického regresního modelu?
4.8.7 Vysvětlete jak se provede interpretace regresních koeficientů v logistické regresi.
4.8.8 Vysvětlete fakt, že test významnosti regresního koeficientu se provede Studentovým t-testem a pro velké výběry Waldovým testem.
4.8.9 Popište vyšetření parciální korelace Ri mezi závisle proměnnou a každou nezávisle proměnnou.
4.8.10 Kategorické nezávisle proměnné x jsou faktory. Za faktor lze užít numerickou ale i textovou či datumovou hodnotu zvanou úroveň. Úroveň faktoru se bere relativně vůči referenční hladině. Faktor mívá dvě úrovně, x = 0 a x = 1.Uveďte vysvětlení na příkladu.
4.8.11 Proveďte interpretaci spojité a smíšené proměnné v LR.
4.8.12 Volba nezávisle proměnných se provádí obvykle krokovou logistickou regresní analýzou. Popište postup v logistické regresní analýze.
4.8.13 Jak se provede určení vlivných bodů, především detekce odlehlých bodů regresní diagnostikou?
4.8.14 Popište míry těsnosti proložení navrženého logistického regresního modelu daty. Lépe však je použít odchylku (devianci) D = -2 ln L(1) známou pod značením D = -2LL. Diskutujte tuto diagnostiku, její meze, kvalitu proložení, atd.
4.8.15 Jak se porovnají dva regresní modely dle změny těsnosti proložení od jednoho modelu k druhému?
4.8.16 Popište Pearsonův test dobré shody χ2 se týká porovnání experimentálních hodnot E s vypočtenými dle modelu V.
4.8.17 Definujte Hosmerův-Lemeshowův test dobré shody R2logit a vysvětlete na něm testování navrženého regresního modelu.
4.8.18 Jak se posuzuje kvalita provedeného vyhodnocení logistickou regresí?
4.8.19 Vysvětlete graf prahové operační charakteristiky ROC. Ukažte co znamená přísný práh a co nedbalý práh. Jak plocha pod křivkou ROC rozhoduje o lepším modelu?
4.8.20 Popište způsob užití logistické regrese s využitím metody výběru cross-validation a jeho dvou podvýběrů, analyzovaného a klasifikovaného.
4.8.21 Popište techniku dvou výběrů, první “v události” a druhý “v neudálosti” a jejich analýzu.
4.8.22 Popište metodu “sehraných párů”.
4.8.23 Jaké informace poskytuje tabulka výstupu programu o závisle proměnné?
4.8.24 Jaké informace poskytuje tabulka výstupu programu o nezávisle proměnné?
4.8.25 Jaké informace vyčteme z výstupu programu o logistické regresní tabulce?
4.8.26 Co znamená logaritmus věrohodnosti -2LL u poslední iterace?
4.8.27 Kterými testy lze nejlépe prokázát těsnost proložení v LR?
4.8.28 Co vyčteme z tabulky daných a nalezených četností testu dobré shody?
4.8.29 Jak vystihují míry asociace mezi danými a vypočtenými pravděpodobnostmi počet a procento souhlasných a nesouhlasných svázaných párů?
4.8.30 Které jsou základní grafické diagnostiky logistické regresní analýzy?

4.9 Analýza shluků CLU (z látky učebnice na str. 454 až 490)
4.9.1 Co je principem numerické taxonomie?
4.9.2 Popište hlavní cíle analýzy shluků CLU?
4.9.3 Jak je shluková analýza citlivá na přítomnost nevýznamných znaků a na odlehlé objekty a k čemu slouží profilový diagram znaků?
4.9.4 Uveďte míry podobnosti objektů.
4.9.5 Které jsou základní korelační míry objektů ve shlukové analýze CLU?
4.9.6 Které jsou základní míry vzdálenosti ve shlukové analýze CLU?
4.9.7 Které jsou míry asociace ve shlukové analýze CLU?
4.9.8 Jaké způsoby standardizace dat jsou před analýzou shluků nutné?
4.9.9 Uveďte způsoby shlukování.
4.9.10 Které jsou hierarchické shlukovací postupy?
4.9.11 Které jsou nehierarchické způsoby shlukování?
4.9.12 Jak se provádí výstavba dendrogramu shluků znaků a výstavba dendrogramu objektů?
4.9.13 Podle kterých měr věrohodnosti čili těsnosti proložení se sestrojuje “nejlepší” dendrogram?
4.9.14 Popište metodu nejbližších těžišť jako jediné řešení pro počet požadovaných shluků.
4.9.15 Uveďte postupy klasifikace, když těžiště shluků jsou známa.
4.9.16 Uveďte postupy klasifikace, když těžiště shluků nejsou známa.
4.9.17 Popište metodu shlukování medoidů.
4.9.18 Jaký je rozdíl mezi Späthovou a PAM metodou u shlukování medoidů?
4.9.19 Vysvětlete kritérium silueta každého objektu a ukažte klasifikaci do shluků uvnitř shluku a při porovnání s objekty v ostatních shlucích.
4.9.20 K čemu využijeme průměrnou siluetu a maximální hodnotu průměrné siluety?
4.9.21 Co je principem metody fuzzy shlukování?
4.9.22 Vysvětlete fuzzifikaci shlukové konfigurace? Jak měříme fuzzifikaci Dunnovým rozdělovacím koeficientem a jak Kaufmannovým k získání optimálního počtu shluků?
4.9.23 Uveďte Hairův postup obecné analýzy shluků?
4.9.24 Jaké jsou obecné cíle analýzy shluků CLU?
4.9.25 Jaký je postup řešení úlohy CLU týkající se jak nalezení odlehlých bodů, jak vyjádřit podobnost objektů a zda je třeba standardizovat data?
4.9.26 Popište vliv multikolinearity na shlukovou analýzu.
4.9.27 Z vypočtené matice podobností začne proces shlukování objektů. Jak se zvolí shlukovací algoritmus a rozhodne se o počtu očekávaných shluků?
4.9.28 Ukažte jak test poměru rozptylu mezi shluky vůči průměru rozptylu uvnitř shluku vyšetří Fisherovým F-testem.
4.9.29 Uveďte metody a princip hierarchického shlukování.
4.9.30 Uveďte metody a princip nehierarchického shlukování.
4.9.31 Zdůvodněte, kdy dáte přednost hierarchickým a kdy nehierarchickým metodám?
4.9.32 Co to je terminační kritérium výstavby shluků a jak ho použijeme?
4.9.33 Jak se provádí závěrečná interpretace shluků jejich pojmenováním? Ukažte jak při hledání korespondence se porovnávají odvozené shluky s předem vytvořenou typologií.
4.9.34 Jak se provádí ověření shluků?
4.9.35 Jak se provádí profilování shlukového řešení?

4.10 Vícerozměrné škálování MDS (z látky učebnice na str. 497 až 514)
4.10.1 Vysvětlete jak se z matice proximity objektů vytvoří ve vícerozměrném škálování MDS subjektivní mapa relativního umístění objektů a znaků subjektivních a objektivních.
4.10.2 Ukažte jak se dají konvertovat podobnosti objektů S do vzdáleností D.
4.10.3 Jak se z hodnot proměnných xij objektů vypočte korelační matice R a potom matice eukleidovských či Mahalanobisových vzdáleností objektů D2.
4.10.4 Jak se ve vícerozměrném škálování MDS najdou dimenze k vzájemnému porovnávání objektů?
4.10.5 Kolik podobností či vzdáleností existuje pro n objektů?
4.10.6 Při posouzení kritéria maximální věrohodnosti posoudíme data testem těsnosti proložení statistickou mírou Kruskalovým stressem. Na čem je tato míra založena?
4.10.7 Co znamená, když se hodnota Kruskalova stressu blíží k nule?
4.10.8 Jaký je rozdíl mezi metrickým řešením CMDS a nemetrickým NNMDS?
4.10.9 Jak je definována Kruskalova míra důležitosti stress(q)?
4.10.10 Jaká kritéria k posouzení těsnosti proložení navrhl Kruskal pro stress(q)?
4.10.11 Jak je definována Takanova míra shody objektů zvaná přednostní kritérium Sstress a jak se numericky posuzuje?
4.10.12 Jak se volí ve vícerozměrném škálování MDS počet dimenzí?
4.10.13 Jak se pracuje s indexovým grafem úpatí relativní velikosti hodnot stress pro rostoucí počet dimenzí q?
4.10.14 Jaké je schéma výpočtu CMDS od D či X až k vyčíslené míře stress pro metrické znaky?
4.10.15 Jaké je schéma výpočtu NNMDS pro nemetrické znaky, když dáme přednost pořadovým číslům?
4.10.16 Jak se principielně liší MDS od FA a PCA, eventuelně od CLU?
4.10.17 Uveďte kroky postupu výpočtu obou metod MDS, tj. CMDS a NNMDS.
4.10.18 Jaké jsou cíle vícerozměrného škálování objektů?
4.10.19 Jaký je rozdíl mezi subjektivní mapou objektů na bázi podobnosti a subjektivní mapou na bázi preferenčního výběru dat?
4.10.20 Jaký je rozdíl mezi neúhrnnou a úhrnnou analýzou MDS?
4.10.21 Popište význam umístění respondentů v prostorové mapě MDS blízko počátku, daleko od počátku, blízko sebe a daleko od sebe.
4.10.22 Jaké jsou výhody a nevýhody dekompoziční metody MDS bez užití znaků?
4.10.23 Jaké jsou výhody a nevýhody kompoziční metody MDS při užití znaků?
4.10.24 Které techniky kompoziční metody MDS jsou nejužívanější a jak je lze roztřídit do tří skupin?
4.10.25 Proč se musí uživatel před vlastním mapováním zajímat o výběr vyhodnocovaných objektů?
4.10.26 Jakými postupy se posuzují podobnosti objektů?
4.10.27 Uveďte způsoby upřednostňování vlastností v seřazení objektů.
4.10.28 Vysvětlete jaký je rozdíl mezi mapou podobností a mapou preferencí? Oba přístupy vedou ke zcela odlišným mapám objektů.
4.10.29 Vysvětlete pojmy jako kolísání v dimenzi, kolísání v důležitosti a kolísání v čase.
4.10.30 Popište iterační postup minimalizace Kruskalova kritéria stress při postupném snižování počtu dimenzí.
4.10.31 Vysvětlete pojem ideální bod subjektivní mapy představující upřednostněnou kombinaci vnímaných znaků a definující relativní preference objektů dotyčného respondenta.
4.10.32 Jaká je interní a externí analýza objektů při umístění ideálního bodu z preferenčního výběru dat a její volba. Jak vyčíslíme preference projekcí objektu na vektor respondenta?
4.10.33 Jak nejlépe vyšetřovat data objektů způsobem lepšího chápání subjektivních rozdílů mezi objekty, založenými na podobnosti objektů a výběru preferencí na subjektivní mapě objektů?
4.10.34 Jaká je interpretace subjektivní mapy objektů kompoziční a dekompoziční metodou popisem subjektivních dimenzí a jaký je jejich vztah ke znakům. Jaké jsou subjektivní a objektivní postupy k určení počtu dimenzí čili jejich identifikace?
4.10.35 Ukažte jak se postupuje při pojmenování jednotlivých dimenzí, když totiž pojmenování os patří k vyvrcholení interpretace MDS.
4.10.36 Jak se provádí vizuální porovnání mezi objekty na subjektivní mapě?
4.10.37 Jak umožňuje vícerozměrná (obvykle dvojrozměrná) škálovací mapa objektů interpretovat matici vzdáleností mezi objekty?

4.11 Korespondenční analýza CA (z látky učebnice na str. 515 až 528)
4.11.1 Jaký vztah má subjektivní mapa korespondenční analýzy CA ke kontingenční tabulce?
4.11.2 Jakou technikou vystihuje korespondenční analýza CA asociaci řádků a sloupců?
4.11.3 Ukažte jak nejlepší dvojrozměrné zobrazení dat zobrazuje míru inercie, vyjadřující množství informace zobrazené v každé dimenzi.
4.11.4 Komentujte základní výhody korespondenční analýzy CA.
4.11.5 Které testy tvoří podstatu korespondenční analýzy CA? Co to je Pearsonova střední kvadratická kontingence a jak se využívá? Jak se vystihne homogenita a heterogenita v kontingenční tabulce?
4.11.6 Co jsou to hlavní setrvačnosti kontingenční tabulky?
4.11.7 Uveďte Hairův postup výpočtu korespondenční analýzou CA.
4.11.8 Jaké jsou hlavní cíle korespondenční analýzy CA? Vysvětlete, že při redukci dimenzí subjektivním mapováním se ukazuje na míru asociace mezi řádkovými a sloupcovými asociacemi také nemetrických dat.
4.11.9 Jaká je obecná formulace úlohy korespondenční analýzy CA?
4.11.10 Jaké jsou předpoklady korespondenční analýzy CA? Musí být pouze zajištěna porovnatelnost objektů a úplnost znaků?
4.11.11 Jak se vystihne nalezené řešení těsnosti proložení?
4.11.12 Co je podstatou interpretace výsledků v CA?
4.11.13 Při ověření výsledků CA je třeba sledovat citlivost výsledků na přidání nebo odebrání objektu nebo znaku. Je CA citlivá na málo objektů nebo na málo znaků?
4.11.14 Jak se využije indexový graf úpatí vlastních čísel pro hledání nejlepšího počtu dimenzí?
4.11.15 Jak dobře se podařilo provést projekci řádkových a sloupcových profilů do dvojrozměrné roviny?
4.11.16 Jak se k posouzení projekce využívá veličiny jako kumulativní procento, vlastní číslo, mass, inercie, faktor, COR, CTR u obou os (dimenzí) a konečně pojem vzdálenost?

Chemometrie II - Vícerozměrná data

A. Potřebná literatura a vzory semestrálních prací:

B. Slidy přednášek v Power-Pointu

C. Sylabus a okruhy otázek ke zkoušce:

D. Kontrolní otázky ke zkoušce

Kontakt

Výuka

Výzkum

Publikace