Nebezpečenstvá data miningu

Data MiningOdporúčam výborný článok s odkazmi na ďalšie veľmi dobré zdroje ohľadne data miningu. Data mining nie je apriori zlá vec, no v spojitosti so svetom investovania si naň treba dávať veľký pozor. Tento pojem označuje snahu za každú cenu nájsť časovú radu, ktorá by vysvetlovala pohyb napr. akciového trhu, a tým pádom by ho bola schopná aj predikovať.

Často sa ako memento uvádza príklad, v ktorom sa ukázalo, že ročná produkcia masla v Bangladéši, v USA a vývoj počtu oviec v oboch krajinách dokážu v regresnej analýze vysvetliť pohyby amerického indexu S&P 500 na vyše 90%. Samozrejme je hneď každému jasné, že je to len náhoda a tieto veličiny predsa nijako nemôžu stáť za výkonom tohto akciového indexu. Avšak toto má slúžiť ako varovanie, že aj sofistikovanejšie modely, ktoré obsahujú ekonomické veličiny (úrokové miery, minulé výnosy S&P 500, nezamestnanosť..) a zdali by sa veľmi presvedčivé, môžu byť len výsledkom data miningu, a teda vzťah medzi nimi a akciovým trhom je len čisto náhodný.

Pri tom množstve časových radov a výpočtovej sile, ktorá je dnes k dispozícii, je samozrejmé, že sa niektorým ľuďom podarí nájsť model, ktorý má aspoň zdanlivo veľkú predikovaciu schopnosť. Treba si uvedomiť, že pri 100 000 regresiách (ktoré sa vo finančnom svete určite robia veľmi často) je až 5000 chybných (pri 95% úrovni signifikantnosti) len kvôli štatistickej chybe I stupňa (odmietne sa nulová hypotéza, aj keď je v skutočnosti správna). Inými slovami, keď niekto vyrukuje s modelom (napr. na základe technickej, či makroekonomickej analýzy), ktorý má podľa jeho slov zaručene schopnosť vysvetliť a predikovať pohyby akciového trhu, treba sa mať na pozore. Môže ísť len o náhodu. Pretože, keď ‘mučíte’ dáta dostatočne dlho, nakoniec sa ‘priznajú’.


pošli na vybrali.sme.sk

Tags: , ,

This article has one comment so far!

  1. Porovnanie úspešnosti kĺzavých priemerov | Pasívne investovanie - investujte s nositeľmi Nobelovej ceny za ekonómiu says —

    [...] množstva indikátorov technickej analýzy a ich nastavení je treba klásť veľký dôraz aj na nebezpečenstvá data miningu. Z tisícov stratégií sa totiž zo zákonov pravdepodobnosti musí nájsť zopár, ktoré [...]

Ak Vás článok zaujal, rád si prečítam Váš názor.

*


PageRank ikona zdarma