03. 03. 2014
Při čtení padákova blogu o Data Hackathonu v NODE5 přemýšlím, že na podobné akci by se dalo přiučit spoustě věcí. Obzvláště když věci jako K-Clustering nebo RF analýza mi absolutně nic neříkají. Nechávám to ale volnému průběhu a doufám, že třeba příští rok…
05. 09. 2014
Díky sociálnímu šmírování jednoho nejmenovaného GoodData Evangelisty poprvé čtu o EDH, tají se mi dech a říkám si, že to vypadá jako vyšší liga. Lidi s pořádnými zkušenostmi, data z praxe a hlavně problémy, které se běžně řeší. Rychle zkoumám podrobnosti a nabídka lístků na čumendu zadarmo mi přijde jako super deal. Oznamuji svůj záměr Jirkovi a namísto pochvaly přijde studená sprcha ve smyslu “Přeci nejsi žádnej vocas, aby ses přímo neúčastnil”.
Stále přemýšlejíc, zda jsem jen srab, nebo opravdový ocas jsem vystřelil na sociální síť zásadní otázku: “Enterprise Data Hackaton, who’s in?”.
– Zde nutno podotknout, že ač jsem se svatou trojicí BI pekla (ETL, DWH, Report) měl už nějakou zkušenost, nevěřil jsem si, že dokážu obstát v konkurenci geeků, datových analytiků a ještě k tomu pod dozorem Petra a Pavla
K mému překvapení se pod mojí otázkou sešlo hned několik pozitivních odpovědí. To mě natolik motivovalo, že jsem obratem koupil lístky na celý víkend. Ostatní byli mým rychlým krokem natolik zaskočeni, že v rámci zachování vlastní cti si lupeny museli zakoupit taky a všichni jsme začali snít o krásných datech k analýze… Kdybychom jen věděli, co nás čeká ;)
Okamžitě po přihlášení si říkám, že se pořádně připravím projitím všech dostupných dat, business problémů a vyzkouším si pár nástrojů, které bych na akci mohl potencionálně využít.
10. 10. 2014
Týden před začátkem EDH si uvědomuji, že stále nevím nic o datech, nástrojích, ani lidech kteří na akci budou. Vnitřně se snažím maximálně vyhecovat a slíbím si, že se na to v průběhu týdne určitě podívám…
17. 10. 2014
Den D, respektive spíše Den H začíná. Od brzkého rána jej oslavuji schůzkami s klienty, prací na problémovém projektu i diagnostikou systému přes půl Evropy stylem “před sebou bys měl vidět modré tlačítko, klikni na něj”. Jinými slovy jsem tedy dělal cokoliv ostatního, jen ne přípravy na EDH. Moje představy o jasné strategii se pomalu rozplývají.
Den uteče jako voda a já už mířím na druhou stranu Prahy s vědomím, že teď se z toho už fakt nevyvleču. Spacák neberu se slovy: “Během chvilky budu doma”. Chyba lávky.
Na ukázkové datasety jsem se stále ještě nepodíval, business problémy jsem viděl jen z rychlíku, resp. tramvaje jedoucí na místo určení.
Začátek akce – pátek
Uvítací balíček ve složení RedBull, KitKat, Energy bonbony a žvýkačky mi z počátku připadá úsměvný, ale už za pár hodin jsem ho velice ocenil. Díky pozdějšímu příchodu na mě a mé kolegy zbývá první řada. Pro moji stydlivou povahu naprosto ideální. Přednášky probíhají v rychlém sledu jedna za druhou, všechny technologie vypadají dobře. Dokonce i to Rko a Vertica z Oďinovy přednášky mají něco do sebe. Následují data a nápadité prezentace dodavatelů “znalostí”, kteří si dali velkou práci, aby přinesli super data a nalákali pokud možno co nejvíce týmů.
Moji favorité: BigML, Keboola, GoodData + Energomonitor, CSS a 1188
Rychlá prezentace nápadů a hned první prezentující, který chtěl zpracovávat 1188 přes Ruby a GoodData mě zaujal. Jeho pološílený pohled, který vykazuje 250 % nadšení ještě před začátkem eventu ve mně zanechává značnou stopu a po jeho prezentaci ho jdu přímo oslovit. Na naprosto dementní otázku, zdali nevadí, že neumím Ruby ani GoodData zachovává velký úsměv a chlácholí mě, že to vůbec není potřeba. Ještě to zapsat na tabuli a už je to oficiální – jsme v týmu se samými borci: GoodData masteři, člověk harvestující český internet, nadšenec co pozná kytku i na 100 kilometrů a také i náš malý kolektiv korporátních krys.
Plán je celkem jasný – vyhnout se Cloud Connectu a naládovat data do GoodData pomocí nového Ruby API. Honza Císař nám nadhazuje svoji představu architektury, vysvětluje nám celou GoodData platformu a hned je vše o něco jasnější. Nadhazuji pár dotazů a najednou jsme doma – problémy s časovou dimenzí, uložení dat na fyzické vrstvě… všechno co znám ze “svého” písečku se nějak řeší i tady. Svitla mi naděje, že možná nebudu takový nýmand, jak jsem si myslel.
Zatím zkoumáme technologie a já si pokoutně hraji ještě s BigML – hračkou, která na videu vypadala naprosto intuitivně a mocně. V nejbližších hodinách ale poznám na vlastní kůži, že od promo videa do reality je hodně daleko. Dlouho do noci zkoumám jak do nástroje nahrát data tak, abych dostal odpovídající výstup. Čtyři tabulky, jednoduchý join – ale neuspěji a kaju se, že jsem na tom zabil čas.
Hodiny ukazují tři hodiny ráno a já lituji rozhodnutí nebrat si spacák… mě to tady prostě baví!
S velkým očekáváním ale nahazuji Liftago a hrdě ho ukazuji všem kolem. Bohužel taxikářům se ve tři ráno evidentně nechce moc zajíždět do opuštěnějších částí Prahy a tak až napotřetí se mi dostane odpověď a po chvíli i kýžené taxi. Přijíždím domů, rychlá sprcha, budík na 4 hodinky spánku a už jen temnota…
Konečně jsem prozkoumal datasety!
Sobota
Zpráva dne: Radek nespal a jede nonstop. Ostatní se kolem deváté scházejí a rozhodujeme se pro největší slepou uličku: použití BigQuery od Google. Ideou bylo naládovat vše do BigQuery, provést tam joiny a transformace a pomocí Cloud Connectu data přenést do GoodData.
Loady se daří, bohužel následné propojení s Cloud Connectem už méně a tak vytahujeme záložní řešení ve formě natažení polosurových dat z BigQuery na lokální stroj a pak zpět do GoodData přes CC. To ale není úplně ten správný use-case, který v Googlu zamýšleli a tak se nám data daří vytáhnout až po desítkách minut. Díky Radku!
Využívám chvilku času a pomocí DataStage si upravuji vstupní data tak, abych je mohl projet v BigML. Padákův výraz v obličeji, když vidí použitý nástroj a jeho výrobce se nedá popsat slovy. Nakonec se daří, data loaduji, ale další customizace BigML oproti tomu co vývojáři zamýšleli je nemožná. Nadobro tak opouštím nástroj, do kterého jsem vkládal velké naděje. Lenka mezitím vyšvihla několik analýz v SPSS, včetně predikce konce 1188 a dalších důležitých zjištění.
Konečně jsou data nahrána, model díky GoodDaťákům postaven a můžeme si začít hrát. Vytahuji svůj první report, klikám a experimentuji. Lenka mě následuje a pokouší se replikovat alespoň základní analýzy z SPSS v GoodData. Intuitivně se snaží o sto šest, ale ani s pomocí Jirky se nedaří. Já si mezitím klikám svoje reportíky, šťastný jak veverka na podzim.
Lenka chce svůj histogram: místní GoodData support už eskaloval problém na L3. Miky se nevzdává, vytahuje funkce v raném stádiu vývoje, ale stále se nedaří dosáhnout výsledku podle našich představ. Půlnoc už je dávno za námi, mozek už nepracuje a ze zoufalosti používám názvy jako dummy_one_konstanta, honzikova_krutoprisna_metrika a honzikuv_kulervouci_fakt – doufaje že to třeba začne fungovat.
Nezačalo.
Přichází Jamón master, zajímá se co děláme a podporuje nás pravidelnými dodávkami šunky a cideru. Nakonec nás ukecá na krátký oddych a nad několika dalšími cidery a spousty šunky si vyměňujeme zkušenosti s ostatními a dozvídáme se spousty zajímavých věcí. Ještě trochu hrátek s GD Reporty a před čtvrtou hodinou ranní opouští naše skupinka kódovací openspace – jako poslední.
Neděle
Po necelých čtyřech hodinách spánku už nemůžu dospat a šťouchám do Lenky, že už přeci musíme jít dělat na projektu. Záhy zjišťuje, že jí jen tak nedám pokoj, přestane předstírat spánek a za doprovodu nesrozumitelných nadávek vstává a společně vyrážíme ke strojům. K mému překvapení jsme na openspace první. Blesková snídaně a už mě začíná chytat nervozita z blížící-se třetí hodiny, kdy máme prezentovat naše výsledky.
Ostatní dorážejí a dotahujeme představy o naší prezentaci. Na poslední chvíli mě napadají reporty, které jsou čím dál tím lepší. Právě jsem se totiž oprostil od zkoumání “jak to udělat“, k uvědomění “co chci udělat“. To ještě samozřejmě neznamená, že jsem schopen je udělat… Maximálně experimentuji, GD servery jedou na 100 % a občas se mi vyrenderuje graf, který by si co do vzezření nezadal s pákistánským ručně dělaným běhounem. Jirka zatím ještě ochotně pomáhá, i když jsem bezkonkurenčně nejvíce otravný účastník EDH.
Jirka se snaží schovat do jiných částí objektu, ale má to marné – vždycky ho najdu. Zas a znova, třikrát do hodiny. Konečně pochopil, že narazil na šílence a upravuje svoji taktiku – začíná mi ukazovat ty nejkrásnější funkce, které jsem kdy v reportingu viděl. Ale čas utíká a já je nejsem schopen všechny implementovat, perfektně odladit, natož ještě vměstnat do naší 7 minutové prezentace. To prostě není fér!
Závěrečná prezentace se blíží, finalizujeme dashboardy, všichni dodali to nejlepší, co se jim podařilo za celý víkend udělat – ať už je to RF analýza, manažerský report, nebo graf trendů v tématech otázek. K tomu navrch odpočet ke dni, kdy počet hovorů na linku 1188 dosáhne nuly. Prý je tento predikční model spolehlivý tak na dva týdny – což jsme překročili jen o nějakých 170 týdnů.
A jdeme na to, závěrečná prezentace pro docela slušný dav – což by nebyl takový problém. Ale ta obrovská kamera v první řadě, ještě větší postava Miloše Čermáka a připravený notýsek Honzy Sedláka – to už v mých očích docela problém byl.
Oďin se podíval na data od Avastu a naprosto epesní metodou došel ke kostelu svaté Panenky Marie a ultimátní odpovědi 42. Laťka je hodně vysoko.
Jdeme na to – rychlý úvod, představení, nějaký ten vtípek – ale publikum je pravděpodobně díky probdělému víkendu hodně statické. Lenka ale vytahuje statistiku, zmiňuje reálné dopady do businessu zákazníka a publikum si toho všímá. Závěrečné shrnutí a death clock pro 1188 sklízí úspěch a máme hotovo. That’s it – skoro je mi až líto, jak jsme celý víkend scukli do pár minut. Tolik úsilí, tolik vědomostí – ale kdo si to nevyzkouší, nepochopí.
Ostatní prezentují svoje výsledky – týmy těžící z CSS a Geewa přinášejí konkrétní věci v pěkné formě. Super! Tým Energomonitoru má dvě samostatné prezentace. Ondrova je o něco živější, druhá je o něco popisnější. Zde nutno ocenit Mr. Spocka, že byl s týmem téměř celý víkend a nepochybuji o tom, že to bylo rozhodně přínosem.
U některých prezentací mi přišlo líto, že obsah převážil nad formou, nebo naopak. Přišlo mi, že někteří účastnící si podkopávají nohy sami – strávili hodně dlouhou dobu nad nelehkými daty, přišli na zajímavé věci. Ale potom je dobře odprezentovat, pokusit se je napasovat na klientský business – to není jen třešnička na dortu, to je přeci to o co tu jde! A na těch pár minut prezentace na konci to přece všechno leží.
A je to! Organizátoři odvedli lví práci na sehnání a přípravě dat, technologií a podpora i v průběhu hackathonu byla příkladná. Za takovouhle akci by se mělo platit zlatem.
21. 10. 2014
Lenka konečně ohýbá funcionalitu GoodData natolik, že se ji podaří vytvořit histogram… Po 4 dnech usilovné práce :)