Enterprise data #hackathonbi

- Má to 4.000 sloupců, pokud máš v čem, můžeš to začít zpracovávat.
- A zkoušeli jste to transponovat?
- Miliardu řádků?


O víkendu se v TechSquare pod taktovkou Kebooly (Pavel už je její pevnou součástí) uskutečnil 1. ročník Enterprise Data Hackathonu. Navždy to bude "ten první ročník v TechSquare, jak nás tam bylo jenom 200, mohl ses nechat namasírovat a krájel si šunku tak dlouho, dokud jsi netrefil 50g".
Organizace bez výjimky skvělá (Petra např. na sobotní oběd zajistila Anděl Catering, kteří nejenže udělali výborný citrusový Stroganoff, ale se svým velmi prozákaznickým a osobitým přístupem mi k tomu neváhali místo rýže dát smažené žampiony a nakydat andaluskou omáčku, což se mi na podobné akci stalo snad poprvé), Techsquare se pro mě stal místem první volby pro pořádání podobných akcí.

Datasety - vše ke stáhnutí na GitHubu.

Zabalené to má 300MB, rozbalené 28GB.

Datasety měly většinou jeden či dva zásadní problémy. Buďto byly dost špinavé (chyby v nested JSONech se opravují krapet špatně) nebo byly příliš dobře anonymizované (litr Naturalu stál 175 Kč) což znemožňovalo jejich smysluplnou interpretaci.

Hackathon se proto pro několik opravdu pracujících teamů proměnil v čištění dat, řešení chybějících referenčních integrit a pokusů o dešifrování nedešifrovatelného. Na jednu stranu chápu strach korporátních datařů o data svá a svých klientů, na druhou stranu absence "normálních" datasetů na hraní znemožňovala prvotní ozkoušení nástrojů, které člověk předtím nikdy neměl v ruce, na něčem normálním, co by dávalo na první dobrou smysl.

Je ale dost možné, že například parta kolem Honzy Císaře si poradila se vším a dotáhla to do zdárného konce - v neděli během vyhlašování už jsem byl jinde.

Nástroje

Celé jedno odpoledne jsem strávil mazlením se s Chart.io, které se mi odměňovalo snad všemi chybovými hláškami, které si datový nástroj může vymyslet. Původně jsem si myslel, že se konečně objevil důstojný soupeř ke GoodData (minimálně cena kolem 3k USD/mo by tomu odpovídala), ale nakonec jsem byl spíše zklamán a rozčarován. Hlavní výhoda, a to možnost začít skládat reporty přímo v SQL bez jasné definovaného modelu nad mnoha DB najednou, se může jednoduše stát největší pastí. GoodData posunula "vlastnictví" dat a odpovědnost za reporty směrem k jejich konzumentům (lidem ze sales a marketingu) a umožnila jim si drtivou většinu opravdu základních věci samostatně naklikat bez pomoci IT, které je do té doby drželo takříkajíc za koule. Chart.io tuhle výhodu vrací skrz SQL zpět k IT a jejich představě o tom, co by měl business vidět.
Oba nástroje se skvěle doplňují, ale nevím kdo má 5k USD/mo na to si je platit oba najednou...

Skvěle bylo vyřešeno rozdávání loginu pro účastníky, které probíhalo přes Slack a umožňovalo každému na jednom z desítek tématických kanálu vyřešit rychle a efektivně jakýkoli problém.

Lidé

Nečekaným bonusem byly prezentace a přednášky. Odin nahodil hodně vtipný úvod do eRka, od Nailera jsem si konečně poslechnul detaily k práci s RedShiftem. Velký palec nahoru ode mne mají lidé pracující s technologiemi kolem SAPu a MS. Jít cokoli prezentovat před bandu ETL trollů vyžaduje opravdu velkou dávku odvahy a trpělivosti...

Každá akce má svá slabší místa, u #hackathonbi jsem je nenašel. Pokud už neteklo pivo, tak to byl aspoň zajímavý quest, který oddálil úplně otupení účastníků o několik hodin, špína v datech zase naučila se sedem i lidi, kteří s ním nikdy nepracovali. Na první ročník hodně dobré.

Příště spíš než hackathon by to chtělo festival - doplňující track přednášek o datech by celou akci posunul o dost dál.