BigQuery - Felipe Hoffa v Praze

25. května 2014

Ve čtvrtek se ze SF přijel do Prahy podívat Felipe Hoffa a jeho message byla jasná: Chcete-li si hrát s většími daty, zkuste BigQuery. Možná ani v samotném Google většina lidí netuší, jak velká je jejich infrastruktura. Mohou to být jednotky až desítky milionů serverů, které zpracovávají, ukládají a poskytují data. Většinu problémů, na které Google narazí, nikdo jiný předtím v podobném měřítku neřešil a nejinak tomu je s analýzou dat samotných. Technologie řešící problémy s distribuovaným paralelním zpracováním dat Google vyvíjí už více než deset let. Na začátku to byl MapReduce, který je dnes doplněn o Dremel, který se zase stal základem pro BigQuery. V nižších vrstvách infrastruktury je to NewSQL DB Spanner, která je nástupcem původní BigTable a Colossus, nový souborový systém po GFS. Pro ilustraci, jaké problémy Google řeší ve své infrastruktuře, doporučuji veselé příběhy kolem přestupné vteřiny a povídání Googlu o tom, jak synchronizovat čas v DB obepínající celou planetu. I přesto všechno výše uvedené, je samotné používání BigQuery poměrně jednoduché - stačí Google účet, funkční platební karta a znalost SQL. Load dat a spouštění queries přes webové rozhraní je pořád trochu bolestivé, s použitím se počítá spíše v dávkách přes API. Pokud si i přesto budete s BQ hrát spíše ručně, Felipe doporučoval extension do Chrome od Streaku. Novinky v pricingu a vysvětlení, jak fungují JOIN EACH a GROUP EACH BY vysvětluje Padák na svém blogu Felipe Hoffa - Jedenáct věcí, co stojí za vypíchnutí. Pro mě bylo nejzajímavější zapojení JavaScriptu přímo v BQ pro složitější matematické funkce a pak propojení BQ s Google Analytics Premium, které umožní psát standardní SQL dotazy nad daty z webu v nejnižší možné granularitě. Po letmých zkušenostech se zpracováváním dat z GA v MySQL, kdy komplexnost a velikost udržovaných dát závratně stoupala s počtem uživatelských dimenzí, či nutnosti udržovat "unique *" metriky ve všech variantách pro každý den, vidím v tomhle kroku velkou motivaci mnoha firem nejen přejít na GA Premium, ale i k zapojení BQ do stávající infrastruktury. Z databází, které jsou dnes k hraní přístupné přímo v BigQuery, je nejzajímavější httparchive mapující vývoj Webu, či GDELT, masivní DB obsahující čtvrt miliardy událostí za posledních 35 let, ve kterých lze analyzovat globální trendy jako jsou třeba protesty v zemích po celém světě. Na otázku ohledně existence seznamu všech volně dostupných databází Felipe odpověděl redditem a diskuzákem BigQueri.es, kde je (snad kromě obligátního stackoverflow) v současné době asi nejsilnější komunita. Jako jednoho z větších uživatelů BigQuery Felipe zmínil třeba nedávnou prodanou Motorolu. Co přesně tam analyzovali se mi zjistit nepodařilo, našel jsem jenom prezentaci Reporting ať Motorola, která toho zas tolik zajímavého neříká... Z Felipeho prezentace bych ještě vypíchl slide s korelacemi (36) a otázku, jestli bude k dispozici link mezi BQ a Google Prediction API, na kterou Felipe odpověděl ve stylu "that would be really nice but not yet..." :) Pokud si chcete začít hrát, nemůže to být už o mnoho jednodušší. V Čechách navíc nebudete první, poměrně velké zastoupení měli v zasedačce třeba Futurelytics , Netmail nebo Keboola, takže je se koho ptát a od koho se učit. GA Premium tu už taky pár firem zakoupilo a do budoucna tuším právě v propojení GAP s BQ velmi zajímavé pracovní příležitosti napříč trhem. A pokud během práce s s BigQuery přijdete na něco opravdu zajímavého, neváhejte pingnout Felipeho přes twitter, třeba Vás pozve do vysílání stejně, jako to udělal s australskými Shine Technologies...