25. května 2014
Ve čtvrtek se ze SF přijel do Prahy podívat
Felipe Hoffa a jeho message byla jasná:
Chcete-li si hrát s většími daty, zkuste BigQuery.
Možná ani v samotném Google většina lidí netuší, jak velká je jejich infrastruktura. Mohou to být
jednotky až desítky milionů serverů, které zpracovávají, ukládají a poskytují data. Většinu problémů, na které Google narazí, nikdo jiný předtím v podobném
měřítku neřešil a nejinak tomu je s analýzou dat samotných.
Technologie řešící problémy s distribuovaným paralelním zpracováním dat Google vyvíjí už více než deset let. Na začátku to byl
MapReduce, který je dnes doplněn o
Dremel, který se zase stal
základem pro BigQuery. V nižších vrstvách infrastruktury je to
NewSQL DB
Spanner, která je nástupcem původní BigTable a
Colossus, nový souborový systém po GFS. Pro ilustraci, jaké problémy Google řeší ve své infrastruktuře, doporučuji
veselé příběhy kolem
přestupné vteřiny a povídání Googlu o tom,
jak synchronizovat čas v DB obepínající celou planetu.
I přesto všechno výše uvedené, je samotné používání BigQuery poměrně jednoduché - stačí Google účet, funkční
platební karta a
znalost SQL. Load dat a spouštění queries přes webové rozhraní je pořád trochu bolestivé, s použitím se počítá spíše v dávkách přes
API. Pokud si i přesto budete s BQ hrát spíše ručně, Felipe doporučoval
extension do Chrome od
Streaku.
Novinky v pricingu a vysvětlení, jak fungují JOIN EACH a GROUP EACH BY vysvětluje Padák na svém blogu
Felipe Hoffa - Jedenáct věcí, co stojí za vypíchnutí. Pro mě bylo nejzajímavější zapojení JavaScriptu přímo v BQ pro složitější matematické funkce a pak propojení BQ s Google Analytics Premium, které umožní psát standardní SQL dotazy nad daty z webu v nejnižší možné granularitě. Po letmých zkušenostech se zpracováváním dat z GA v MySQL, kdy komplexnost a velikost udržovaných dát závratně stoupala s počtem uživatelských dimenzí, či nutnosti udržovat "unique *" metriky ve všech variantách pro každý den, vidím v tomhle kroku velkou motivaci mnoha firem nejen přejít na GA Premium, ale i k zapojení BQ do stávající infrastruktury.
Z databází, které jsou dnes k hraní přístupné přímo v BigQuery, je nejzajímavější
httparchive mapující vývoj Webu, či
GDELT, masivní
DB obsahující čtvrt miliardy událostí za posledních 35 let, ve kterých lze
analyzovat globální trendy jako jsou třeba
protesty v zemích po celém světě. Na otázku ohledně existence seznamu všech volně dostupných databází Felipe odpověděl
redditem a diskuzákem
BigQueri.es, kde je (snad kromě obligátního
stackoverflow) v současné době asi nejsilnější komunita.
Jako jednoho z větších uživatelů BigQuery Felipe zmínil třeba nedávnou
prodanou Motorolu. Co přesně tam analyzovali se mi zjistit nepodařilo, našel jsem jenom prezentaci
Reporting ať Motorola, která toho zas tolik zajímavého neříká...
Z Felipeho
prezentace bych ještě vypíchl slide s korelacemi (36) a otázku, jestli bude k dispozici link mezi BQ a
Google Prediction API, na kterou Felipe odpověděl ve stylu "that would be really nice but not yet..." :)
Pokud si chcete začít hrát, nemůže to být už o mnoho jednodušší. V Čechách navíc nebudete první, poměrně velké zastoupení měli v zasedačce třeba
Futurelytics ,
Netmail nebo
Keboola, takže je se koho ptát a od koho se učit. GA Premium tu už taky pár firem zakoupilo a do budoucna tuším právě v propojení GAP s BQ velmi zajímavé pracovní příležitosti napříč trhem.
A pokud během práce s s BigQuery přijdete na něco opravdu zajímavého, neváhejte pingnout Felipeho přes twitter, třeba Vás pozve do
vysílání stejně, jako to udělal s australskými Shine Technologies...