DropDBase: In-memory databáza s využitím GPU

Problémom v oblasti Big Data je spracovávanie takého obrovského množstva dát v reálnom čase. Požiadavka na rýchle spracovanie veľkých dát býva častokrát v oblasti bankovníctva alebo v niektorých prípadoch dátovej analytiky.

Náš cieľ?

Celkom jasný – vytvoriť najrýchlejšiu databázu na svete.

Ako to celé funguje…

Klasické relačné databázy majú dáta usporiadané v riadkoch tabuľky a tieto dáta sa spracovávajú na procesore. Rýchlejší, ale zároveň zložitejší prístup je organizovať dáta do stĺpcov, kde tieto stĺpce spolu tvoria tabuľku. Tu nastáva problém s preusporiadavaním dát v rámci tabuľky – treba dávať pozor na to, že sa musia preusporiadať všetky stĺpce. Na toto treba myslieť hlavne pri indexovaní. Spracovávanie jednotlivých dopytov sa dá pri stĺpcových databázach ľahšie vykonávať na grafických kartách, ktoré síce majú menej výkonné jadrá oproti procesoru, ale za to ich majú mnohonásobne viac.

Predstavenie projektu DropDBase. Cieľom projektu je vytvoriť najrýchlejšiu databázu na svete. Táto databáza je špecifická tým, že dáta sa počas behu databázy nachádzajú v operačnej pamäti a sú usporiadané v stĺpcoch, ktoré spolu tvoria tabuľku. Databáza je akcelerovaná prostredníctvom grafických kariet.

Tým pádom vieme lepšie využiť silu paralelizmu. Ďalšími úzkymi hrdlami sú pevné disky a zbernica. Zvolili sme prístup mať všetky dáta v operačnej pamäti a dáta, ktoré sa spracovávajú sa nakopírujú do video pamäte grafických kariet. Kopírovanie dát je stále veľmi časovo náročná operácia, najmä, keď každá milisekunda výpočtu je dôležitá. Preto sa snažíme znížiť potrebu kopírovania – robíme caching (prostredníctvom Least Reccently Used algoritmu) medzivýsledkov vo video pamäti grafických kariet.

DropDBase: In-memory databáza s využitím GPU 4 — Architektúra projektu – databáza spolu s prepojením na webový frontend prostredníctvom aplikačného servera.

Porovnanie rýchlosti s konkurenciou

Pre porovnanie sme zvolili databázu, ktorej dopyty sa spracovávajú na procesore – Microsoft SQL, avšak s nastavením Column Store. A ako druhého protivníka sme zvolili v súčasnosti najznámejšiu databázu akcelerovanú grafickými kartami – MapD (OmniSci). Naša databáza je ešte stále vo vývoji a predpokladáme, že v najbližších týždňoch prekonáme MapD (vyvíjame indexovanie dát a ich kompresiu kvôli priepustnosti zbernice).

Operačný systém	Ubuntu 18.04
Procesor	AMD Ryzen Threadripper 2950X 16-Core Processor 3.50 GHz
Grafické karty	2x NVIDIA GeForce GTX 1080 Ti
Operačná pamäť (RAM)	128 GB DDR4 3000 MHz

Hardvér a softvér servera, na ktorom boli databázy testované.

	Microsoft SQL	MapD	DropDBase
Prvý dopyt	12885 ms	50128 ms	545 ms
Druhý dopyt	300 ms	47 ms	61 ms

Porovnanie rýchlostí prvého a druhého dopytu (druhý dopyt využíva cache). Dopyty boli vykonávané nad 1 miliardou riadkov dát.

Použitie databázy na dátovú analytiku

Aby sme mohli jasne demonštrovať výhody nášho riešenia, vytvorili sme aj webový frontend, ktorý umožňuje používateľovi zvoliť si jednotlivé filtre (a tým vyskladať dopyt do databázy) a následne vidieť prepočítavanie údajov v reálnom čase.

DropDBase: In-memory databáza s využitím GPU 6 — Ukážka jednej zo stránok webového klienta.

Technológie

V projekte používame nasledovné technológie a programovacie jazyky:

C++
C#
CUDA
CMake
Antlr 4
Google Protocol Buffers
Angular
Leaflet
Chart.js
Bootstrap
ASP.NET

Niečo o nás

Sme tím 8 študentov FIIT STU a na tomto projekte pracujeme v rámci školského predmetu v spolupráci s firmou Instarea. Našim pedagogickým vedúcim je Ing. Marek Lóderer.

DropDBase: In-memory databáza s využitím GPU 8 — Členovia tímu (zľava doprava): Bc. Nikolas Hamran, Bc. Andrej Fúsek, Bc. Martin Petráš, Bc. Alexandra Smolová, Bc. Veronika Včelková, Bc. Martin Staňo, Bc. Dávid Kubík, Bc. Jakub Veselý

Sleduj nás na LinkedIn-e

DropDBase: In-memory databáza s využitím GPU

Náš cieľ?

Ako to celé funguje…

Porovnanie rýchlosti s konkurenciou

Použitie databázy na dátovú analytiku

Technológie

Niečo o nás

PREDVYBRANÉ PRACOVNÉ PONUKY »

Odporuč nám kamaráta a pomôžeme mu spolu!

NAJNOVŠIE BLOGY

PyData Slovakia [PyDataSK] a Národné superpočítačové centrum [NSCC] oznámili spoluprácu a pozývajú na v poradí 30. PyData Slovakia Meetup už tento týždeň

Získajte až 1000 € na vzdelávanie, ktoré Vám pomôže lepšie sa udržať a uplatniť na trhu práce!

Startup Weekend Žilina: Zaži víkend, kde sa mení budúcnosť!

Čítaj ďalej:

Služby

Informácie

Sleduj nás