Mi az a big data? Mire használjuk jelenleg?
– A klasszikus – a Gartner elemző cégtől származó – definíció szerint big datáról akkor beszélünk, amikor nagy mennyiségű, nagy sebességű (azaz valós idejű, folyamatosan érkező) és nagy változatosságú (vagyis sokféle tartalmú és formátumú) adattal dolgozunk.
Hogyan lehet alkalmazni? Mire való egyáltalán?
– A big data fontossága nem abban rejlik, hogy mennyi adatunk van, hanem abban, hogy mire használjuk. Utóbbi minden szervezet vagy üzleti vállalkozás esetében eltérő lehet, de általánosságban elmondható, a fő cél, hogy az adatok elemzésével olyan válaszokat találjunk, amelyek lehetővé teszik a költségek, a folyamatok és a feldolgozási idő csökkentését, új termékek, szolgáltatások kifejlesztését, a kínálat optimalizálását, a jobb döntéshozatalt.
Mikorra tehető ennek a folyamatnak a kezdete?
– A big data feldolgozása és elemzése a mai értelemben véve 2005 óta létezik, Roger Mougalas (O'Reilly Media) ekkor használta először a kifejezést, nem sokkal azután, hogy cége megalkotta a Web 2.0 fogalmát, ami a közösségekre építő internetes szolgáltatásokat takarja. Szintén ebben az évben hozta létre a Yahoo! a Hadoopot, amit azóta számos vállalat használ hatalmas mennyiségű adat kezelésére. Az ezt követő években napról napra egyre több adatot generáltunk, ehhez alkalmazkodva pedig a vállalatok is megkezdték a különféle big data-megoldások implementálását.
Mi jellemzi? Milyen részei vannak? Hogyan áll fel a rendszer?
Az ilyen adathalmazok meghaladják a hagyományos adatbázis-kezelő rendszerek képességeit, így a big data új technikák, eszközök, illetve technológiák iránt teremtett igényt, és amire egyebek között a gépi tanuláson alapuló technológiák, az üzleti intelligencia (BI), valamint a felhőalapú számítástechnika a válasz.
Okozhat problémát a jelenléte?
– A big data megjelenése és térhódítása kétségkívül felvet néhány kihívást, amelyek potenciális problémaforrások lehetnek, ha rosszul kezeljük őket. Ilyen például az adatvédelem kérdése. Milyen adatokat gyűjthetünk és tárolhatunk a felhasználóinkról? Bizalmasan kezeljük-e a begyűjtött adatokat? Ezzel kapcsolatban sorra hozzák a kormányok a különböző szabályozásokat. Az utóbbi időben talán a legátfogóbb ilyen rendelkezés az Európai Unió által bevezetett GDPR. Ezen kívül technikai szempontból is akadályokba ütközhetünk, például a hatékonyság terén, hiszen méreténél fogva igen nehéz az adathalmazunkkal úgy bánni, hogy az az üzleti igényeknek, elvárásoknak megfeleljen.
Mi köze a big datának a mezőgazdasághoz? Mire használhatjuk ott ezt a dolgot?
Gondoljunk csak a szenzorokkal felszerelt munka- és erőgépekre, a műholdfelvételekre, a drónfelvételekre, a topográfiai adatokra, a meteorológiai tény- és előrejelzés-adatokra, vállalatirányítási rendszerekből származó pénzügyi adatokra. Mindezek együtt olyan adathalmazt alkotnak, amely mind méretét, mind összetettségét tekintve illeszkedik a big data kereteibe, érdemi elemzésükhöz pedig big data-megoldásokra van szükség. Néhány példa, mire is használhatjuk ezeket a komplex elemzéseket:
• Hozamoptimalizálás
A big data-rendszerek az eddiginél sokkal pontosabb és részletesebb adatokat szolgáltatnak a csapadékmintázatokról, a vízciklusokról, a növénykultúra állapotáról, műtrágyaigényéről, egyebekről. Ez a mezőgazdasági vállalatok számára okos döntések meghozatalát teszi lehetővé, például azt, hogy az egyes területeken milyen hibridet vessenek, milyen műtrágyát használjanak, és hogy ezeket hogyan alkalmazzák differenciáltan a nagyobb hozam és az optimális jövedelmezőség érdekében.
• Növényvédő szerek etikus használata
A növényvédő szerek alkalmazásának szoros figyelemmel kísérésével a gazdák könnyebben betarthatják a kormányzati rendeleteket, és elkerülhetik a vegyi anyagok túlzott felhasználását az élelmiszer-előállítás során.
• A mezőgazdasági eszközök optimalizálása
Ma már vannak olyan erő- és munkagépek, amelyek beépített érzékelőkkel folyamatosan gyűjtik a felhasználási adatokat, és továbbítják őket egy big data-platformra. A gépüzemi adatok részletes elemzése segíti a munkagépflották jobb kezelését: a gazdaságoknak mindig naprakész információ áll rendelkezésére a gépek kihasználtságáról, rendelkezésre állásáról, a szervizek esedékességéről vagy akár a nem megfelelő üzemeltetés miatti riasztásokról.
Mi a big data jövője? Van határa az adatok folyamatos gyűlésének?
– A big data jövőjével kapcsolatban számos jóslatot és előrejelzést hallani, de csak annyit tartok biztosnak, hogy
Az IDC előrejelzése szerint 2025-re mintegy 463 exabyte, azaz 463 milliárd gigabájtnyi adatot generálunk naponta!
– Az adat általában számokat, karaktereket, szimbólumokat foglal magába, amelyeket rendszerint emberek vagy gépek értelmeznek, mivel önmagukban nincs különösebb jelentésük. Ezzel szemben az információ már feldolgozott, tehát értelmezett adatokon alapul, strukturálva van, illetve adott kontextusban kerül megjelenítésre, tehát jelentéstartalommal bír. A kettő közötti kapcsolat ezek alapján a feldolgozás folyamata, amely során a nyers adatból jelentéstartalommal rendelkező információ lesz.
Milyen módokon lehet összefüggéseket keresni különböző adatkomponensek között?
– Az adatfeldolgozás egyik fontos lépése, hogy a különböző forrásból származó információkat közös dimenziók mentén tároljuk, ami lehetővé teszi összefüggések keresését komplex statisztikai algoritmusokkal.
Mindez akkor lehetséges, ha a geokoordináták alapján egymáshoz tudjuk rendelni az egyazon táblához tartozó betakarítási, anyagkijuttatási, meteorológiai és egyéb adatainkat.
Big databól big information… Ez mit takar?
– Ez a kifejezés elsőre azt sejteti, hogy a sok adat egyben sok információ is. Azonban ahhoz, hogy ez igaz legyen, a rendelkezésünkre álló adatmennyiséget megfelelően kell kezelni és feldolgozni, hiszen csak így kaphatunk releváns érdemi információkat, amelyek valóban elősegítik üzleti problémáink megoldását, illetve a hatékony döntéshozatalt. Megfelelő technológiák hiányában tehát az óriási adathalmaz mit sem ér, viszont ha megvannak az eszközeink hozzá, akkor aranyat érő tudásnak jutunk a birtokába.