Menü
Ingyenes
bejegyzés
itthon  /  TOVÁBB/ Mi az a Big Data? Nagy adatok a modern világban Nagy adatelemző rendszerek.

Mi az a Big Data? Nagy adatok a modern világban Nagy adatelemző rendszerek.

Volkova Yulia Sergeevna, 4. évfolyamos hallgató, Pénzügyi Egyetem az Orosz Föderáció Kormánya alatt, Kaluga fióktelepe, Kaluga [e -mail védett]

Nagy adatok a modern világban

Absztrakt: A cikk a Big Data technológiák modern társadalmunkban való megvalósításáról szól. A Big Data fő jellemzőit megvizsgálják, figyelembe veszik a fő alkalmazási területeket, például a banki, kiskereskedelmi, a magán- és az állami szektort, sőt a mindennapi életet is. A tanulmány feltárta a Big Data technológiák használatának hátrányait. A Big Data használatára vonatkozó normatív szabályozás kidolgozásának szükségességét jelzik Kulcsszavak: Big Data, bankok, banki szolgáltatások, kiskereskedelem, magánszektor, közszféra.

Ahogy növekszik az információs technológiák beépítésének mértéke a modern társadalom különböző területein, az igények az alkalmazkodóképességükre a hatalmas adatmennyiséggel járó új problémák megoldására is nőnek. Vannak olyan információk, amelyek nem feldolgozhatók hagyományos módon, beleértve a strukturált adatokat, a médiaadatokat és a véletlenszerű objektumokat. És ha a ma létező első technológiák elemzésével nehezebb megbirkózni, akkor a második és a harmadik elemzése gyakorlatilag lehengerlő munka. Tanulmányok azt mutatják, hogy a számos archívumban és felhőben tárolt médiaadatok, például a videomegfigyelés, légi fényképezés, digitális egészségügyi információk és véletlenszerű objektumok mennyisége évről évre növekszik. A hatalmas adatmennyiség globális folyamatmá vált, és Big Data -nak hívják . Külföldi és orosz tudósok munkái egyaránt a Big Data tanulmányozásának szenteltek: James Manyika, Michael Chui, Toporkov V.V., Budzko V.I. A jelentős globális vállalatok, mint például a McKinsey & Company, a СNews Analytics, az SAP, az Oracle, az IBM, a Microsoft, a Teradata és még sokan mások jelentősen hozzájárulnak ennek a technológiának a tanulmányozásához. Feldolgozzák és elemzik az adatokat, valamint szoftver- és hardverrendszereket hoznak létre a Big Data alapján. A McKinsey Institute jelentése szerint: "A Big Data olyan adatkészlet, amelynek mérete meghaladja a rögzítési, tárolási, kezelési és adatok elemzése. " A big data fogalma lényegében azt jelenti, hogy hatalmas mennyiségű és változatos összetételű információval kell dolgozni, folyamatosan frissítve és különböző forrásokban elhelyezve a hatékonyság növelése, új termékek létrehozása és a versenyképesség növelése érdekében. A Forrester tanácsadó cég tömör és meglehetősen érthető megfogalmazást fogalmaz meg: „A big data ötvözi azokat a technikákat és technológiákat, amelyek a gyakorlatiasság legmagasabb határain belül kinyerik az adatok jelentését.” Ma a Big Data szférát a következő jellemzők jellemzik: Hangerő - a felhalmozott adatbázis nagy mennyiségű információ .Velocity - sebesség, ez a jel az adatok felhalmozódásának növekvő arányát jelzi (az információk 90% -át az elmúlt 2 évben gyűjtötték össze). a strukturált és strukturálatlan többformátumú információk egyidejű feldolgozásának lehetősége. A marketing szakértők szívesen hozzáadják a V -jüket ide. Egyesek a valóságról is beszélnek, mások hozzáteszik, hogy a big data technológiáknak minden bizonnyal értéket kell adniuk az üzletnek. Várhatóan 2020 -ra a bolygón felhalmozott információmennyiség kétévente megduplázódik. Az adatok bősége miatt elemzésre és előrejelzésre szeretné használni. Az óriási mennyiségek megfelelő technológiákat igényelnek. A vállalatoknak manapság hatalmas mennyiségű adatot kell feldolgozniuk, nehezen elképzelhető mennyiségben, ez azt eredményezi, hogy a hagyományos adatbázisok nem tudnak megbirkózni egy ilyen feladattal, és ez a Big Data technológiák bevezetésének szükségességéhez vezet. A táblázat a Big Data és a hagyományos adatbázisok összehasonlító jellemzőit mutatja be. A táblázat kialakításának alapját V. I. Budzko és a moszkvai tőzsde kutatásai képezték. 1. táblázat A big data és a hagyományos adatok összehasonlító jellemzői

Hagyományos adatbázisok Big Data Applications

Egy vagy több alkalmazási terület A Big Data technológiák hatóköre hatalmas. A vásárlói preferenciák azonosításától a kockázatelemzésig Adatjellemzők Csak strukturált adatok Hatalmas mennyiségű információ, összetett heterogén és / vagy nem definiált struktúrával Adattárolási módszer Központosított Decentralizált Adattárolási és -feldolgozási modell Függőleges modell Vízszintes modell A feldolgozandó információk száma Gigabájttól (109 bájt) terabájtig (1015 bájt) 1015 bájt) (1015 bájt) Például a hagyományos adatbázisok hatóköre csak egy vagy több lefedettséget tartalmaz, míg az ilyen területeknek csak strukturált adatokat kell tartalmazniuk. Ami a Big Data -t illeti, alkalmazásuk hatóköre kiterjedt, hatalmas mennyiségű, összetett szerkezetű információval. A 1. ábrán bemutatott СNews Analytics kutatás eredményei szerint az orosz piac olyan jelenséghez érkezik, mint a Big Data , ami a vállalatok érettségi szintjének növekedését mutatja. Sok vállalat a feldolgozott adatok mennyisége miatt vált át a Big Data technológiákra, már most több mint 44% -uk mintegy 100 terabájtot generál, és 13% -uknál ezek az adatmennyiségek meghaladják az 500 terabájtot.

1. ábra. A vállalatokban feldolgozott információk mennyisége

Az ilyen kötetek nem dolgozhatók fel hagyományos adatbázisokkal, ezért az ilyen vállalatok nemcsak a nagy volumen feldolgozásának látják a megoldást a Big Data -re való áttérésre, hanem a versenyképesség növelésére, a termékeik iránti lojalitás növelésére és újak vonzására is. Az ilyen megoldások legaktívabb vásárlói a bankok, a távközlés és a kiskereskedelem, százalékos arányukat a 2. ábra mutatja. Kevésbé észrevehető azoknak a vállalatoknak a száma, amelyek a közlekedési, energetikai és ipari szektorban nagy adatot használnak vagy készek használni. Az első példák a big data használatára a közszférában jelentek meg.

2. ábra. A Big Data használatának iparági felépítése

Ami a nyugati kormányt illeti, a digitális gazdaság a becslések szerint a G20 -országok GDP -jének 3–21% -át teszi ki. Az orosz közszféra még nem ért el jelentős eredményeket a big data -val való munkában. Ma Oroszországban az ilyen technológiákat elsősorban a kereskedelmi vállalkozások érdeklik: kiskereskedelmi láncok, bankok, távközlési vállalatok.Az Orosz Szövetség az elektronikus hírközlés szerint az Orosz Föderáció digitális gazdaságának volumene csak 1 billió. dörzsölés. -a GDP 1,5% -a. Ennek ellenére az URF óriási potenciállal rendelkezik a digitális gazdaság növekedésében.A nagy adatszektor rövid élettartama ellenére már léteznek becslések ezeknek a technológiáknak a tényleges felhasználásáról valós példák alapján. A bankok ma átlagosan körülbelül 3,8 petobájt adatot dolgoznak fel, Big Data technológiákat használnak bizonyos feladatok eléréséhez:  adatok gyűjtése a hitelkártyák használatáról;  adatok gyűjtése a biztosítékokról;  adatok gyűjtése a hitelekről; 44% 16% 13 % 7% 20% Bankok Távközlési kiskereskedelmi közszféra Egyéb • Ügyfélprofil -adatok gyűjtése • Adatok gyűjtése az ügyfelek megtakarításairól A bankok azt állítják, hogy mióta elkezdték használni a Big Data technológiákat, képesek voltak új ügyfeleket vonzani, és jobb kapcsolatot ápolni új és régi ügyfelekkel egyaránt , és megőrzik lojalitásukat. 2015 -ben a CNews Analytics felmérést végzett a harminc legnagyobb orosz bank között a teljes vagyon alapján, hogy megtudja, milyen big data technológiákat használnak és milyen célokra. A 2014 -es felméréshez képest nőtt a 30 legnagyobb, nagy adatforgalmat használó bankok száma, de ez a változás nagyobb valószínűséggel a top 30 összetételének megváltozása miatt következik be. A 3. ábra összehasonlítja a 2015 -ös és 2014 -es felmérést A. Kirjanova felmérése alapján.

Rizs. 3. A Big Data használata a legjobb 30 orosz bankban

Az IBS becslései szerint a pozitívan válaszoló bankok 80% -a bevezeti a Big Data Appliance szoftvert és hardvert az adatok tárolására és feldolgozására. Ezek a megoldások általában analitikai vagy tranzakciós tárolóként működnek, amelyek fő előnye a nagy teljesítményű, nagy adatmennyiséggel történő munkavégzés, de az orosz bankokban a big data használatának gyakorlata még gyerekcipőben jár. Az oroszországi ilyen lassú alkalmazkodás oka az ügyfél -informatikusok óvatos hozzáállása az új technológiákhoz. Nem bíznak abban, hogy a big data technológiák teljes mértékben segítenek a problémák megoldásában, de az amerikai piacon a bankok már 1 exabájtnyi adatot halmoztak fel, ami 275 milliárd mp3 rekordhoz hasonlítható. Az információforrások nagy száma, amelyek közül a klasszikus források megkülönböztethetők:  ügyfelek banki irodákban történő látogatása;  telefonhívások nyilvántartása;  vásárlói viselkedés a közösségi hálózatokon;  információk a hitelkártyás tranzakciókról  és mások. A kiskereskedelem nagy adatokat használ az ügyfelek magatartásának elemzésére, az értékesítési terület útvonalainak megtervezésére, az áruk helyes elrendezésére, a vásárlások megtervezésére és végül az értékesítés növelésére. Az online kiskereskedelemben maga az értékesítési mechanizmus nagy adatokra épül: a felhasználóknak a korábbi vásárlások és személyes preferenciák alapján kínálnak árukat, amelyekről például a közösségi hálózatokban gyűjtenek információkat. Mindkét esetben a big data elemzés segít csökkenteni a költségeket, növelni az ügyfelek lojalitását és nagy közönséget elérni. A vállalatok kereskedelmi potenciáljának fejlődésével a hagyományos adatbázis nem felel meg az egyre növekvő üzleti követelményeknek, ezért a rendszer nem tudja biztosítani a megfelelő részletességet vezetési számvitel. A nagy adatokra áttérve az új technológiák lehetővé teszik az árumozgások kezelésének optimalizálását, az adatok relevanciájának és feldolgozásuk hatékonyságának elérését a vezetői döntések következményeinek felméréséhez, valamint a vezetői jelentések gyors elkészítését. Az összesített adatmennyiség több mint 100 exabájt, míg csak a Walmart használ nagy adatot 2,5 petabájt adat feldolgozásához óránként. Ezenkívül a Big Data technológiák alkalmazásával a működési jövedelmezőség 60%-kal nő, és a Hadoop statisztikái szerint a Big Data bevezetése után az elemzési teljesítmény 120 algoritmus feldolgozására nő, és a nyereség 710%-kal nő. most kezdik felvenni a gőzt, mivel az információfeldolgozási rés nagyon más. Például az online kiskereskedők 18 -szor kevesebbek, mint Kínában, és az online kiskereskedőkben generált teljes adatforgalom 4,5 -szer kevesebb, mint egy Amazon bolt. Ugyanakkor Oroszországban a Big Data -t használó online üzletek száma kevesebb, mint 40 ezer, míg Európában az ilyen üzletek száma meghaladja az 550 ezret. Mi jellemzi az orosz kiskereskedelmi piacot még fejlődő és nem teljesen kialakult formában. Ami a mindennapi életünket illeti, itt is a Big Data technológiákat használják, amelyekre nem is gondoltunk. Naponta 15 millió dal, ami körülbelül 1,5 ~ 2 petabájt, feldolgozza a shazam -ot, egy zenei szolgáltatást világszerte, és akkor a zenei producerek megjósolják a művész népszerűségét. A nagy adatokat a hitelkártya -adatok, például a mastercard és a Visa feldolgozására is használják. Így évente 65 milliárd tranzakciót, 32 millió kereskedő 1,9 milliárd kártyáját használva dolgozza fel a mastercard a kereskedelmi trendek előrejelzésére. Az emberek világszerte minden nap 19 terabájtnyi adatért tesznek közzé olyan közösségi hálózatokat, mint a twitter és a facebook. Feltöltenek és feldolgoznak fényképeket, írnak, továbbítanak üzeneteket stb. Az infrastruktúra a Big Data technológiákból is profitál, a trolibuszoktól a repülőgépekig és rakétákig. Tehát a londoni metróban minden nap körülbelül 20 millió menetet rögzítenek a forgószárnyak, a Big Data technológiákon alapuló elemzés eredményeként 10 különböző epicentrumot azonosítottak, amelyet szintén figyelembe vesznek a metró. Kétségtelen, hogy a különféle interakciókból származó adatok sokfélesége és mennyisége erőteljes alapja annak, hogy egy vállalkozás előrejelzéseket készítsen és finomítson, azonosítsa a mintákat, értékelje a hatékonyságot stb. Mindazonáltal mindennek megvannak a maga hátrányai, amelyeket szintén megfelelően figyelembe kell venni. Annak ellenére, hogy a Big Data használata nyilvánvaló és lehetséges előnyökkel jár, használatuknak vannak hátrányai, amelyek elsősorban nagy mennyiségű információval, különböző hozzáférési módokkal és gyakran elégtelen erőforrás -biztosítási információbiztonsági funkciókkal a szervezetekben. A Big Data technológiák használatával kapcsolatos problémákat a 4. ábra mutatja be.

Rizs. 4. A Big Data használatával kapcsolatos problémák

Mindezek a problémák ahhoz vezetnek, hogy sok vállalat ódzkodik a big data technológiák bevezetésétől, mert amikor harmadik felekkel dolgoznak, maguk is szembesülnek azzal a problémával, hogy olyan bennfentes információkat közölnek, amelyeket a vállalat csak saját erőforrásait felhasználva nem tudott nyilvánosságra hozni. a nagy adatokra épülő technológiák teljes körű megvalósítása érdekében pontosan a jogalkotási szempontnak kell lennie. Most már vannak olyan törvények, amelyek korlátozzák bizonyos típusú személyes adatok gyűjtését, felhasználását, tárolását, de nem korlátozzák teljesen a big data -t, ezért speciális jogszabályi normákat kell előírni rájuk. A gyorsan változó és új jogszabályoknak való megfelelés érdekében a vállalatoknak először le kell számolniuk a vonatkozó szabályozási jogi aktusokat, és rendszeresen frissíteniük kell ezt a listát. Mindazonáltal, a fent felsorolt ​​hiányosságok ellenére, amint azt a nyugati képviselők tapasztalatai is mutatják, a Big Data A technológiák segítik a sikeres megoldást, mind a modern üzleti feladatokat, mind a versenyképesség növelését, mind az emberek életével közvetlenül összefüggő feladatokat. Az orosz vállalatok már a Big Data technológiák bevezetésének útján állnak mind a termelési, mind a közszférában, mivel az információmennyiség minden évben majdnem megkétszereződik. Idővel életünk számos területe megváltozik a Big Data hatására.

Hivatkozások forrásokra 1.BudzkoV. I. A magas rendelkezésre állás és a nagy adatok rendszerei // Nagy adatok a nemzetgazdaságban 2013. P. 1619.2. Korotkova T. "EMC Data Lake 2.0 - a big data és a digitális gazdaság elemzésére való átmenet eszköze" http: // bigdata.cnews.ru/ news/line/20151203_emc_data_lake_20_pomozhet_perejti_k_analitike. 3. Kiryanova A. „A nagy adat nem vált mainstreamé az orosz bankokban” .ru/articles/infografika_bolshie_dannye_prishli_v_rossiyu.5.C.Hírek Infographics: Hogyan használja a kiskereskedelem a nagyméretű adatokat az álcázáshoz az eredeti adatforrások megőrzése érdekében, a vállalatoknak meg kell győződniük arról, hogy az adatokkal kapcsolatos összes biztonsági követelmény figyelhető és támogatott, a Big bevezetése Az adatmegoldások képesek Korábban bizalmas információk létrehozásához vagy felfedezéséhez vezethet Adatkezelés Az adatbiztonsági követelmények fenntartása Jogi előírások Kockázatok újbóli azonosítása 6.CNews "Infographics: BigData Technologies" http://bigdata.cnews.ru/articles/big_data_v_zhizni_cheloveka. Banks "http:/ 8. Moszkvai Tőzsde "A BigData piac elemző áttekintése" http://habrahabr.ru/company/moex/blog/256747/9.Big Data (BigData). http://www.tadviser.ru/index.php/Cikk: Big_data_ (Big_Data) .10.BigData– XXI. századi villamos energia http://bit.samag.ru/archive/article/1463.11. McKinsey Global Institute ” Bigdata: Az innováció, a verseny és a termelékenység következő határa ”(2011. június).

Előszó

A „big data” divatos kifejezés, amely szinte minden adatelemzéssel, prediktív elemzéssel, adatbányászatgal, CRM -el foglalkozó szakmai konferencián megjelenik. A kifejezést olyan területeken használják, ahol a minőségileg nagy mennyiségű adatokkal való munka releváns, ahol a szervezeti folyamatba történő adatáramlás sebessége folyamatosan növekszik: gazdaság, banki tevékenység, gyártás, marketing, telekommunikáció, webanalitika, orvostudomány stb.

Az információ gyors felhalmozásával együtt gyorsan fejlődnek az adatelemzési technológiák is. Ha néhány évvel ezelőtt mondjuk csak lehetséges volt az ügyfeleket hasonló preferenciájú csoportokba szegmentálni, akkor most valós időben modelleket lehet készíteni minden ügyfél számára, elemezve például az ő mozgását az interneten egy adott termék. A fogyasztó érdekeit lehet elemezni, és a felépített modellnek megfelelően megfelelő hirdetést vagy konkrét ajánlatokat jelenítenek meg. A modell valós időben is hangolható és újratelepíthető, ami néhány évvel ezelőtt elképzelhetetlen volt.

A távközlés területén például olyan technológiákat fejlesztettek ki, amelyek meghatározzák a mobiltelefonok és tulajdonosaik fizikai elhelyezkedését, és úgy tűnik, hogy a Minority Report, 2002 című sci -fi filmben leírt elképzelés, amely rekláminformációkat jelenít meg a bevásárlóközpontokban, hamarosan valósággá válik, figyelembe véve az elhaladó személyek érdekeit.

Ugyanakkor vannak olyan helyzetek, amikor az új technológiák iránti szenvedély csalódást okozhat. Például néha ritka adatok ( Kevés adat), amelyek a valóság fontos megértését biztosítják, sokkal értékesebbek, mint Nagy adat(Big Data), amely hegyeket ír le, gyakran nem alapvető információkkal.

Ennek a cikknek a célja, hogy tisztázza és elgondolkozzon a Big Data új lehetőségein, és szemléltesse az analitikus platform működését STATISTICA a StatSoft által segíthet a Big Data hatékony felhasználásában a folyamatok és a problémamegoldás optimalizálásában.

Mekkora a Big Data?

Természetesen a helyes válasz erre a kérdésre a következő lesz: "attól függ ..."

A modern vitákban a Big Data -t térfogatadatként írják le terabájt sorrendben.

A gyakorlatban (ha gigabájtról vagy terabájtról van szó), az ilyen adatok könnyen tárolhatók és kezelhetők "hagyományos" adatbázisok és szabványos hardverek (adatbázis -kiszolgáló) használatával.

Szoftver STATISTICA többszálas technológiát használ az adathozzáférési (olvasási) algoritmusokhoz, a prediktív (és pontozási) modellek átalakításához és felépítéséhez, így az ilyen adatminták könnyen elemezhetők, és nem igényelnek speciális eszközöket.

Néhány jelenlegi StatSoft projektben 9-12 millió soros mintákat dolgoznak fel. Ezeket megszorozzuk 1000 paraméterrel (változóval), amelyeket egy adattárházban gyűjtöttünk össze és szerveztünk, hogy kockázati vagy prediktív modelleket készítsünk. Ez a fajta fájl „csak” körülbelül 100 gigabájt méretű lesz. Természetesen nem kis adattárházról van szó, de mérete nem haladja meg a szabványos adatbázis -technológia képességeit.

Termékcsalád STATISTICA kötegelemzéshez és pontozási modellekhez ( STATISTICA Enterprise), valós idejű megoldások ( STATISTICA Live Score), valamint elemzési eszközök a modellek létrehozásához és kezeléséhez ( STATISTICA Adatbányász, döntéshozatal) többmagos processzorokkal könnyen méretezhető több szerverre.

A gyakorlatban ez azt jelenti, hogy az analitikus modellek (például a hitelkockázatra, a csalás valószínűségére, a berendezéscsomópontok megbízhatóságára stb. Vonatkozó) megfelelő sebesség, amely lehetővé teszi az operatív döntések meghozatalát, szinte mindig szabványos eszközökkel érhető el. STATISTICA.

A Big Data -tól a Big Data -ig

Általában a Big Data -ról szóló vita az adattárházak köré összpontosul (és az ilyen raktárakon alapuló elemzésre), amelyek jóval nagyobbak, mint néhány terabájt.

Különösen egyes adattárak akár több ezer terabájtra, azaz petabájtra is megnőhetnek (1000 terabájt = 1 petabájt).

A petabájtokon kívül az adatok felhalmozódása exabájtokban mérhető, például a világ feldolgozóiparában 2010 -ben a becslések szerint összesen 2 exabájtnyi új információ halmozódott fel (Manyika et al., 2011).

Vannak olyan iparágak, ahol az adatokat nagyon intenzíven gyűjtik és gyűjtik.

Például egy olyan gyártási környezetben, mint az erőművek, néha percenként vagy akár másodpercenként folyamatos adatfolyam keletkezik több tízezer paraméterre.

Ezenkívül az elmúlt években úgynevezett „intelligens hálózat” technológiákat vezettek be, amelyek segítségével a közművek percenként vagy másodpercenként mérhetik az egyes háztartások villamosenergia-fogyasztását.

Az ilyen típusú alkalmazások esetében, amelyekben az adatokat évekig kell tárolni, a felhalmozott adatokat Rendkívül nagy adatnak minősítik.

A kereskedelmi és kormányzati szektorok körében is növekszik a Big Data alkalmazások száma, ahol a tárolt adatok mennyisége több száz terabájt vagy petabait lehet.

A modern technológia lehetővé teszi az emberek és viselkedésük különböző módon történő "követését". Például, amikor használjuk az internetet, vásárolunk online áruházakban vagy olyan nagy áruházláncokban, mint a Walmart (a Wikipédia szerint a Walmart adattárházának értéke több mint 2 petabájt), vagy amikor bekapcsolt mobiltelefonnal mozogunk - tetteink nyomát, ami új információk felhalmozódásához vezet.

Különböző kommunikációs módok, az egyszerű telefonhívásoktól kezdve az információk letöltéséig olyan közösségi oldalakon, mint a Facebook (a Wikipédia szerint az információcsere havonta 30 milliárd egység), vagy a videomegosztás az olyan oldalakon, mint a YouTube (a Youtube azt állítja, hogy letölt 24 óra videó percenként; lásd Wikipédia) hatalmas mennyiségű új adatot generál minden nap.

Hasonlóképpen, a modern orvosi technológia nagy mennyiségű adatot állít elő az egészségügyi ellátással kapcsolatban (képek, videó, valós idejű monitorozás).

Tehát az adatmennyiségek osztályozása a következőképpen ábrázolható:

Nagy adathalmazok: 1000 megabájt (1 gigabájt) és több száz gigabájt között

Hatalmas adatkészletek: 1000 gigabájttól (1 terabájt) több terabájtig

Big Data: néhány terabájttól több száz terabájtig

Rendkívül nagy adat: 1000–10 000 terabájt = 1–10 petabájt

Big Data feladatok

A Big Data -hoz háromféle feladat tartozik:

1. Tárolás és kezelés

Több száz terabájt vagy petabaitnyi adat nehezíti a hagyományos relációs adatbázisokkal való tárolást és kezelést.

2. Strukturálatlan információ

A legtöbb Big Data adat strukturálatlan. Azok. hogyan lehet szöveget, videót, képeket stb. rendezni?

3. Big Data elemzése

Hogyan lehet elemezni a strukturálatlan információkat? Hogyan készítsünk egyszerű jelentéseket a Big Data alapján, építsünk és valósítsunk meg mélyreható előrejelző modelleket?

Big Data tárolása és kezelése

A nagy adatokat általában elosztott fájlrendszerekben tárolják és szervezik.

Általánosságban elmondható, hogy az információkat több (néha több ezer) merevlemezen tárolják a szabványos számítógépeken.

Az úgynevezett "térkép" nyomon követi, hogy egy adott információt hol (melyik számítógépen és / vagy lemezen) tárolnak.

A hibatűrés és a megbízhatóság biztosítása érdekében az egyes információkat általában többször, például háromszor tárolják.

Tegyük fel például, hogy egyéni tranzakciókat gyűjtött be egy nagy üzletláncból. Az egyes tranzakciók részleteit különböző szervereken és merevlemezeken tárolják, a térkép pedig pontosan indexeli a tranzakció tárolási helyét.

A szabványos hardverrel és nyílt forráskódú szoftvereszközökkel kezelheti ezt az elosztott fájlrendszert (pl. Hadoop), viszonylag könnyen megvalósítható megbízható petabájt méretű adattároló.

Strukturálatlan információ

Az elosztott fájlrendszerben gyűjtött információk nagy része strukturálatlan adatokból, például szövegből, képekből, fényképekből vagy videókból áll.

Ennek megvannak az előnyei és hátrányai.

Előnye, hogy a nagy adatok tárolásának lehetősége lehetővé teszi „az összes adat” tárolását anélkül, hogy aggódnia kellene, hogy az adatok nagy része releváns a későbbi elemzéshez és döntéshozatalhoz.

Hátránya, hogy ilyen esetekben e hatalmas mennyiségű adat utólagos feldolgozása szükséges a hasznos információk kinyeréséhez.

Bár ezen műveletek némelyike ​​egyszerű (pl. Egyszerű számítások stb.), Mások bonyolultabb algoritmusokat igényelnek, amelyeket kifejezetten úgy kell kialakítani, hogy hatékonyan működjenek egy elosztott fájlrendszeren.

Az egyik vezető tisztségviselő egyszer azt mondta a StatSoftnak, hogy „vagyonokat költött informatikára és adattárolásra, de még mindig nem kezdett el pénzt keresni”, mert nem gondolkozott azon, hogyan lehet a legjobban felhasználni ezeket az adatokat alaptevékenységének fejlesztéséhez.

Tehát, bár az adatmennyiség exponenciálisan növekedhet, az információ kinyerésének és az információ alapján történő cselekvésnek lehetősége korlátozott, és aszimptotikusan eléri a határt.

Fontos, hogy a tárolási rendszerek mellett kidolgozzák a modellek építésének, frissítésének és a döntéshozatal automatizálásának módszereit és eljárásait annak biztosítása érdekében, hogy ezek a rendszerek hasznosak és előnyösek legyenek a vállalat számára.

Nagy adatelemzés

Ez valóban nagy probléma a strukturálatlan Big Data elemzésével: hogyan lehet nyereségesen elemezni. Sokkal kevesebbet írtak erről a kérdésről, mint az adattárolásról és a nagy adatkezelési technológiákról.

Számos kérdést kell figyelembe venni.

Térkép-kicsinyítés

Több száz terabájt vagy petabájt adat elemzésekor nem lehetséges az adatok más helyre történő kivonása elemzés céljából (pl. STATISTICA Enterprise Analysis Server).

Az adatátvitel folyamata csatornákon keresztül egy külön szerverre vagy szerverre (párhuzamos feldolgozáshoz) túl sokáig tart, és túl nagy forgalmat igényel.

Ehelyett analitikai számításokat kell végezni fizikailag az adatok tárolási helyéhez közel.

A Map-Reduce algoritmus az elosztott számítástechnika modellje. Működésének elve a következő: a bemeneti adatokat az elosztott fájlrendszer működő csomópontjaihoz (egyes csomópontjaihoz) osztják szét előfeldolgozás céljából (térképi lépés), majd a már előre feldolgozott adatok konvolúcióját (egyesítését) (csökkentési lépés) ).

Tehát mondjuk a végösszeg kiszámításához az algoritmus párhuzamosan kiszámítja a részösszegeket az elosztott fájlrendszer minden csomópontján, majd hozzáadja ezeket a részösszegeket.

Rengeteg információ található az interneten arról, hogyan végezhet különféle számításokat a térképcsökkentő modell használatával, beleértve a prediktív elemzést is.

Egyszerű statisztika, üzleti intelligencia (BI)

Az egyszerű BI jelentésekhez számos nyílt forráskódú termék létezik, amelyek lehetővé teszik az összegek, átlagok, arányok és egyebek kiszámítását. a térkép-kicsinyítés használatával.

Így nagyon könnyű pontos számokat és egyéb egyszerű statisztikákat szerezni a jelentésekhez.

Prediktív modellezés, mélyreható statisztika

Első pillantásra úgy tűnhet, hogy a prediktív modellek felépítése elosztott fájlrendszerben nehezebb, de ez egyáltalán nem így van. Tekintsük az adatelemzés előzetes szakaszát.

Adatok előkészítése. Valamikor a StatSoft számos nagy és sikeres projektet hajtott végre, amelyek nagyon nagy adathalmazokat tartalmaztak, amelyek leírják az erőmű működésének percenkénti mutatóit. Ennek az elemzésnek az volt a célja, hogy javítsa az üzem hatékonyságát és csökkentse a kibocsátásokat (Electric Power Research Institute, 2009).

Fontos, hogy bár az adathalmazok nagyon nagyok lehetnek, a bennük található információk sokkal kisebbek.

Például, míg az adatok másodpercenként vagy percenként halmozódnak, sok paraméter (gázok és kemencék hőmérséklete, áramlások, csappantyúk helyzete stb.) Hosszú ideig stabil marad. Más szóval, a másodpercenként rögzített adatok alapvetően ugyanazon információk ismétlése.

Így szükség van „intelligens” adatgyűjtésre, modellezéshez és optimalizáláshoz szükséges adatok beszerzéséhez, amely csak a szükséges információkat tartalmazza az erőmű hatékonyságát és a kibocsátás mennyiségét befolyásoló dinamikus változásokról.

A szövegek osztályozása és az adatok előfeldolgozása. Ismét illusztráljuk, hogy a nagy adathalmazok sokkal kevésbé hasznos információkat tartalmazhatnak.

Például a StatSoft részt vett szöveges bányászati ​​projektekben a tweetekből, amelyek tükrözik az utasok elégedettségét a légitársaságokkal és szolgáltatásaikkal.

Annak ellenére, hogy óránként és naponta nagyszámú releváns tweetet kerestek le, a bennük megfogalmazott hangulat meglehetősen egyszerű és egyhangú volt. A legtöbb üzenet panaszok és rövid üzenetek egy „rossz tapasztalat” mondatából. Ezen túlmenően ezen érzelmek száma és „ereje” viszonylag stabil az idő múlásával és bizonyos kérdésekben (pl. Elveszett poggyász, rossz étel, törölt járatok).

Így a tényleges tweetek érzelmi pontszámra csökkentése szövegbányászati ​​technikákkal (például a STATISTICA Text Miner), sokkal kevesebb adatot eredményez, ami aztán könnyen korrelálható a meglévő strukturált adatokkal (tényleges jegyértékesítés vagy törzsutas információ). Az elemzés lehetővé teszi az ügyfelek csoportokra osztását és tipikus panaszaik vizsgálatát.

Számos eszköz létezik ezen adatok összesítésére (pl. Érzelmi arányok) egy elosztott fájlrendszeren, ami megkönnyíti ezt az elemzési folyamatot.

Építési modellek

Gyakran az a kihívás, hogy gyorsan készítsünk pontos modelleket az elosztott fájlrendszerben tárolt adatokhoz.

Vannak térképcsökkentő megvalósítások a különböző adatbányászati ​​/ prediktív elemző algoritmusokhoz, amelyek alkalmasak az adatok nagyszabású párhuzamos feldolgozására egy elosztott fájlrendszerben (amelyet a platform támogathat STATISZTIKA StatSoft).

Pontosan azért, mert nagyon nagy mennyiségű adatot dolgozott fel, biztos abban, hogy a végső modell valóban pontosabb?

Valószínűleg kényelmesebb modelleket készíteni kis adatszegmensekhez elosztott fájlrendszerben.

Ahogy egy friss Forrester -jelentés mondja: „Két plusz két egyenlő 3,9 általában elég jó” (Hopkins & Evelson, 2011).

A statisztikai és matematikai pontosság abban rejlik, hogy egy lineáris regressziós modell, amely például 10 előrejelzőt tartalmaz, helyesen elkészítve valószínűségi minta 100 000 megfigyelésből olyan pontos lesz, mint egy 100 millió megfigyeléssel felépített modell.

Nagy adat- Angol. "Nagy adat". A kifejezés a DBMS alternatívájaként jelent meg, és az informatikai infrastruktúra egyik fő irányzatává vált, amikor az iparág óriásainak nagy része - az IBM, a Microsoft, a HP, az Oracle és mások - elkezdte használni ezt a koncepciót stratégiáiban. A Big Data alatt hatalmas (több száz terabájtos) adatsort értünk, amelyet hagyományos módszerekkel nem lehet feldolgozni; néha - az adatok feldolgozásának eszközei és módszerei.

Példák a nagy adatforrásokra: RFID -események, közösségi hálózatokon megjelenő üzenetek, meteorológiai statisztikák, információk a mobilhálózat -előfizetők tartózkodási helyéről és az audio- / videofelvételi eszközökről származó adatok. Ezért a "big data" -ot széles körben használják a gyártásban, az egészségügyben, a kormányzatban, az internetes üzletben - különösen a célközönség elemzésekor.

Jellegzetes

A big data jeleket „három V” -ként határozzák meg: Hangerő - hangerő (igazán nagy); változatosság - sokféleség, sok; sebesség - sebesség (nagyon gyors feldolgozás szükséges).

A nagy adatok gyakran strukturálatlanok, és feldolgozásukhoz speciális algoritmusok szükségesek. A nagy adatelemzési módszerek a következők:

  • ("Adatbányászat") - megközelítések halmaza a rejtett hasznos ismeretek felfedezésére, amelyeket nem lehet standard módszerekkel megszerezni;
  • Crowdsourcing (tömeg - "tömeg", beszerzés - forrásként való felhasználás) - jelentős problémák megoldása a kötelező munkaszerződésben és kapcsolatokban nem szereplő önkéntesek közös erőfeszítésével, a tevékenységek összehangolása az informatikai eszközök segítségével;
  • Adatfúzió és integráció ("adatok keverése és beágyazása") - módszerek összessége több forrás összekapcsolásához mély elemzés keretében;
  • Gépi tanulás ("gépi tanulás") - a mesterséges intelligencia kutatásának alfejezete, amely a statisztikák elemzésének felhasználási módszereit tanulmányozza és az alapmodellek alapján előrejelzéseket kap;
  • mintafelismerés (például arcfelismerés a fényképezőgép vagy a kamera keresőjében);
  • térbeli elemzés - a topológia, a geometria és a földrajz használata az adatok konstruálásához;
  • adatábrázolás - analitikus információk kimenete illusztrációk és diagramok formájában, interaktív eszközök és animációk segítségével az eredmények nyomon követésére és a további monitoring alapjainak megteremtésére.

Az információ tárolása és elemzése nagyszámú nagy teljesítményű szerveren történik. A legfontosabb technológia a Hadoop, nyílt forráskódú.

Mivel az információ mennyisége az idő múlásával csak növekedni fog, a nehézséget nem az adatok megszerzése jelenti, hanem az, hogy hogyan dolgozzák fel a legnagyobb haszonnal. Általánosságban elmondható, hogy a Big Data -val való munka folyamata magában foglalja az információk gyűjtését, strukturálását, betekintések és összefüggések létrehozását, valamint cselekvési ajánlások kidolgozását. Már az első szakasz előtt is fontos egyértelműen meghatározni a munka célját: pontosan milyen adatokról van szó, például a termék célközönségének meghatározásához. Ellenkező esetben fennáll annak a veszélye, hogy sok információt szerez, anélkül, hogy megértené, hogyan lehet pontosan használni.

Az előrejelzések szerint a 2011 -ben létrehozott és replikált összes globális adatmennyiség körülbelül 1,8 zettabájt (1,8 billió gigabájt) lehet - ez körülbelül 9 -szer több, mint a 2006 -ban létrehozott adat.

Bonyolultabb definíció

Azonban ` nagy adat`nem csak hatalmas mennyiségű információ elemzését foglalja magában. A probléma nem az, hogy a szervezetek óriási mennyiségű adatot hoznak létre, hanem az, hogy nagy részük olyan formátumban kerül bemutatásra, amely nem felel meg a hagyományos strukturált adatbázis formátumnak, például webnaplók, videók, szöveges dokumentumok, gépi kódok vagy , térinformatikai adatok .... Mindezt sok különböző adattárban tárolják, néha még a szervezeten kívül is. Ennek eredményeként a vállalatok hozzáférhetnek hatalmas mennyiségű adatukhoz, és nem rendelkeznek a szükséges eszközökkel az adatok közötti kapcsolatok létrehozásához és az azokból való érdemi következtetések levonásához. Ha ehhez hozzávesszük azt a tényt, hogy az adatokat egyre gyakrabban frissítik, és olyan helyzetbe kerül, amelyben a hagyományos információelemzési módszerek nem tudnak lépést tartani a folyamatosan frissülő adatok hatalmas mennyiségével, ami végül megnyitja az utat a technológia előtt. nagy adat.

A legjobb definíció

Lényegében a koncepció nagy adat magában foglalja a hatalmas mennyiségű és változatos összetételű információkkal való munkát, amelyeket gyakran frissítenek, és különböző forrásokban helyezkednek el a munka hatékonyságának növelése, új termékek létrehozása és a versenyképesség növelése érdekében. A Forrester tanácsadó cég összefoglalja: ` Nagy adat olyan technikákat és technológiákat kombinálnak, amelyek a használhatóság szélső határán értelmezik az adatokat. ”

Mekkora a különbség az üzleti intelligencia és a big data között?

Craig Batey, a Fujitsu Ausztrália marketing igazgatója és technológiai vezérigazgatója rámutatott, hogy az üzleti elemzés egy leíró folyamat, amely elemzi a vállalkozás által egy bizonyos idő alatt elért eredményeket, miközben feldolgozza a sebességet nagy adat lehetővé teszi, hogy az elemzés prediktív legyen, és üzleti ajánlásokat kínáljon a jövőre nézve. A big data emellett többféle típusú adatot is elemezhet az üzleti intelligencia eszközeihez képest, ami lehetővé teszi, hogy a strukturált tároláson kívül másra is összpontosítson.

Matt Slocum, az O "Reilly Radar úgy véli, hogy bár nagy adatés az üzleti intelligenciának ugyanaz a célja (válaszokat találni egy kérdésre), három szempontból különböznek egymástól.

  • A big data több információt képes kezelni, mint az üzleti intelligencia, és ez természetesen összhangban van a big data hagyományos definíciójával.
  • A big data célja a beérkező és gyorsabban változó információk feldolgozása, ami mély feltárást és interaktivitást jelent. Bizonyos esetekben az eredmények gyorsabban jönnek létre, mint a weboldal betöltése.
  • A big data a strukturálatlan adatok kezelésére szolgál, amelyek módszereit csak azután kezdjük felfedezni, miután összegyűjtöttük és tároltuk őket, és szükségünk van algoritmusokra és párbeszédképességre, hogy megkönnyítsük a tömbökben található trendek keresését.

Az Oracle által közzétett Oracle Information Architecture: An Architect's Guide to Big Data fehér könyv szerint másképp közelítünk az információkhoz, amikor nagy adatokkal dolgozunk, mint üzleti elemzések során.

A nagy adatokkal való munka nem olyan, mint a szokásos üzleti intelligencia -folyamat, ahol az ismert értékek egyszerű összeadása eredményt hoz: például a fizetett számlákon szereplő adatok összege lesz az év értékesítési volumene. Amikor nagy adatokkal dolgozik, az eredmény a tisztítás során szekvenciális modellezéssel érhető el: először hipotézist terjesztenek elő, statisztikai, vizuális vagy szemantikai modellt építenek fel, amely alapján az előterjesztett hipotézis helyessége be van jelölve, majd előterjesztik a következőt. Ez a folyamat megköveteli a kutatótól, hogy vagy értelmezze a vizuális értékeket, vagy tudás alapján interaktív lekérdezéseket írjon, vagy adaptív gépi tanulási algoritmusokat dolgozzon ki, amelyek képesek a kívánt eredmény elérésére. Ezenkívül egy ilyen algoritmus élettartama meglehetősen rövid lehet.

Nagy adatelemzési technikák

Az adathalmazok elemzésére sokféle módszer létezik, amelyek a statisztikából és a számítástechnikából kölcsönzött eszközökön alapulnak (például gépi tanulás). A lista nem állítja, hogy teljes, de tükrözi a legnépszerűbb megközelítéseket a különböző iparágakban. Ugyanakkor meg kell érteni, hogy a kutatók továbbra is új technikák létrehozásán és a meglévők fejlesztésén dolgoznak. Ezenkívül a fent felsorolt ​​technikák némelyike ​​nem feltétlenül alkalmazható kizárólag nagy adatokra, és sikeresen használható kisebb tömbökhöz (például A / B tesztelés, regressziós elemzés). Természetesen minél terjedelmesebb és diverzifikáltabb a tömb, annál pontosabb és relevánsabb adatok nyerhetők a kimeneten.

A / B tesztelés... Olyan technika, amelyben egy kontrollmintát egyenként összehasonlítanak másokkal. Így lehetséges a mutatók optimális kombinációjának azonosítása, hogy például a legjobb fogyasztói választ érjék el egy marketing javaslatra. Nagy adat lehetővé teszi, hogy hatalmas számú iterációt hajtson végre, és így statisztikailag megbízható eredményt kapjon.

Társulási szabály tanulás... A kapcsolatok azonosítására szolgáló technikák összessége, azaz asszociációs szabályok, a nagy adathalmazok változói között. Használt adatbányászat.

Osztályozás... Olyan technikák halmaza, amelyek lehetővé teszik a fogyasztói magatartás előrejelzését egy adott piaci szegmensben (döntések meghozatala a vásárlásról, a kiáramlásról, a fogyasztásról stb.). Használt adatbányászat.

Klaszteranalízis... Statisztikai módszer az objektumok csoportba sorolására a korábban ismeretlen közös jellemzők azonosításával. Használt adatbányászat.

Crowdsourcing... Számos forrásból származó adatok gyűjtésének módszertana.

Adatfúzió és adatintegráció... Technikakészlet, amely lehetővé teszi a közösségi hálózatok felhasználóinak megjegyzéseinek elemzését, és valós időben történő összehasonlítását az értékesítési eredményekkel.

Adatbányászat... Módszerek halmaza, amely lehetővé teszi, hogy meghatározza a népszerűsített termékre vagy szolgáltatásra leginkább vevő fogyasztók kategóriáit, azonosítsa a legsikeresebb alkalmazottak jellemzőit, és megjósolja a fogyasztók viselkedési modelljét.

Együttes tanulás... Ez a módszer számos prediktív modellt használ, ezáltal javítva a jóslatok minőségét.

Genetikai algoritmusok... Ebben a technikában a lehetséges megoldásokat „kromoszómák” formájában mutatják be, amelyek kombinálhatók és mutálódhatnak. A természetes evolúcióhoz hasonlóan a legalkalmasabbak maradnak életben.

Gépi tanulás... Az informatika iránya (történelmileg a "mesterséges intelligencia" nevet rendelték hozzá), amelynek célja az önálló tanulási algoritmusok létrehozása az empirikus adatok elemzése alapján.

Természetes nyelvfeldolgozás (NLP). Az ember természetes nyelvének felismerésére szolgáló technikák összessége, amelyet kölcsönöztek a számítástechnikából és a nyelvészetből.

Hálózati elemzés... Technikák halmaza a hálózatok csomópontjai közötti kapcsolatok elemzésére. A közösségi hálózatokra alkalmazva lehetővé teszi az egyes felhasználók, vállalatok, közösségek stb. Közötti kapcsolat elemzését.

Optimalizálás... Numerikus módszerek összessége összetett rendszerek és folyamatok újratervezésére egy vagy több mutató javítása érdekében. Segíti a stratégiai döntések meghozatalát, például a piacra bevezetett termékcsalád összetételét, a befektetési elemzés elvégzését stb.

Mintafelismerés... Technikák halmaza önálló tanulási elemekkel a fogyasztói magatartási minták előrejelzésére.

Prediktív modellezés... Olyan technikák halmaza, amelyek lehetővé teszik az események fejlődésének előre meghatározott valószínű forgatókönyvének matematikai modelljének létrehozását. Például egy CRM rendszer adatbázisának elemzése a lehetséges feltételek miatt, amelyek arra kényszerítik az előfizetőket, hogy változtassanak szolgáltatójukon.

Regresszió... Statisztikai módszerek halmaza egy függő változó változása és egy vagy több független változó közötti mintázatok azonosítására. Gyakran használják előrejelzésre és előrejelzésre. Adatbányászatban használják.

Hangulat elemzése... A fogyasztói hangulat értékelésének módszerei egy személy természetes nyelvének felismerésére szolgáló technológiákon alapulnak. Lehetővé teszik, hogy elzárkózzanak az általános információáramlási üzenetektől, amelyek az érdeklődő témához (például fogyasztói termékhez) kapcsolódnak. Ezután értékelje az ítélet polaritását (pozitív vagy negatív), az érzelmesség mértékét stb.

Jelfeldolgozás... A rádiótechnikából kölcsönzött technikák halmaza, amelynek célja a jel felismerése a zaj hátterében és további elemzése.

Térbeli elemzés... A térbeli adatok elemzésére szolgáló módszerek halmaza, részben statisztikából kölcsönözve - a domborzat topológiája, földrajzi koordinátái, tárgyak geometriája. Forrás nagy adat ebben az esetben gyakran földrajzi információs rendszereket (GIS) használnak.

  • Revolution Analytics (a matematikai statisztikák R nyelvén alapul).

Ezen a listán különösen érdekes az Apache Hadoop, egy nyílt forráskódú szoftver, amelyet az elmúlt öt évben a legtöbb tőzsdekövető kipróbált és tesztelt adatelemzőként. Amint a Yahoo megnyitotta a Hadoop kódot a nyílt forráskódú közösség előtt, egy teljesen új Hadoop termékcsalád jelent meg az informatikai iparban. Szinte minden modern elemző eszköz nagy adat eszközöket biztosít a Hadoop -hoz való integrációhoz. Fejlesztőik egyszerre startupok és jól ismert globális vállalatok.

Nagy adatkezelési piacok

Nagy adatplatformok (BDP, Big Data Platform) a digitális akkordok elleni küzdelem eszközeként

Az elemzés képessége nagy adat, köznyelven Big Data néven, áldásként és egyértelműen fogják fel. De vajon tényleg így van? Mire vezethet a féktelen adatgyűjtés? Valószínűleg ezt nevezik a hazai pszichológusok patológiás felhalmozásnak, szillogomániának vagy átvitt értelemben "Plyushkin -szindrómának" egy személy vonatkozásában. Angolul a mindent összegyűjtő ördögi szenvedélyt hordingnak hívják (az angol kincsből - "stock"). A mentális betegségek osztályozása szerint Hording mentális rendellenességnek minősül. A digitális korszakban a digitális (digitális felhalmozás) hozzáadódik a hagyományos anyagrögzítéshez, mind az egyének, mind a teljes vállalkozások és szervezetek szenvedhetnek tőle ().

Világ- és orosz piac

Big data Landscape - fő szállítók

Érdeklődés a gyűjtési, feldolgozási, kezelési és elemzési eszközök iránt nagy adat szinte minden vezető informatikai céget bemutatott, ami teljesen természetes. Először is, saját üzletükben közvetlenül szembesülnek ezzel a jelenséggel, másodszor pedig nagy adat kiváló lehetőségeket nyit meg új piaci rések kialakítására és új ügyfelek vonzására.

Sok startup jelent meg a piacon, amelyek hatalmas mennyiségű adat feldolgozásával foglalkoznak. Némelyikük a főbb szereplők, például az Amazon által biztosított kész felhőinfrastruktúrát használja.

A Big Data elmélete és gyakorlata az iparágakban

A fejlődés története

2017

TmaxSoft előrejelzés: a Big Data következő "hulláma" a DBMS korszerűsítését igényli

A vállalkozások tudják, hogy hatalmas mennyiségű adatuk fontos információkat tartalmaz üzleti tevékenységéről és ügyfeleiről. Ha egy vállalat sikeresen tudja alkalmazni ezeket az információkat, akkor jelentős előnyt élvez a versenytársakkal szemben, és jobb termékeket és szolgáltatásokat tud kínálni, mint az övék. Sok szervezet azonban még mindig nem tudja hatékonyan használni nagy adat mivel a régi IT infrastruktúrájuk nem képes biztosítani a szükséges tárolókapacitást, adatcsere folyamatokat, segédprogramokat és alkalmazásokat, amelyek szükségesek a nagy mennyiségű strukturálatlan adat feldolgozásához és elemzéséhez, hogy értékes információkat nyerjenek ki belőlük, a TmaxSoft -ban.

Ezenkívül az egyre növekvő adatmennyiség elemzéséhez szükséges megnövelt feldolgozási teljesítmény jelentős beruházásokat igényelhet a szervezet régi IT infrastruktúrájába, valamint további karbantartási erőforrásokat, amelyek felhasználhatók új alkalmazások és szolgáltatások fejlesztésére.

A Fehér Ház 2015. február 5 -én jelentést tett közzé, amely megvitatta, hogy a vállalatok hogyan használják nagy adat"Különböző árak meghatározása a különböző vevők számára - az" árdiszkrimináció "vagy" differenciált árképzés "(személyre szabott árazás) néven ismert gyakorlat. A jelentés leírja a „big data” előnyeit mind az eladók, mind a vevők számára, és szerzői arra a következtetésre jutnak, hogy a big data és a differenciált árképzés kapcsán felmerült problémás problémák nagy része megoldható a meglévő anti- diszkriminációs törvények és törvények.

Jelenleg a jelentés megjegyzi, hogy kevés bizonyíték van arra, hogy a vállalatok hogyan használják fel a big data -t a személyre szabott marketing és a differenciált árazás keretében. Ez az információ azt mutatja, hogy az eladók olyan árképzési módszereket használnak, amelyek három kategóriába sorolhatók:

  • a keresleti görbe tanulmányozása;
  • Irányító és differenciált árazás demográfiai adatok alapján; és
  • viselkedési célzás és személyre szabott árazás.

A keresleti görbe vizsgálata: A marketingesek gyakran kísérleteznek a kereslettel és a fogyasztói magatartással, és véletlenszerűen hozzárendelik az ügyfeleket a két lehetséges árszínvonal egyikéhez. "Technikailag ezek a kísérletek a differenciált árképzés egyik formája, mert eltérő árakat eredményeznek az ügyfelek számára, még akkor is, ha" megkülönböztetéstől mentesek "abban az értelemben, hogy minden ügyfél egyformán valószínű, hogy magasabb árat" üt meg ".

Kormányzás: Az a gyakorlat, hogy a termékeket demográfiai csoportjuk alapján mutatják be a fogyasztóknak. Például egy számítógépes cég webhelye ugyanazt a laptopot kínálhatja különböző típusú vásárlóknak különböző áron, az általuk szolgáltatott információk alapján (például attól függően, hogy a felhasználó kormányzati szervek, tudományos vagy kereskedelmi intézmények képviselője, vagy személy) vagy földrajzi elhelyezkedésük alapján (például a számítógép IP -címe határozza meg).

Célzott viselkedési marketing és személyre szabott árazás: Ezekben az esetekben a vevők személyes adatait célzott reklámozásra és bizonyos termékek személyre szabott árazására használják fel. Például az online hirdetők a hirdetési hálózatok által gyűjtött adatokat és harmadik féltől származó cookie-k segítségével célozzák meg a felhasználókat az interneten, hogy célzott hirdetéseket küldjenek. Ez a megközelítés egyrészt lehetővé teszi a fogyasztók számára, hogy reklámokat kapjanak az őket érdeklő árukról és szolgáltatásokról. Ez azonban aggodalomra adhat okot azoknak a fogyasztóknak, akik nem akarnak bizonyos típusú személyes adatokat (például a webhelylátogatásokról szóló információkat) egészségügyi és pénzügyi kérdésekkel kapcsolatos) beleegyezésük nélkül.

Míg a célzott viselkedési marketing széles körben elterjedt, az online környezetben viszonylag kevés bizonyíték van a személyre szabott árazásra. A jelentés azt sugallja, hogy ennek az lehet az oka, hogy a megfelelő módszerek még fejlesztés alatt állnak, vagy az a tény, hogy a vállalatok nem sietnek az egyéni árazással (vagy inkább elhallgatnak erről) - talán a fogyasztók negatív reakcióitól tartva .

A jelentés készítői úgy vélik, hogy "az egyéni fogyasztók számára a big data használata kétségkívül összefügg a potenciális hozamokkal és kockázatokkal is". Bár a jelentés elismeri, hogy átláthatósággal és megkülönböztetéssel kapcsolatos problémák vannak a nagy adatok használatában, a jelentés azzal érvel, hogy a meglévő diszkriminációellenes és fogyasztóvédelmi jogszabályok elegendőek ezek kezelésére. A jelentés ugyanakkor hangsúlyozza a „folyamatos ellenőrzés” szükségességét is, amikor a vállalatok a bizalmas információkat átláthatatlan módon vagy olyan módon használják fel, amelyre a hatályos szabályozási keret nem terjed ki.

Ez a jelentés a Fehér Ház azon törekvéseinek kiterjesztése, amelyek a big data és a diszkriminatív árazás interneten történő felhasználásának vizsgálatára, valamint ezeknek az amerikai fogyasztókra gyakorolt ​​hatásaira vonatkoznak. Korábban arról számoltak be, hogy a Fehér Ház nagy adatokkal foglalkozó munkacsoportja 2014 májusában tette közzé erről szóló jelentését. A Szövetségi Kereskedelmi Bizottság (FTC) is foglalkozott ezekkel a kérdésekkel 2014. szeptemberi szemináriumán a nagy adatok felhasználásával kapcsolatos megkülönböztetésről.

2014

A Gartner eloszlatja a Big Data mítoszokat

A Gartner's Fall 2014 Policy Brief számos, a Big Data -val kapcsolatos mítoszt sorol fel a CIO -k között, és cáfolja azokat.

  • Mindenki gyorsabban implementálja a Big Data feldolgozó rendszereket, mint mi

Rekordmagas az érdeklődés a Big Data technológiák iránt: a Gartner elemzői által idén megkérdezett szervezetek 73% -a már befektet vagy kapcsolódó projektekbe fektet be. E kezdeményezések többsége azonban még a kezdeti szakaszban van, és a megkérdezettek mindössze 13% -a hajtott végre már ilyen megoldásokat. A legnehezebb az, ha kitaláljuk, hogyan lehet bevételt termelni a Big Data -ból, és eldöntjük, hol kezdjük. Sok szervezet elakad a kísérleti szakaszban, mert nem tudja az új technológiát meghatározott üzleti folyamatokhoz kötni.

  • Annyi adat áll rendelkezésünkre, hogy nem kell aggódni az apró hibák miatt.

Néhány informatikai igazgató úgy véli, hogy a kis adathiányok nem befolyásolják a nagy mennyiségű elemzés általános eredményeit. Ha sok adat van, az egyes hibák valóban kevésbé befolyásolják az eredményt, mondják az elemzők, de maguk a hibák is egyre többek. Ezenkívül az elemzett adatok nagy része külső, ismeretlen szerkezetű vagy eredetű, így a hibák valószínűsége nő. Így a Big Data világában a minőség valójában sokkal fontosabb.

  • A nagy adattechnológiák kiküszöbölik az adatintegráció szükségességét

A Big Data azt ígéri, hogy képes az adatok natív formátumban történő feldolgozására az automatikus sémagenerálás során. Úgy gondolják, hogy ez lehetővé teszi az azonos forrásokból származó információk elemzését több adatmodell használatával. Sokan úgy vélik, hogy ez lehetővé teszi a végfelhasználók számára is, hogy tetszésük szerint értelmezzenek bármilyen adatkészletet. A valóságban a legtöbb felhasználónak gyakran szüksége van egy hagyományos séma-alapú megközelítésre, ahol az adatok megfelelően vannak formázva, és megállapodások vannak az információ integritásának szintjéről, valamint arról, hogyan kell azokat a használati esettel kapcsolatba hozni.

  • Nincs értelme adattárházakat használni komplex elemzésekhez

Sok információkezelő rendszergazda úgy véli, hogy nincs értelme időt vesztegetni egy adattárház létrehozásával, mivel az összetett elemző rendszerek új típusú adatokat használnak. Valójában sok összetett elemzőrendszer használja az adattárházból származó információkat. Más esetekben új adattípusokat kell előkészíteni a Big Data feldolgozó rendszerekben történő elemzéshez; döntéseket kell hoznia az adatok alkalmasságáról, az összesítés elveiről és a szükséges minőségi szintről - az ilyen előkészítésre a raktáron kívül is sor kerülhet.

  • Az adattárak felváltják az adattárházakat

Valójában a szállítók félrevezetik az ügyfeleket azzal, hogy az adathordozókat tárhelycserékként vagy kritikus elemzési infrastruktúraként helyezik el. A mögöttes adattó -technológiákból hiányzik a tárolásban rejlő érettség és funkcionalitás. Ezért az adatkezelés vezetőinek várniuk kell, amíg a tavak el nem érik ugyanazt a fejlettségi szintet - írja a Gartner.

Accenture: A nagy adatrendszereket megvalósítók 92% -a elégedett az eredménnyel

A big data fő előnyei között a válaszadók a következőket nevezték meg:

  • „Új bevételi források keresése” (56%),
  • "Az ügyfélélmény javítása" (51%),
  • "Új termékek és szolgáltatások" (50%) és
  • „Az új ügyfelek beáramlása és a régiek hűségének megtartása” (47%).

Sok vállalat szembesült a hagyományos kihívásokkal az új technológiák bevezetésekor. 51% -uk számára a buktató a biztonságot jelentette, 47% -uknál - a költségvetés, 41% -nál - a szükséges személyzet hiánya, 35% -nál pedig a meglévő rendszerrel való integráció nehézségei. Szinte minden megkérdezett vállalat (körülbelül 91%) azt tervezi, hogy hamarosan megoldja a problémát a személyzet hiánya miatt, és felveszi a big data szakembereket.

A vállalatok optimisták a big data technológiák jövőjét illetően. 89% -uk úgy gondolja, hogy annyira megváltoztatja az üzletet, mint az internet. A válaszadók 79% -a megjegyezte, hogy a nagy adatot nem végző vállalatok elveszítik versenyelőnyüket.

A válaszadók azonban nem értettek egyet azzal kapcsolatban, hogy pontosan mit kell nagy adatnak tekinteni. A válaszadók 65% -a úgy véli, hogy „big data fájlok”, 60% „fejlett elemzés és elemzés”, 50% pedig „vizualizációs eszközökből származó adatok”.

Madrid 14,7 millió eurót költ nagy adatkezelésre

2014 júliusában vált ismertté, hogy Madrid a big data technológiákat fogja használni a városi infrastruktúra kezelésére. A projekt költsége - 14,7 millió euró, a megvalósított megoldások alapját a big data elemzésére és kezelésére szolgáló technológiák képezik. Segítségükkel a városvezetés irányítja a munkát minden szolgáltatóval, és ennek megfelelően fizet, a szolgáltatások színvonalától függően.

A közigazgatás vállalkozóiról beszélünk, akik figyelemmel kísérik az utcák állapotát, a világítást, az öntözést, a zöldfelületeket, kitakarítják a területet és elszállítják, valamint újrahasznosítják a hulladékot. A projekt során a városi szolgáltatások 300 kulcsfontosságú teljesítménymutatóját dolgozták ki a speciálisan kijelölt ellenőrök számára, amelyek alapján naponta 1,5 ezer különböző ellenőrzést és mérést hajtanak végre. Ezenkívül a város elkezdi használni a Madrid iNTeligente (MiNT) - Smarter Madrid nevű innovatív technológiai platformot.

2013

Szakértők: Big Data Peak Fashion

Kivétel nélkül az adatkezelési piacon minden gyártó jelenleg fejleszt a Big Data kezeléshez szükséges technológiákat. Ezt az új technológiai trendet a szakmai közösség, a fejlesztők és az iparági elemzők, valamint az ilyen megoldások potenciális fogyasztói is aktívan tárgyalják.

Amint azt a Datashift megtudta, 2013 januárjában vitahullám támadt a környéken. nagy adat"Túllépett minden elképzelhető méretet. Miután elemezte a Big Data megemlítéseinek számát a közösségi hálózatokban, a Datashift kiszámította, hogy 2012 -ben ezt a kifejezést körülbelül 2 milliárd alkalommal használták világszerte körülbelül 1 millió különböző szerző által létrehozott bejegyzésekben. Ez óránként 260 hozzászólásnak felel meg, a csúcs 3070 említés óránként.

Gartner: Minden második CIO kész pénzt költeni a nagy adatokra

A Gartner előrejelzése szerint, miután több évig kísérleteztek a Big data technológiákkal és az első megvalósításokkal 2013 -ban, az ilyen megoldások adaptációja jelentősen megnő. A kutatók világszerte megkérdezték az informatikai vezetőket, és megállapították, hogy a válaszadók 42% -a már fektetett a big data technológiákba, vagy tervez ilyen beruházásokat a következő évben (2013. március adatai).

A vállalatok kénytelenek pénzt költeni a feldolgozási technológiákra nagy adat mivel az információs táj gyorsan változik, új megközelítéseket kívánok az információfeldolgozáshoz. Sok vállalat már felismerte, hogy a big data kritikus fontosságú, és a velük való együttműködés lehetővé teszi olyan előnyök elérését, amelyek nem érhetők el a hagyományos információforrások és feldolgozási módszerek használatával. Ezenkívül a "big data" témájának állandó túlzása a médiában felkelti az érdeklődést a releváns technológiák iránt.

Frank Buytendijk, a Gartner alelnöke még arra is sürgette a vállalatokat, hogy mérsékeljék buzgalmukat, mivel egyesek attól tartanak, hogy lemaradnak a versenytársaktól a Big Data megszerzésében.

„Nem kell aggódnia, a big data technológiákon alapuló ötletek megvalósítási lehetőségei gyakorlatilag végtelenek” - mondta.

A Gartner előrejelzése szerint 2015 -re a Global 1000 vállalatok 20% -a stratégiai fókuszban lesz az "információs infrastruktúrával".

A Big Data feldolgozási technológiák új lehetőségeire számítva számos szervezet már szervezi a különféle információk gyűjtésének és tárolásának folyamatát.

Az oktatási és kormányzati szervezetek, valamint az iparág vállalatai számára az üzleti átalakítás legnagyobb lehetősége a felhalmozott adatok és az úgynevezett sötét adatok (szó szerint "sötét adatok") kombinációjában rejlik, ez utóbbi magában foglalja az e-maileket, multimédiát és más hasonló tartalom. A Gartner szerint azok fogják megnyerni az adatversenyt, akik megtanulnak sokféle információforrást kezelni.

Cisco Survey: A Big Data segít növelni az informatikai költségvetést

A 2013 tavaszi felmérésben a független CANCO elemzőcég, az InsightExpress 18 országban végzett Cisco Connected World Technology Report, 18 főiskolai hallgatót és hasonló számú, 18-30 év közötti fiatal szakembert kérdezett meg. A felmérést azért végezték, hogy kiderítsék az informatikai részlegek felkészültségét a projektek megvalósítására Nagy adatés megérteni az ehhez kapcsolódó kihívásokat, technológiai hiányosságokat és az ilyen projektek stratégiai értékét.

A legtöbb vállalat adatokat gyűjt, rögzít és elemez. Ennek ellenére a jelentés szerint sok vállalat szembesül számos összetett üzleti és információtechnológiai kihívással a Big Data kapcsán. Például a megkérdezettek 60 százaléka elismeri, hogy a Big Data megoldások javíthatják a döntéshozatali folyamatokat és növelhetik a versenyképességet, de csak 28 százalék mondta azt, hogy már valódi stratégiai előnyöket kap a felhalmozott információkból.

A megkérdezett informatikai vezetők több mint fele úgy véli, hogy a Big Data projektek elősegítik a szervezetek informatikai költségvetésének növelését, mivel megnövekednek a technológiára, a személyzetre és a szakmai készségekre vonatkozó követelmények. Ugyanakkor a válaszadók több mint fele arra számít, hogy az ilyen projektek már 2012 -ben megnövelik vállalataik informatikai költségvetését. 57 százalék bízik abban, hogy a Big Data növeli költségvetését a következő három évben.

A válaszadók 81 százaléka szerint minden (vagy legalább néhány) Big Data projekt felhőalapú számítást igényel. Így a felhőalapú technológiák elterjedése befolyásolhatja a Big Data megoldások terjesztésének sebességét és ezen megoldások értékét az üzlet számára.

A vállalatok sokféle adattípust gyűjtenek és használnak, strukturált és strukturálatlan. Íme azok a források, amelyekből a felmérésben résztvevők adatokat szereznek (Cisco Connected World Technology Report):

A CIO -k közel fele (48 százaléka) azt jósolja, hogy hálózataik terhelése megkétszereződik a következő két évben. (Különösen igaz ez Kínára, ahol a megkérdezettek 68 százaléka tartja ezt a nézetet, Németország pedig 60 százalék.) A válaszadók 23 százaléka arra számít, hogy a következő két évben megháromszorozódik a hálózati terhelés. Ugyanakkor a válaszadók mindössze 40 százaléka nyilatkozott arról, hogy készen áll a hálózati forgalom robbanásszerű növekedésére.

A megkérdezettek 27 százaléka elismerte, hogy jobb informatikai politikára és információbiztonsági intézkedésekre van szüksége.

21 százaléknak nagyobb sávszélességre van szüksége.

A Big Data új lehetőségeket nyit meg az informatikai részlegek számára, hogy értéket teremtsenek és erős kapcsolatokat építsenek ki az üzleti egységekkel, növelve a bevételeket és erősítve a vállalat pénzügyi helyzetét. A Big Data projektek az informatikai részlegeket az üzleti egységek stratégiai partnereivé teszik.

A válaszadók 73 százaléka szerint az informatikai részleg lesz a Big Data stratégia fő hajtóereje. Ugyanakkor a válaszadók úgy vélik, hogy más osztályok is részt vesznek e stratégia végrehajtásában. Először is, ez a pénzügyi (a válaszadók 24 százaléka nevezte meg), kutatási és fejlesztési (20 százalék), működési (20 százalék), mérnöki (19 százalék), valamint marketing (15 százalék) osztályokat érinti. eladások (14 százalék).

Gartner: Millió új munkahely szükséges a Big Data kezeléséhez

A világ informatikai kiadásai 2013 -ra elérik a 3,7 milliárd dollárt, ami 3,8% -kal több, mint a 2012 -ben az információtechnológiára fordított kiadások (az év végi előrejelzés 3,6 milliárd dollár). Szegmens nagy adat(big data) sokkal gyorsabb ütemben fog növekedni a Gartner jelentése szerint.

2015 -re az információtechnológia területén 4,4 millió munkahelyet hoznak létre a big data kiszolgálására, ebből 1,9 millió munkahelyet. Ezenkívül minden ilyen munkahely három további munkahely létrehozását vonja maga után az informatikai szektoron kívül, így csak az Egyesült Államokban a következő négy évben 6 millió ember fog dolgozni az információs gazdaság támogatása érdekében.

A Gartner szakértői szerint a fő probléma az, hogy ehhez nincs elég tehetség az iparban: mind a magán-, mind a közoktatási rendszer, például az Egyesült Államokban, nem tudja ellátni az iparágat elegendő számú képesített szakemberrel. személyzet. Tehát az említett új informatikai munkahelyek közül a három közül csak egyet biztosítanak személyzettel.

Az elemzők úgy vélik, hogy a képzett IT -személyzet művelésének szerepét közvetlenül azoknak a vállalatoknak kell felvállalniuk, amelyekre nagy szükségük van, mivel ezek az alkalmazottak kapuvá válnak számukra a jövő új információs gazdaságába.

2012

Első szkepticizmus a Big Data -val kapcsolatban

Az Ovum és a Gartner elemzői azt javasolják, hogy egy trendi 2012 -es témához nagy adat lehet, hogy ideje leszabadítani az illúziót.

A "Big Data" kifejezés ebben az időben általában a közösségi médiából, a szenzorhálózatokból és más forrásokból érkező, folyamatosan növekvő mennyiségű információra utal, valamint az adatok feldolgozására és a fontos üzleti trendek azonosítására használt eszközök növekvő választékára.

„A big data ötlete miatti felháborodás (vagy annak ellenére) miatt a gyártók 2012 -ben nagy reményekkel nézték ezt a tendenciát” - mondta Tony Bayer, az Ovum elemzője.

Bayer szerint a DataSift retrospektív elemzést végzett a big data említésekről

A big data tág fogalom a nem hagyományos stratégiákra és technológiákra, amelyek a nagy adathalmazokból származó információk összegyűjtéséhez, rendszerezéséhez és feldolgozásához szükségesek. Bár az egyetlen számítógép feldolgozási teljesítményét vagy tárolókapacitását meghaladó adatok kezelésének problémája nem új keletű, az ilyen típusú számítástechnika mérete és értéke jelentősen bővült az elmúlt években.

Ebben a cikkben megtalálja azokat az alapfogalmakat, amelyekkel a big data feltárása során találkozhat. Ezenkívül tárgyalja az ezen a területen jelenleg használt folyamatokat és technológiákat.

Mi az a Big Data?

A Big Data pontos meghatározását nehéz megfogalmazni, mivel a projektek, a szállítók, a gyakorlók és az üzleti szakemberek nagyon különböző módon használják. Ezt szem előtt tartva a big data a következőképpen határozható meg:

  • Nagy adathalmazok.
  • A nagy adathalmazok feldolgozására használt számítási stratégiák és technológiák kategóriája.

Ebben az összefüggésben a "nagy adathalmaz" olyan adatkészletet jelent, amely túl nagy ahhoz, hogy hagyományos eszközökkel vagy egyetlen számítógépen lehessen feldolgozni vagy tárolni. Ez azt jelenti, hogy a nagy adathalmazok általános skálája folyamatosan változik, és esetenként jelentősen eltérhet.

Nagy adatrendszerek

A nagy adatokkal való munkavégzés alapvető követelményei megegyeznek bármely más adatkészlettel. Mindazonáltal a folyamat minden szakaszában felmerülő adatok hatalmas mérete, feldolgozási sebessége és jellemzői jelentős új kihívásokat jelentenek a szerszámtervezésben. A legtöbb nagy adatrendszer célja a nagy mennyiségű heterogén adat megértése és azokkal való kommunikáció, ami hagyományos módszerekkel nem lenne lehetséges.

2001 -ben a Gartner -féle Doug Laney bemutatta a „Három nagyméretű adatot”, hogy leírja azokat a jellemzőket, amelyek megkülönböztetik a nagy adatfeldolgozást a többi adatfeldolgozástól:

  1. Hangerő (adatmennyiség).
  2. Sebesség (az adatgyűjtés és -feldolgozás sebessége).
  3. Változatosság (különféle típusú feldolgozott adatok).

Adatmennyiség

A feldolgozott információk puszta skálája segít meghatározni a nagy adatrendszereket. Ezek az adatkészletek nagyságrendekkel nagyobbak lehetnek, mint a hagyományos adatkészletek, és a feldolgozás és tárolás minden szakaszában nagyobb figyelmet igényelnek.

Mivel a követelmények meghaladják egyetlen számítógép képességeit, gyakran nehéz kombinálni, kiosztani és összehangolni a számítógépes csoportokból származó erőforrásokat. A klasztervezérlés és a feladatokat kisebb darabokra bontó algoritmusok egyre fontosabbak ezen a területen.

Felhalmozási és feldolgozási sebesség

A második jellemző, amely jelentősen megkülönbözteti a nagy adatokat a többi adatrendszertől, az a sebesség, amellyel az információ áthalad a rendszeren. Az adatok gyakran több forrásból érkeznek a rendszerbe, és azokat valós időben kell feldolgozni a rendszer aktuális állapotának frissítéséhez.

Ez az azonnali visszacsatolás előtérbe helyezése sok gyakorlót arra késztetett, hogy hagyja abba a kötegorientált megközelítést a valós idejű streaming rendszer javára. Az adatokat folyamatosan adják hozzá, dolgozzák fel és elemzik, hogy lépést tartsanak az új információk beáramlásával, és értékes adatokat szerezzenek a korai szakaszban, amikor a legrelevánsabbak. Ehhez megbízható rendszerekre van szükség magas rendelkezésre állású alkatrészekkel, amelyek megvédik az adatvezeték mentén fellépő meghibásodásoktól.

Különféle típusú feldolgozott adatok

A big data sok egyedi kihívást rejt magában a feldolgozott források széles körével és azok relatív minőségével kapcsolatban.

Az adatok származhatnak belső rendszerekből, például alkalmazás- és szervernaplókból, közösségi média hírcsatornákból és más külső API -kból, fizikai eszközérzékelőkből és más forrásokból. A nagy adatrendszerek célja a potenciálisan hasznos adatok feldolgozása, függetlenül azok eredetétől, az összes információ egyetlen rendszerbe történő egyesítésével.

A médiaformátumok és típusok is jelentősen eltérhetnek. A médiát (képeket, videót és hangot) szöveges fájlokkal, strukturált naplókkal stb. Kombinálják. A hagyományosabb adatfeldolgozó rendszerek elvárják, hogy az adatok már címkézett, formázott és rendszerezett módon kerüljenek a folyamatba, de a nagy adatrendszerek általában elfogadják és tárolják az adatokat azzal, hogy megpróbálják megőrizni eredeti állapotukat. Ideális esetben a nyers adatok bármilyen átalakítása vagy módosítása a memóriában történik a feldolgozás során.

Egyéb jellemzők

Idővel a szakértők és szervezetek az eredeti Three V bővítését javasolták, bár ezek az újítások inkább a problémákat írják le, mint a big data jellemzőit.

  • Valódiság: A források sokfélesége és a feldolgozás összetettsége problémákat okozhat az adatok minőségének (és így a kapott elemzés minőségének) értékelésében.
  • Változékonyság: Az adatok megváltoztatása jelentős minőségi változásokat eredményez. Az alacsony minőségű adatok azonosítása, feldolgozása vagy szűrése további erőforrásokat igényelhet, amelyek javíthatják az adatok minőségét.
  • Érték: A big data végső célja az érték. Néha a rendszerek és folyamatok nagyon összetettek, ami megnehezíti az adatok felhasználását és a tényleges értékek kinyerését.

Big data életciklus

Tehát hogyan történik a nagy adatok feldolgozása? A megvalósításnak többféle megközelítése létezik, de a stratégiákban és a szoftverekben is van hasonlóság.

  • Adatok bevitele a rendszerbe
  • Adatok mentése a tárolóba
  • Adatok számítása és elemzése
  • Eredmények megjelenítése

Mielőtt részletesen belevetnénk magunkat ebbe a négy munkafolyamat -kategóriába, beszéljünk a fürtös számítástechnikáról, amely fontos stratégia, amelyet sok big data eszköz használ. A számítási klaszter felállítása az életciklus minden szakaszában alkalmazott technológia gerincét jelenti.

Fürtszámítás

A big data minősége miatt az egyes számítógépek nem alkalmasak adatfeldolgozásra. A fürtök alkalmasabbak erre, mivel képesek megbirkózni a big data tárolási és számítási igényeivel.

A nagy adathalmazokat tömörítő szoftverek sok kisgép erőforrásait összesítik, és számos előnyt kívánnak nyújtani:

  • Erőforrások egyesítése: A nagy adathalmazok feldolgozása nagy mennyiségű processzor- és memória -erőforrást, valamint sok rendelkezésre álló tárhelyet igényel.
  • Magas rendelkezésre állás: A fürtök különböző szintű hibatűrést és rendelkezésre állást biztosíthatnak, így a hardver- vagy szoftverhibák nem befolyásolják az adatok elérését és feldolgozását. Ez különösen fontos a valós idejű elemzéseknél.
  • Skálázhatóság: A fürtök támogatják a gyors skálázást (új gépek hozzáadása a fürthöz).

A fürtben való munkavégzéshez eszközökre van szükség a fürttagság kezeléséhez, az erőforrás -allokáció összehangolásához és az ütemezési munkához az egyes csomópontokkal. A fürttagság és az erőforrás -allokáció kezelhető olyan programokkal, mint a Hadoop YARN (Még egy erőforrás -tárgyaló) vagy az Apache Mesos.

Az előregyártott számítási fürt gyakran az a gerinc, amellyel más szoftverek kölcsönhatásba lépnek az adatok feldolgozásával. A számítási fürtben részt vevő gépek jellemzően elosztott tárolási rendszer kezeléséhez is kapcsolódnak.

Adatok lekérése

Az adatok fogadása a nyers adatok rendszerbe történő hozzáadásának folyamata. E művelet összetettsége nagyban függ az adatforrások formátumától és minőségétől, valamint attól, hogy az adatok mennyire felelnek meg a feldolgozási követelményeknek.

Speciális eszközökkel adhat hozzá nagy adatokat a rendszerhez. Az olyan technológiák, mint az Apache Sqoop, képesek meglévő adatokat venni a relációs adatbázisokból, és hozzáadni egy nagy adatrendszerhez. Az Apache Flume és az Apache Chukwa projekteket is használhatja alkalmazás- és szervernaplók összesítésére és importálására. Az üzenetközvetítők, mint például az Apache Kafka, interfészként használhatók a különböző adatgenerátorok és a big data rendszer között. Az olyan keretrendszerek, mint a Gobblin, kombinálhatják és optimalizálhatják az összes eszköz kimenetét a folyamat végén.

Az elemzés, a válogatás és a címkézés általában az adatgyűjtés során történik. Ezt a folyamatot néha ETL -nek (kivonat, transzformáció, betöltés) hívják, ami kivonást, átalakítást és betöltést jelent. Míg a kifejezés általában a régi tárolási folyamatokra utal, néha a nagy adatrendszerekre is alkalmazzák. A tipikus műveletek közé tartozik a bejövő adatok módosítása formázáshoz, kategorizálás és címkézés, az adatok szűrése vagy érvényesítése a megfelelőség érdekében.

Ideális esetben a bejövő adatok minimális formázáson mennek keresztül.

Adattárolás

A beérkezés után az adatokat továbbítják a tárolót kezelő összetevőknek.

Az elosztott fájlrendszereket általában nyers adatok tárolására használják. Az olyan megoldások, mint az Apache Hadoop HDFS, lehetővé teszik nagy mennyiségű adat írását a fürt több csomópontjára. Ez a rendszer számítási erőforrásokat biztosít az adatokhoz, betöltheti az adatokat a fürt RAM -ba a memóriaműveletekhez, és kezelheti az alkatrészhibákat. A HDFS helyett más elosztott fájlrendszerek is használhatók, köztük a Ceph és a GlusterFS.

Az adatok más elosztott rendszerekbe is importálhatók a strukturáltabb hozzáférés érdekében. Az elosztott adatbázisok, különösen a NoSQL adatbázisok, nagyon alkalmasak erre a szerepkörre, mivel képesek heterogén adatokat kezelni. Sok különböző típusú elosztott adatbázis létezik, a választás attól függ, hogyan szeretné rendszerezni és bemutatni az adatait.

Adatok számítása és elemzése

Amint az adatok rendelkezésre állnak, a rendszer megkezdheti a feldolgozást. A számítási réteg talán a rendszer legszabadabb része, mivel az itt támasztott követelmények és megközelítések jelentősen eltérhetnek az információ típusától függően. Az adatokat gyakran újrafeldolgozzák, akár egyetlen eszközzel, akár különféle eszközök feldolgozásával.

A kötegelt feldolgozás az egyik módszer a nagy adathalmazok kiszámítására. Ez a folyamat magában foglalja az adatok kisebb darabokra bontását, az egyes darabok feldolgozásának ütemezését egy külön gépen, az adatok átrendezését a köztes eredmények alapján, majd a végeredmény kiszámítását és összegyűjtését. Ezt a stratégiát használja a MapReduce az Apache Hadoop -tól. A kötegelt feldolgozás akkor a leghasznosabb, ha nagyon nagy adathalmazokkal dolgozik, amelyek sok számítást igényelnek.

Más munkaterhelések valós idejű feldolgozást igényelnek. Ebben az esetben az információkat azonnal fel kell dolgozni és elő kell készíteni, és a rendszernek időben reagálnia kell, amint új információk állnak rendelkezésre. A valós idejű feldolgozás egyik módja a diszkrét elemekből származó folyamatos adatfolyam feldolgozása. A valós idejű processzorok másik közös jellemzője a fürtmemóriában lévő adatok kiszámítása, aminek köszönhetően nincs szükség lemezre írásra.

Az Apache Storm, az Apache Flink és az Apache Spark különböző módon kínál valós idejű feldolgozást. Ezek a rugalmas technológiák lehetővé teszik, hogy az egyes problémákhoz a legjobb megközelítést válassza. Általánosságban elmondható, hogy a valós idejű feldolgozás a legalkalmasabb a rendszerben változó vagy gyorsan hozzáadott kis adatok elemzésére.

Mindezek a programok keretrendszerek. Azonban sok más módszer is létezik az adatok kiszámítására vagy elemzésére egy nagy adatrendszerben. Ezek az eszközök gyakran csatlakoznak a fenti keretrendszerekhez, és további interfészeket biztosítanak az alatta lévő rétegekkel való interakcióhoz. Például az Apache Hive adattárház -felületet biztosít a Hadoop számára, az Apache Pig lekérdezési felületet, az interakciót pedig az SQL -adatokkal az Apache Drill, az Apache Impala, az Apache Spark SQL és a Presto segítségével. A gépi tanulás az Apache SystemML, az Apache Mahout és az Apache Spark MLlib -jét használja. A közvetlen analitikai programozáshoz, amelyet az adat ökoszisztéma széles körben támogat, az R és a Python használható.

Eredmények megjelenítése

Az adatok időbeli alakulásának vagy változásainak felismerése gyakran fontosabb, mint a kapott értékek. Az adatábrázolás az egyik leghasznosabb módszer a trendek azonosítására és nagyszámú adatpont megszervezésére.

A valós idejű feldolgozást az alkalmazás és a szerver mutatóinak megjelenítésére használják. Az adatok gyakran változnak, és a mutatók nagy szórása általában jelentős hatást jelez a rendszerek vagy szervezetek állapotára. Az olyan projektek, mint a Prometheus, felhasználhatók adatfolyamok és idősorok feldolgozására és megjelenítésére.

Az adatok megjelenítésének egyik népszerű módja az elasztikus verem, korábbi nevén ELK verem. A Logstash adatgyűjtésre, az Elasticsearch az adatok indexelésére, a Kibana pedig a vizualizációra szolgál. Az elasztikus verem nagy adatokkal dolgozhat, megjelenítheti a számítások eredményeit, vagy kölcsönhatásba léphet a nyers metrikákkal. Hasonló verem érhető el azáltal, hogy az Apache Solr -t kombinálja az indexeléshez a Banana nevű Kibana villával. Ez a verem Silk.

Az interaktív adatmunka másik vizualizációs technológiája a dokumentumok. Az ilyen projektek lehetővé teszik az adatok interaktív feltárását és megjelenítését olyan formában, amely könnyen megosztható és bemutatható. Az ilyen típusú felület népszerű példái a Jupyter Notebook és az Apache Zeppelin.

A Big Data szószedete

  • A big data tág fogalom azoknak az adatkészleteknek, amelyeket méretük, érkezési sebességük és változatosságuk miatt a hagyományos számítógépek vagy eszközök nem tudnak megfelelően feldolgozni. A kifejezést gyakran használják az ilyen adatokkal való munkavégzés technológiáira és stratégiáira is.
  • A kötegelt feldolgozás egy számítási stratégia, amely magában foglalja az adatok nagy adathalmazokban történő feldolgozását. Általában ez a módszer ideális a nem sürgős adatok kezelésére.
  • A fürtös számítástechnika az a gyakorlat, amikor több gép erőforrásait egyesítik, és közös képességeiket kezelik a feladatok elvégzéséhez. Ehhez fürtkezelő rétegre van szükség, amely kezeli az egyes csomópontok közötti kommunikációt.
  • Az adattó viszonylag nyers állapotban gyűjtött adatok nagy tárháza. Ezt a kifejezést gyakran használják a strukturálatlan és gyakran változó nagy adatokra.
  • Az adatbányászat tág fogalom a nagy adatkészletekben található minták keresésének különböző gyakorlatára. Ez egy kísérlet arra, hogy az adattömeget érthetőbb és koherensebb információhalmazba rendezze.
  • Az adattárház nagyméretű, rendezett tároló elemzéshez és jelentésekhez. Az adattókkal ellentétben a raktár formázott és jól rendezett adatokból áll, amelyek más forrásokkal vannak integrálva. Az adattárházakra gyakran hivatkoznak a nagy adatokkal kapcsolatban, de gyakran a hagyományos adatfeldolgozó rendszerek összetevői.
  • ETL (kivonás, átalakítás és betöltés) - adatok kinyerése, átalakítása és betöltése. Így néz ki a nyers adatok beszerzésének és felhasználásra való előkészítésének folyamata. Az adattárházakhoz kapcsolódik, de ennek a folyamatnak a jellemzői megtalálhatók a nagy adatrendszerek csővezetékeiben is.
  • A Hadoop egy nyílt forráskódú Apache projekt a big data számára. Ez egy HDFS nevű elosztott fájlrendszerből és egy YARN nevű fürtből és erőforrás -ütemezőből áll. A kötegelt feldolgozási lehetőségeket a MapReduce számítási motor biztosítja. Más számítási és elemzési rendszerek is futtathatók a MapReduce segítségével a modern Hadoop telepítésekben.
  • A memórián belüli számítás olyan stratégia, amely magában foglalja az összes működő adathalmaz áthelyezését a fürt memóriájába. A köztes számításokat nem írják lemezre, hanem a memóriában tárolják. Ez hatalmas előnyt biztosít a rendszereknek az I / O-val kapcsolatos rendszerekkel szemben.
  • A gépi tanulás olyan rendszerek tervezésének tanulmányozása és gyakorlata, amelyek tanulhatnak, csíphetnek és javíthatnak a továbbított adatok alapján. Ez általában a prediktív és statisztikai algoritmusok megvalósítását jelenti.
  • A térképcsökkentés (nem tévesztendő össze a Hadoop MapReduce -jával) egy algoritmus a számítási fürt ütemezéséhez. A folyamat magában foglalja a feladat felosztását a csomópontok között és közbenső eredmények beszerzését, a véletlenszerű keverést, majd minden egyes halmazhoz egyetlen érték kiadását.
  • A NoSQL egy széles kifejezés a hagyományos relációs modellen kívül kifejlesztett adatbázisokra. A NoSQL adatbázisok rugalmasságuk és elosztott architektúrájuk miatt jól alkalmasak nagy adatokra.
  • A streamelés az egyes adatok elemzésének gyakorlata, amikor azok a rendszeren keresztül mozognak. Ez lehetővé teszi a valós idejű adatelemzést, és alkalmas a sürgős tranzakciók kezelésére nagysebességű mérőszámok használatával.
Címkék :,