Обем, скорост и разнообразие: Разбиране на трите V на големите данни

За тези, които се борят да разберат големите данни, има три ключови концепции, които могат да помогнат: обем, скорост и разнообразие. Тези три вектора описват колко много големи данни са толкова различни от управлението на данни от старата школа.

Видео: Как да изградим корпоративна култура, която е готова да приеме големи данни

Бележка на редактора: Тази статия е публикувана първоначално през 2016 г. и е актуализирана за 2018 г.

Ние, практикуващите технологични изкуства, сме склонни да използваме специализиран жаргон. Това не е необичайно. Повечето гилдии, жречества и професии са имали свой собствен стил на комуникация или за удобство, или за създаване на усещане за изключителност. В технологиите ние също сме склонни да прикачваме много прости модни думи към много сложни теми и след това очакваме останалият свят да се съгласи с тях.

Вземете например екипа за етикети на „облак“ и „големи данни“. Терминът "облак" се появява, защото системните инженери са чертаели мрежови диаграми на локални мрежи. Между диаграмите на LAN бихме начертали подобна на облак бъркотия, предназначена да се отнася до почти „недефинираните неща между тях." Разбира се, интернет се превърна в крайното недефинирано нещо между тях, а облакът стана Облак.

TechRepublic: За доказателство за успех с големи данни не търсете повече от машинното обучение

За чичо Стив, леля Беки и Джанис от счетоводството „Облакът“ означава мястото, където съхранявате вашите снимки и други неща. Много хора всъщност не знаят, че „облак“ е съкратено, а реалността на облака е разрастването на почти невъобразимо огромни центрове за данни, съдържащи огромно количество информация.

Big data е още една от тези съкратени думи, но това е нещо, което Джанис от счетоводството, Джак от маркетинга и Боб от борда наистина трябва да разберат. Големите данни не само могат да отговорят на големи въпроси и да отворят нови врати за възможности, вашите конкуренти почти несъмнено използват големи данни за собственото си конкурентно предимство.

Това, разбира се, повдига въпроса: какво са големи данни? Отговорът, както повечето в технологиите, зависи от вашата гледна точка. Ето един добър начин да мислите за това. Големите данни са данни, които са твърде големи, за да могат да се справят с традиционното управление на данни.

Голямото, разбира се, също е субективно. Ето защо ще го опишем според три вектора: обем, скорост и разнообразие -- трите Vs.

Сила на звука

Обемът е V, който се свързва най-много с големи данни, защото обемът може да бъде голям. Това, за което говорим тук, са количества данни, които достигат почти неразбираеми размери.

Вижте също

Големи данни и цифрова трансформация: Как едното позволява другото

Удавянето в данни не е същото като големите данни. Ето истинската дефиниция на големите данни и мощен пример за това как те се използват за захранване на цифровата трансформация.

Прочетете сега

Facebook, например, съхранява снимки. Това твърдение не започва да озадачава ума ви, докато не започнете да осъзнавате, че Facebook има повече потребители, отколкото Китай има хора. Всеки от тези потребители е съхранил много снимки. Facebook съхранява приблизително 250 милиарда изображения.

Можеш ли да си представиш? Сериозно. Продължавай. Опитайте се да обгърнете 250 милиарда изображения. Опитай това. Още през 2016 г. Facebook имаше 2,5 трилиона публикации. Сериозно, това е толкова голямо число, че е почти невъзможно да се представи.

И така, в света на големите данни, когато започнем да говорим за обем, говорим за безумно големи количества данни. Докато вървим напред, ще имаме все повече и повече огромни колекции. Например, когато добавяме свързани сензори към почти всичко, всички тези телеметрични данни ще се добавят.

Колко ще се добави? Помислете за това. Оценка на Gartner, Cisco и Intel ще има между 20 и 200 (не, не са съгласни, изненада!) свързани IoT устройства, броят им е огромен, независимо от всичко. Но това не е само количеството устройства.

Помислете колко данни излизат от всеки един. имам температурен сензор в моя гараж. Дори с едноминутно ниво на детайлност (едно измерване на минута), това пак са 525 950 точки от данни за една година и това е само един сензор. Да кажем, че имате фабрика с хиляда сензора, разглеждате половин милиард точки от данни, само за температурата.

Или помислете за нашия нов свят от свързани приложения. Всеки носи смартфон. Нека да разгледаме прост пример, приложение за списък със задачи. Все повече доставчици управляват данни от приложенията в облака, така че потребителите да имат достъп до своите списъци със задачи на различни устройства. Тъй като много приложения използват a freemium модел, където безплатна версия се използва като лидер на загубите за премиум версия, доставчиците на приложения, базирани на SaaS, обикновено имат много данни за съхранение.

Todoist, например (мениджърът със задачи, който използвам) има приблизително 10 милиона активни инсталации, според Android Play. Това не включва всички инсталации в мрежата и iOS. Всеки от тези потребители има списъци с елементи - и всички тези данни трябва да се съхраняват. Todoist със сигурност не е от мащаба на Facebook, но те все още съхраняват значително повече данни, отколкото почти всяко приложение дори преди десетилетие.

След това, разбира се, има всички вътрешни колекции от данни на предприятието, вариращи от енергийната индустрия през здравеопазването до националната сигурност. Всички тези индустрии генерират и събират огромни количества данни.

Това е векторът на обема.

Скорост

Помните ли нашия пример с Facebook? 250 милиарда изображения може да изглеждат много. Но ако искате да ви взриви ума, помислете за това: потребителите на Facebook качват повече от 900 милиона снимки на ден. А ден. Така че числото от 250 милиарда от миналата година ще изглежда като капка в кофата след няколко месеца.

Също: Facebook обяснява Fabric Aggregator, своята разпределена мрежова система

Скоростта е мярката за това колко бързо постъпват данните. Facebook трябва да се справя с цунами от снимки всеки ден. Трябва да го погълне всичко, да го обработи, да го архивира и по някакъв начин, по-късно, да може да го извлече.

Ето още един пример. Да приемем, че провеждате маркетингова кампания и искате да знаете как хората „навън“ се чувстват към вашата марка в момента. Как бихте го направили? Един от начините би бил да лицензирате някои данни от Twitter от Gnip (придобит от Twitter), за да вземете постоянен поток от туитове и да ги подложите на анализ на настроенията.

Тази емисия с данни в Twitter често се нарича „пожарен маркуч“, защото се произвеждат толкова много данни (под формата на туитове), че се чувствате като в бизнес края на пожарния маркуч.

Ето още един пример за скорост: анализ на пакети за киберсигурност. Интернет изпраща огромно количество информация по света всяка секунда. За корпоративен ИТ екип, част от това наводнение трябва да премине през защитни стени в корпоративна мрежа.

За съжаление, поради нарастването на кибератаките, киберпрестъпленията и кибершпионажа, зловещите полезни товари могат да бъдат скрити в този поток от данни, преминаващ през защитната стена. За да се предотврати компромис, този поток от данни трябва да бъде проучен и анализиран за аномалии, модели на поведение, които са тревожни. Това става все по-трудно, тъй като все повече и повече данни са защитени чрез криптиране. В същото време лошите крият полезния си товар от зловреден софтуер в криптирани пакети.

Какво е IoT?

Всичко, което трябва да знаете за Интернет на нещата в момента

Интернет на нещата обяснява: какво е IoT и накъде ще върви след това.

Прочетете сега

Или вземете данни от сензора. Колкото повече се развива Интернет на нещата, толкова повече свързани сензори ще бъдат в света, предаващи малки битове данни с почти постоянна скорост. С увеличаването на броя на единиците се увеличава и потокът.

Този поток от данни е векторът на скоростта.

Разнообразие

Може би сте забелязали, че говорих за снимки, данни от сензори, туитове, криптирани пакети и т.н. Всеки от тях е много различен един от друг. Тези данни не са старите редове и колони и обединения на бази данни на нашите предци. То е много различно от приложение до приложение и голяма част от него е неструктурирано. Това означава, че не се побира лесно в полета на електронна таблица или приложение за база данни.

Вземете например имейл съобщенията. Процесът на правно откриване може да изисква пресяване на хиляди до милиони имейл съобщения в колекция. Нито едно от тези съобщения няма да бъде точно като друго. Всеки от тях ще се състои от имейл адрес на изпращача, дестинация плюс времеви печат. Всяко съобщение ще има написан от човек текст и евентуално прикачени файлове.

Снимки и видеозаписи и аудиозаписи и имейл съобщения и документи и книги и презентации и туитове и ЕКГ ленти са всички данни, но те обикновено са неструктурирани и невероятно разнообразни.

Цялото това разнообразие от данни съставлява вектора на разнообразието от големи данни.

Управление на трите Vs

Ще е необходима библиотека от книги, за да се опишат всички различни методи, които практикуващите големи данни използват за обработка на трите Vs. Засега обаче големият ви извод трябва да бъде следният: щом започнете да говорите за данни с термини, които надхвърлят основните кофи, щом започнете да говорите за епични количества, безумен поток и широк асортимент, вие говорите за големи данни.

Една последна мисъл: вече има начини да пресеете цялата тази лудост и да извлечете прозрения, които могат да бъдат приложени за решаване на проблеми, разпознаване на модели и идентифициране на възможности. Този процес се нарича анализи и затова, когато чуете обсъждане на големи данни, често чувате термина анализи, използван в същото изречение.

Трите V описват данните, които трябва да бъдат анализирани. Анализът е процес на извличане на стойност от тези данни. Взети заедно, има потенциал за невероятно прозрение или тревожно недоглеждане. Както всяка друга велика сила, големите данни идват с големи обещания и голяма отговорност.

Между другото, правя повече актуализации в Twitter и Facebook от всякога. Не забравяйте да ме последвате в Twitter на @DavidGewirtz и във Facebook на Facebook.com/DavidGewirtz.

Свързано покритие

Големи данни 2018: Облачното съхранение се превръща в де факто езерото за данни

Докато AI, IoT и GDPR грабват заглавията, не забравяйте за въздействието върху поколенията, което облачната миграция и поточно предаване ще имат върху внедряването на големи данни.

Ръководство на ръководителя за IoT и големи данни (безплатна електронна книга)

Интернет на нещата и големите данни растат с астрономическа скорост. Тази електронна книга изследва последствията и ползите от тази разширяваща се дигитална вселена -- и какво може да означава това за вашата организация.

Един ден в науката за данни: д-р Шреста Басу Малик от Salesforce

Ето един поглед към начина, по който учен по данни на Salesforce подходи към модел за оптимизиране на цените въз основа на това, което опитните продавачи правеха в областта.

10-те града с най-високи заплати за специалисти по данни [TechRepublic]

Обявите за работа за специалисти по данни са се увеличили със 75% от 2015 г. Ето най-добрите места за намиране на високоплатена работа в областта.