Анализът, базиран на данни, развенчава твърденията, че NSA е извън контрол (Специален доклад)

Ако тези числа бяха докладвани в корпоративна ситуация, те биха се считали за абсолютен триумф на управлението и прилагането на големи данни. АКТУАЛИЗАЦИЯ: Отговор/корекции/разяснения от репортер на Washington Post.

ВАЖНА АКТУАЛИЗАЦИЯ: Моля, вижте края на тази статия за подробен отговор от Бартън Гелман от Washington Post. Той изяснява някои от моите твърдения, призовава ме за някои и ни дава много по-добро разбиране на други. Той публикува този отговор на коментарите, но не искам да се изгуби.

Колко отвратителна е Агенцията за национална сигурност? Ако се вярва на съобщенията в пресата и публикациите в блогове, NSA и целият правителствен апарат за наблюдение на Съединените щати са напълно извън контрол и ние се насочваме към Гестапо-стил състояние.

Но наистина ли е така? Какво казват данните за това?

Да започнем с основен проблем. Големите числа са трудни за визуализиране на хората. Наистина наистина, наистина ли големи числа е невъзможно да се визуализират.

Лошото, което произтича от това когнитивно ограничение, е, че е възможно да се изкриви общественото възприятие, като се изхвърлят много звучащи числа. Дори и да се направи опит да се поставят тези числа в перспектива, повечето читатели грабват най-пикантното късче информация, обикновено от заглавието, и това е, което става тяхното вътрешно представяне на факти.

Така че позволете ми да обобщя резултатите от моето разследване, базирано на данни, и след това да ви преведа през подробностите. Ето обобщение на резултатите от моя анализ:

Facebook улавя 20 пъти повече данни на ден (само за регистрационните файлове на сървъра, без да се броят публикациите на всички), отколкото NSA улавя общо.
The Системите за подбор на NSA всъщност са безумно точни. Ако сравните всички данни, които те улавят, с времето за една година, броят на грешките, които правят, възлиза на около една четвърт от милисекунда.
Действителното количество грешни байтове данните, които NSA записва, възлизат на по-малко от една MP3 песен на седмица.
Ако тези числа бяха отчетени в корпоративна ситуация, те биха се считали за абсолютен триумф управление и внедряване на големи данни.

И така, ето го. Заглавията преувеличават фактите. Сега нека ви преведа през всички подробности. Да започнем със случилото се в четвъртък.

Доклади за нарушени правила за поверителност

В четвъртък Барт Гелман, носител на наградата Пулицър кореспондент на Washington Post, съобщи "NSA нарушава правилата за поверителност хиляди пъти годишно, установи одит." Разкриване: Барт пишеше за една от моите публикации преди десетина години.

Според Post, одит на NSA описва „2776 инцидента през предходните 12 месеца на неоторизирано събиране, съхранение, достъп до или разпространение на законно защитени комуникации." Това описва периода от около май 2011 г. до май 2012.

От този доклад се надигна шум и вик в цялата страна, по-специално от Electronic Frontier Foundation, който заяви, "Шпиониране на NSA: Трите стълба на правителственото доверие са паднали."

Важно е да отбележа, преди да продължа по-нататък, че изпитвам невероятна степен на уважение както към Барт, така и към EFF. Но, за да перифразираме президента Клинтън, време е да използваме малко аритметика.

Обем от данни на НСА

Ето откъде идват наистина големите числа. Според самата NSA, в документ, публикуван за обществеността (PDF), интернет като цяло носи 1826 петабайта информация на ден. Дръж се с мен тук. Числата няма да имат много смисъл за известно време, но ще ги свържа заедно, за да можете да разберете голямата картина.

От тези 1826 петабайта NSA "докосва" 1,6%, или малко под 30 петабайта. Докато NSA не дефинира подробно „докосванията“, можем да приемем от контекста, че те означават, че данните преминават за кратко през техните мрежи и/или центрове за събиране на данни. Знам, че не можете да си представите нито 1826 петабайта, нито 30 петабайта, но засега не се тревожете за това. Остани с мен. Това ще има смисъл скоро.

NSA разкри, че от тези 30 петабайта, които „докосва“, само 0,025% са „избрани за преглед“. Това число е около 7,3 терабайта. Чрез „избрани за преглед“ можем справедливо да предположим, че около 7,3 терабайта са добавени към глобалните бази данни на NSA и може да бъдат проверени от федерални агенти.

След минута ще се върна към 2776-те „инцидента“ на Washington Post. Първо, нека си представим разликата между петабайти и терабайти.

Представяне на мащаба на данните

Най-добрият начин, който открих, за да си представя тези размери на данни, е като ги сравня с пари. Един байт, приблизително един знак (като "B") може да се сравни с едно пени. Ако един байт е едно пени, тогава 140-те знака в един туит струват около $1,40 (140 пенита).

Добре, нека вдигнем малко залозите. Един килобайт е приблизително хиляда (знам, 1024, но работете с мен), около хиляда знака текст. Досега в тази статия сте прочели около три пъти повече знаци. От гледна точка на стотинки, един килобайт би бил около десет долара, или почти цената на два сандвича Subway.

След това един мегабайт струва около милион пенита или около 10 000 долара, което е приблизително цената на употребявана Toyota Camry от 1998 г. Един гигабайт (който във видео форма ще побере само около един епизод от телевизионно шоу) би бил милиард пенита или около 10 милиона долара - цената на много луксозно имение.

Виждате ли как тези числа просто стават безумно по-големи? Когато преминем от килобайт (около хиляда) до гигабайт (около милиард), ние преминаваме от няколко сандвича до имението на холивудска знаменитост.

Дръж се с мен. Ще върна това на NSA след минутка, но все пак трябва да получите пълната картина. Нека го ударим. Нека преминем от гигабайт към терабайт. Да кажем, че един терабайт струва трилион пенита. В долари това ви поставя на територията на милиардера, приблизително колкото нетната стойност на Стив Балмър от Microsoft, и около половината от нетната стойност на Джеф Безос, който току-що купи Washington Post за това, което за него е джоб промяна.

Така че един терабайт в парично изражение ви поставя на територията на Марк Зукърбърг, Брус Уейн, Лекс Лутър. И така, какво ще кажете за петабайт? Ние хвърляхме термина петабайт в новините през цялата миналата седмица, но колко е това? Как можем да си го представим?

Нека отново използваме пари. Ако говорим за пени на байт, един петабайт е един квадрилион пени, или около 10 трилиона долара. Ако ви е трудно да си представите богатство на ниво милиардер, опитайте това за размера: 10 трилиона долара е целият брутен вътрешен продукт на Китай и Япония... взети заедно.

Добре, нека се върнем към опитите да си представим какво прави NSA, и то погрешно. Сега, когато имаме референтна рамка (варираща от цената на сандвич с подводница до общия доход на Китай и Япония заедно), можем да усетим връзката на термините, които пресата разпръсква.

Разбор на потока от данни на NSA, използвайки това, което сега разбираме

Нека първо започнем с най-голямото число. Докато NSA „докосва“ около 30 петабайта (в доларовата аналогия, около два пъти БВП на Америка), тя избира само за преглед около 7,3 терабайта (около нетната стойност на Бил Гейтс и Джеф Безос комбиниран).

Между другото, като проверка на реалността, според Робърт Джонсън (Инженерен директор на Facebook), през 2011 г. Facebook събираше 130 терабайта регистрационни данни всеки ден. Facebook, само по отношение на регистрационните данни (без да броим всички котешки снимки и рецепти, които всеки публикува), събира почти 20 пъти повече регистрационни данни всеки ден, отколкото NSA грабва всички данни.

Сега, нека да разгледаме числото 2776, което разстрои всички.

Преди да започнем да си играем с това число, нека добавим още един факт. Това число е за една година, докато другите данни, които разглеждаме, са за един ден.

2776 е броят на грешните достъпи до данни от NSA, за които Washington Post съобщи. Първо, колко данни са това? Тъй като говорим за метаданни, не говорим за пълни съобщения. Типичният хедър на имейл има около 4500 байта (или около 4K). Нека оставим на скептиците предимството на съмнението и нека всяка грешка на NSA бъде 32K.

Поставяне на всичко в перспектива

Така че сега можем да започнем да поставяме отвратителност в перспектива. 32K пъти 2776 грешки е малко под 90 мегабайта — или около размера на един албум на Джъстин Бийбър, изтеглен като MP3 файлове — на година.

За да вместим това в ежедневните числа, с които работим, нека разделим тези 90 мегабайта на 365. Това ни дава около 252K. В термини на пени на байт, това е около $2500 (или приблизително цената на един добре оборудван iMac).

Прочети това

Зловреден софтуер на NSA зарази над 50 000 компютърни мрежи по целия свят
Майкрософт, Епъл, Гугъл, Фейсбук призовават за муцуната на НСА
Изтичане на данни от масово наблюдение на NSA: График на събитията до момента
Смразяващият ефект: Сноудън, NSA и ИТ сигурността
Криптоаналитик от NSA: Ние също сме американци
Документът на Сноудън разкрива степента на сътрудничество между NSA и Канада
Шест начина да се предпазите от NSA и други подслушватели

По отношение на долари, което е аналогията, която използваме в тази статия, NSA погрешно грабва еквивалент на данни от стотинка на байт на iMac в сравнение с еквивалент на стотинка на байт на общата нетна стойност на Бил Гейтс плюс Джеф Безос.

Изводът е следният: NSA управлява около 30 квадрилиона байта през своите системи всеки ден. Той записва около 7 трилиона от тези байта. Той погрешно записва по-малко от мегабайт на ден - по-малко от един MP3 данни на ден.

Нека го кажем по друг начин. Когато говорим за нашите цели за измерване на отлична производителност при висока наличност на центъра за данни, ние търсим „пет деветки“ на наличност на услугата, което означава, че времето за работа е 99,999 процента. От гледна точка на работното време, пет деветки означава, че мрежата няма да работи цели 5 минути и 26 секунди за цялата година.

Ако си представим точността на NSA, като я сравним с общоприетата ИТ цел от пет-деветки висока достъпност (или около пет минути и половина на година), процентът грешки на NSA (описан като време) ще бъде 0,2649 милисекунди на година. Това не е Светият Граал на пет деветки на точност. Това е по-скоро като дванадесет деветки.

Тези цифри не ми изглеждат като отвратително незачитане на поверителността от страна на програмистите и системните инженери на NSA. Вместо това ми изглежда по-скоро като триумф на ИТ и инженерството на бази данни.

Разбира се, такава информация не предизвиква възмущение, не продава вестници и не генерира показвания на страници. Просто е точно. Разглеждането на действителни данни, а не задъхана хипербола, рисува много по-ясна картина на дейностите на най-напредналата американска операция за събиране на техническо разузнаване.

Те не са врагове. Ако не друго, изглежда, че вършат дяволски добра работа, защитавайки ни без това да се натрупате в боклуците си за поверителност.

Следното беше публикувано в коментарите за тази статия от Бартън Гелман. Радвам се, че той участва в нашия разговор. Благодаря, Барт, че се присъедини към нас и сподели разяснения.

От автора на историята на Washington Post (Бартън Гелман)

Аз съм автор на историята на The Washington Post. Има нюзрум израз. „Опасност: репортер, който прави математика.“ Няма да одитирам Дейвид, но във всеки случай математиката няма да е проблемът тук. Проблемът е, че той не разбира какво брои. Не го обвинявам за това: това е много сложен набор от правни, технически и оперативни въпроси. Следя ги отблизо от 2005 г. и им посветих две глави от последната си книга и все още не ги намирам за лесни. Няма време за трактат, но няколко бързи точки:

* Не всички „инциденти на съответствие“ включват събиране. Както се отбелязва в историята и документите, те могат да се извършват навсякъде в спектъра на електронното наблюдение: събиране, задържане, обработка или разпространение. Всяко от тях може да варира от незначително, с малко въздействие върху поверителността, до много сериозно.

* Дейвид предполага, че наблюдението е свързано изцяло с метаданни. Не е. Голяма част от него - неизвестно количество, тъй като докладът не разбива това - е съдържание. Както се отбелязва в историята, NSA не "насочва" американците за събиране на съдържание, но събира много Американско съдържание „по невнимание“, „случайно“ или умишлено, когато едната страна е известна като чужда цел в чужбина. Повечето от тях остават в бази данни и едно търсене може да извлече гигабайти.

* Решаващ момент за разбиране: последните две категории събиране на американци -- "случайни" и умишлено, когато едната страна е в чужбина - представлява най-големият обем американски данни в NSA ръце. Те НЕ СЕ БРОЯТ за инциденти. НИТО един от тях не е сред 2776 инцидента. Както NSA тълкува закона, не е нарушение събирането, съхраняването и обработването му. До моята история това никога не беше ясно и Белият дом все още работи усилено, за да скрие разликата между забранено и рутинно събиране (включително събиране на съдържание) от американците. Правилата за „минимизиране“ премахват самоличностите по подразбиране, но има много изключения и исканията от „клиенти“ за демаскиране на самоличности се удовлетворяват лесно.

* Не е възможно да се изчисли или дори да се оцени в рамките на няколко порядъка количеството на включените данни в 2776 инцидента, нито броя на засегнатите хора, дори ако знаете дали имате работа с метаданни или съдържание. Малък, но неизвестен брой инциденти - тези, които включват незаконни думи за търсене, но не получават резултати - изобщо не събират, обработват или разпространяват никакви данни и по този начин нямат никакво въздействие върху поверителността. Други инциденти може да включват само няколко обекта на наблюдение, но също така включват големи обеми данни тъй като събирането се извършва за определен период от време или защото събраният преди това набор от данни е много голям. Един „инцидент“ в доклада от май 2012 г. включва над 3000 файла на база данни и всеки файл съдържа неизвестен (но обикновено много голям) брой записи. Друг епизод - който изобщо не се счита за "инцидент" - събра данни за всички обаждания от Вашингтон за неизвестен период от време. Няма начин да се каже само от доклада, но въз основа на рутинните процедури и мащаба на NSA операции е вероятно някои от тези индивидуални инциденти (1 от 2776) да засегнат стотици хиляди от хора.

* Между другото, както отново се отбелязва в историята, 2776 покриват само Ft. Мийд и близките офиси. Ще има значително повече инциденти при одит, който включва огромните регионални оперативни центрове на дирекцията SIGINT в Тексас, Джорджия, Колорадо и Хавай -- и дейностите на други дирекции като Технологии и като Осигуряване на информация, които също засягат огромни обеми на данни.

* Честна игра е да вземете пълен набор от данни и да оспорите анализа на данните от репортер (или изследовател). Но това не беше пълен набор от данни и е грешка Дейвид да мисли, че може да разбере цялата история от ограничения брой документи, които публикувахме сами. Използвах други документи и запълних празнините с много часове старомодни интервюта. Взех първичен материал, комбинирах го с други водещи и приложих журналистика, за да разберете какво казва материалът, какво не казва и какви заключения могат и какви не могат да бъдат направени от него. Това е една от причините да не изхвърляме документи просто в публичното пространство. В архива на Сноудън няма много истории, които могат да бъдат разказани само от документи.

* Въпреки всичко това Дейвид със сигурност е прав, като казва, че процентът на грешки е много нисък в процентно отношение. Това е важно при оценката на индивидуалното представяне и може би това е краят на историята за вас. Това е вашият избор. За някои хора въпросът за обществената политика взема предвид и абсолютния брой. Може да не приемем по-обикновената вреда от 1 милион изгубени самолетни чанти годишно, дори ако 99,9 процента от 1 милиард чанти, проверявани годишно, стигнат до местоназначението си. Някои системи трябва да бъдат проектирани с по-малко толерантност към грешки от други. Това е политическо и социално решение, но не успяхме да го обсъдим до разкритията на Сноудън.

* Част от важността на тази история е, че правителството работи толкова усилено, за да я замъгли. В публичните издания на полугодишните доклади до Конгреса администрацията зачеркна ВСИЧКИ статистически данни. (Между другото, имайте предвид, че таблиците в документа от 14 страници, който публикувах, не са класифицирани. В доклада на DOJ/DNI до Конгреса те бяха обозначени със строго секретно // специално разузнаване, което направи публичното оповестяване невъзможно и ограничи читателската аудитория в Конгрес.) Наред с отказа да публикува каквито и да било данни, правителството остави много силното впечатление, че грешките са изчезваща рядкост и злоупотреба несъществуващ. Това може да зависи от определението за „злоупотреба“. Марси Уилър цитира телевизионно интервю, в което обсъждах това, и прави някои допълнителни точки тук.