У дома Характеристика Тези защитници искат да гарантират, че нашите данни няма да изчезнат

Тези защитници искат да гарантират, че нашите данни няма да изчезнат

Съдържание:

Видео: Объект 430 ВарианÑ, Топь, Стан (Септември 2024)

Видео: Объект 430 ВарианÑ, Топь, Стан (Септември 2024)
Anonim

В края на май тази година, точно пет месеца от встъпването в длъжност на 45-ия президент на Съединените щати, група от хора, загрижени за позицията на новата администрация към науката и изменението на климата, отбеляза своята специална годишнина.

Недалеч от кампуса на университета в Северен Тексас, в равнините на север от Далас, няколко десетки индивиди се срещнаха в Data Rescue Denton, за да идентифицират и изтеглят копия от федерални набори от данни за климата и околната среда. Тези срещи в стил хакатон получиха много внимание в дните, непосредствено преди встъпването в длъжност; Дентън беше 50-то подобно събитие от януари.

Първоначално организирайки се от безпокойство, че новата администрация може да заличи или затъмни климатичните и други данни за околната среда, най-лошите страхове на спасителите на данни изглежда се сбъдват, когато едно от първите действия на Белия дом на Тръмп беше да изтрие страниците за промяна на климата от своя уебсайт. Тогава Министерството на земеделието на САЩ, след като отстрани от уебсайта си доклади от инспекции за хуманно отношение към животните, отговори на искането на Закона за свобода на информацията на National Geographic със 1771 страници изцяло редактирани материали.

Всеки може да получи достъп до повече от 153 000 федерални набори данни чрез портала за отворени данни на централното правителство на data.gov. Но това е само частица от данните, които съществуват в мъглявината на правителствената бюрокрация, без значение още по-малката фракция, която е на сървър.

„Някъде около 20 процента от правителствената информация е достъпна в Интернет“, казва Джим Джейкъбс, библиотекар на федералното правителство за информация в библиотеката на университета в Станфорд. "Това е доста голям парче неща, които не са налични. Въпреки че агенциите имат свои уики и системи за управление на съдържанието, единственият път, когато разберете за някои от тях, е ако някой FOIA го използва."

За да бъдем сигурни, наистина беше събрана много информация и сега се намира на неправителствени сървъри. Между събитията за възстановяване на данни и проекти като обхождането до края на срока през 2016 г. бяха архивирани над 200TB правителствени уебсайтове и данни. Но спасителните организатори започнаха да осъзнават, че частичните усилия да се направят пълни копия на терабайти от данни за научните изследвания на правителствените агенции не могат реално да се поддържат в дългосрочен план - това би било като спасяването на Титаник с напръстник.

Така че въпреки че Data Rescue Denton в крайна сметка беше едно от последните организирани събития по рода си, колективните усилия принудиха по-широка общност да работи съвместно за постигане на повече правителствени данни, които да бъдат открити, разбираеми и използваеми, пише Джейкъбс в блог пост.

Поглед към библиотеките

В Университета на Пенсилвания, Бетани Уиггин е директор на Програмата на Пен в екологичните хуманитарни науки, където тя е била централна за движението за убежище на данни, инициатор на събитията за спасяване на данни. Сега фокусът се измести, каза тя, към използване на националните рамки за дългосрочни усилия, вместо на периодични епизоди на местно ниво.

"Осъзнахме уменията, които се появяват на различни места, правейки спасителни събития с данни нещо, което може да бъде мащабирано", каза Уиггин, особено в научните библиотеки. "Но всички тези усилия се случваха преди да стартираме. Силата на Data Refuge е да се сгъсти тези връзки; да се катализират дългогодишни, бавно движещи се проекти; и да светят колко важни са те."

Напоследък Wiggin помага за оглавяването на Библиотеки + мрежа, ново партньорство между изследователски библиотеки, библиотечни организации и групи с отворени данни, катализирани за разширяване на традиционната роля на библиотеките в запазването на достъпа до информация. Участниците включват изследователската библиотека на Университета Станфорд, Калифорнийската дигитална библиотека и Фондацията Mozilla, с участието и сътрудничеството от организации в широки граници, като Националния архив и главните служители на данни на няколко федерални бюра.

Един проект, например, е LOCKSS ("много копия запазват нещата"), който Jacobs координира от няколко години. Той се основава на същия принцип като 200-годишна мрежа от библиотеки, известна като Федерална програма за библиотечни депозитари; тези библиотеки са официални хранилища на публикации от правителствената печатна служба на САЩ (GPO).

За разлика от тях LOCKSS е частна дигитална версия на тази система, която досега се състои от 36 библиотеки, които събират публикации от GPO с нейното сътрудничество. Това е модел за това как цифровата информация може да бъде защитена от изтриване или подправяне чрез широко физическо разпръскване.

"Не можете да осигурите запазване, ако не контролирате съдържанието", каза Джейкъбс. „Част от това, което направи библиотеките на депозитарите важни и полезни за последните 200 години, е, че никой в ​​правителството не може да редактира документ, без всъщност да отиде в 1500 библиотеки и да каже„ Да, променете тази страница тук “.

Софтуерът LOCKSS използва проверка на кешовете на съдържание на битово ниво и го сравнява със съдържанието, съхранявано от други библиотеки, което Jacobs каза, че помага за дългосрочно запазване чрез възстановяване на деградирали файлове.

Джон Чодацки, друг сътрудник на мрежата „Библиотеки +“, е директор на куратора за Калифорнийската цифрова библиотека, виртуално информационно съоръжение, което обслужва всички 10 кампуса на системата на университета в Калифорния. Работейки с разработчика на Code for Science and Society Макс Огдън и Филип Ашлок, главен архитект на data.gov, Чодацки казва, че фокусът им е бил върху използването на data.gov като двупосочна улица.

Първо демонстрираха, че самото спасяване на данни може да бъде много по-ефективно, като зачерпи копие на самия data.gov и го постави на външен сайт, datamirror.org, с скриптове за мониторинг, които проверяват за актуализации. Тогава Chodacki и сътрудници също започнаха да гледат дали внесените набори от данни и метаданни в огледалото могат да се подават в съществуващите работни файлове на data.gov чрез агенции през страничките на огледалото.

Съгласно изпълнителната заповед на Обама от 2013 г., която постановява публикуването на машинно четими данни на data.gov, агенциите все още са отговорни за генерирането на записите, които са изброени на този портал; Идеята на Ходацки и Огден е, че краудсорсингът на предложените набори от данни просто помага за разширяване на работното натоварване.

"Не е необходимо да възпроизвеждаме цялата екосистема", каза Чодацки. "Федералното правителство и тези агенции се занимават с данни по-дълго време, отколкото беше нелепо да се говори за големи данни, по много по-здрав начин от всеки друг."

Публично-частни партньорства

Въпросът за цената е очевиден, когато става въпрос за това как агенциите са в състояние да идентифицират кои набори от данни са най-ценни за обществеността, след което публикуват връзки към техните метаданни или реални набори от данни чрез портала на правителството. Доклад на Службата за бюджета на Конгреса (CBO) за законопроекта за отворените правителства за данни, понастоящем в Сената - който би кодирал изпълнителния ред на Обама в закон - изчислява, че пълното му изпълнение ще струва 2 милиона долара между 2018 и 2021 година.

От гледна точка на държавните пари, това по същество не представлява реално увеличение на разходите, заключи CBO.

Ефективността обаче е различен въпрос, който Ед Киърнс от Националната администрация за океанични и атмосферни условия експериментира заедно с частни партньори, включително Amazon Web Services и Google. Kearns, главен служител на данни на NOAA, каза, че увеличаването на обществената достъпност и използването на NOAA данни е основна цел на проекта за големи данни.

Компаниите определят кои набори от данни искат и NOAA го предава без допълнителни разходи за обществеността. Всичко, което NOAA има, е на масата, каза Киърнс, но целта на петгодишното партньорство не е да извади всички данни от NOAA в облака - само стратегически парчета.

Хостингът на такива набори от данни в облачните услуги на частни компании предлага няколко предимства на FTP достъпа в стил 80-те, който все още е стандарт за прехвърляне на големи набори от данни от федералните агенции. За начало, наборите от данни на NOAA обикновено са огромни - агенцията наблюдава земните океани, атмосферата, слънцето и космическото време - и понякога се нуждаят от седмици или месеци за обществена доставка.

Един от примерите е радарният архив на NEXRAD от ниво доплер NEXRAD Level-II от ниво II. Според проучване, публикувано през май от Американското метеорологично дружество, прехвърлянето на целия 270-терабайтен NEXRAD архив на един клиент през октомври 2015 г. би отнело 540 дни при цена от 203 310 долара. Пълно копие на архива никога не е било достъпно за външен анализ, преди NOAA да работи с Amazon и Google, за да постави такъв на облака.

Експериментът също има интересни ранни резултати с увеличаването на употребата. Уеб страниците на NOAA за времето и прогнозите вече получават едни от най-високите нива на трафик сред правителствените сайтове, но след като Google наскоро интегрира в базата данни на BigQuery един набор от данни за климата и метеорологичните условия, с големина на гига, компанията съобщи, че е доставила 1, 2 петабайта от този набор от данни от 1 януари до 30 април - много повече, отколкото досега са били достъпни в подобен срок от NOAA сървърите.

„Google успя да го отвори за изцяло нова аудитория“, каза Кърнс.

Това не е само дъжд и сезонни температури. Наборите от данни, които сега са достъпни чрез партньорите на Big Data, включват информация за риболова, морско време и каталог, хостван от IBM, който изброява актуални, прогнозни, исторически и геопространствени набори от данни от NOAA центрове. Бъдещите набори от данни могат дори да включват информация за екосистемите и геномиката на риболова.

Но по дизайн партньорството позволява на сътрудниците да избират най-много това, което искат най-много, което носи риск неясните, но потенциално високи стойности от данни, да не виждат много дневна светлина. Kearns казва, че е рано да се каже какво може в крайна сметка да бъде определено като ценно.

„Мащабът и обхватът на това, което може да се направи с тези данни, ни изуми“, добави той. „Не можем да си представим всички възможни приложения.“

В по-малък мащаб градът на Филаделфия също работи с частно образувание за публикуване на набори от данни, за които обществеността заяви, че ще намери най-полезно. Въпреки че размерът на града му дава повече ежедневна оперативна маневреност, отколкото федерално образувание, моделът на Фили представлява един подход за стратегизиране на изданията на все още непубликувани набори от данни.

Azavea, софтуерна фирма, базирана на Фили, специализирана във визуализацията на данни, си сътрудничи с главния информационен директор на града Тим Вишневски, за да разработи списък с непубликувани набори от данни, които нестопанските организации в града могат да имат интерес да използват. Wisniewski и Azavea използваха както онлайн градския каталог на метаданни, така и информация от градските отдели, за да разработят списъка. След това Azavea и други партньори прехвърлиха списъка в неправителствените организации във Филаделфия и започнаха OpenDataVote, конкурс за обществото да гласува проекти, представени от тези организации с нестопанска цел, за това как те да използват предпочитаните си набори от данни.

Неотдавна победител беше предложението от образователната организация с нестопанска цел MicroSociety да се използват данни от града за донорите в Училището във Филаделфия, за да се измери въздействието на нестопанските програми в училищата.

"Можем да кажем, че тази нестопанска цел в града се интересува от конкретен набор от данни, защото те могат да направят нещо с нея и че този много хора гласуваха, за да ги подкрепят", заяви Вишневски. „Позволява ни да отидем до отделите с твърд случай на употреба, а не да кажем, ей, пускаме тези данни само защото“.

Старите данни и новите

Но какво се случва дори когато има достатъчно достъп до данни, които вече са там, когато новите политики и директиви за финансиране означават, че самите данни просто не се генерират повече? Това е истинско притеснение, заяви Ан Дънкин, която беше главен служител по информация в Агенцията за опазване на околната среда при президента Обама и сега ръководи ИТ за калифорнийския окръг Санта Клара.

„Хората се притесняват от старите данни, но най-много ме тревожи е, че новите данни не се предоставят със същата скорост, както преди, или изобщо не се генерират“, каза Дънкин.

В един анализ на предложения федерален бюджет за 2018 г. от списание Science, много правителствени агенции биха реализирали значителни намаления на своите бюджети за научни изследвания, ако бюджетът бъде приет, както е предложено. Около 22 процента съкращение в Националните здравни институти ще доведе до плащания към изследователски университети; искането на бюджета на НАСА би премахнало инициативите за мониторинг на емисиите на парникови газове и други програми за науката на земята. Климатичните програми на NOAA също могат да бъдат затворени със сходни нива на намаляване.

По време на мандата си EPA работи за превръщането на събирането на данни в инструмент, който всеки може да използва за разбиране на здравето на заобикалящата ги среда и как да реагира на нея. Лош въздушен ден? Не излизайте навън. Поток надолу по замърсения начин? Дръжте децата далеч.

"Моето очакване е, че ще се движим назад", добави Дънкин. „Бих могъл да греша, но ако казвате, че няма да предоставяме данни, логичното заключение е наборите от данни, които биха могли да помогнат на членовете на обществото също да не са достъпни или да не се генерират на първо място.“

Wiggin на Data Refuge работи по проект за разказване на истории, свързан с този проблем, за който тя се надява да катализира повече хора да изискват непрекъснато издаване на данни и да създаде основа за подкрепа за продължаване на съществуващите програми за събиране на данни в рамките на федералното правителство. Разказите на "Три истории в нашия град" ще изобразяват често скритото въздействие, което федералните данни оказват на неочаквани места, като се започне първо във Филаделфия, а след това и на други места в цялата страна.

„Важен елемент от движението за възстановяване на данни, когато преминем към следващата фаза, помага на хората да разберат колко широко използвани федерално произведени данни са в живота им“, каза Уиггин. „Независимо дали го наричате климат, здравеопазване или обществена безопасност, това все още е федерални данни. Това е в общности, в кметството, в усилията за полиция, във военните. Ние трябва да помним колко важни са тези данни.“

ресурси:

  • Елемент на шлюза на EPA за околната среда: Порталът за метаданни на Агенцията за опазване на околната среда.
  • Open Data @ DOE: Порталът за отворени данни на Министерството на енергетиката.
  • Порталът за данни на USDA за икономически изследвания
  • NOAA Big Data Resources: Връзки към страниците на платформата на големи данни на партньори, които съдържат данни, генерирани от NOAA.
  • Университет на Северен Тексас: Кибер гробище: Архив на несъществуващи, остарели или затворени правителствени уебсайтове.
  • Страница на проекта за архивиране на инициативи за екологични данни и управление: Инструменти, код и приложения, свързани с откриване и архивиране на правителствени данни.
  • Интернет архив Wayback машина
  • Интернет архив: Как да запазите страници в Wayback Machine: Шест начина за номиниране на страници за архивиране.
  • Калифорнийска дигитална библиотека: Уеб архив на края на срока: Колекция от уебсайтове на правителството на САЩ, запазени от обхожданията на крайния срок от 2008 г. до днес.
  • FreeGovInfo.info: Широко съдържание с информация за портали за данни на държавно и федерално ниво и архиви на новинарски истории по отворени проблеми с данни.
  • Климатично огледало: Колекция от събрани от доброволци набори от климатични данни.

Тази история за пръв път се появи в PC Magazine Digital Edition. Абонирайте се днес за по-оригинални игрални истории, новини, рецензии и как

Тези защитници искат да гарантират, че нашите данни няма да изчезнат