نقشه راه GIS

درخواست مشاوره

09120049370

8 صبح تا 12 شب

09120049370

کاربرد جی ای اس

خلاصه

آرشیو داده های علمی تقریباً در تمام پروژه های تحقیقاتی یک ماموریت پیچیده است. در این مقاله، ما یک آرشیو آنلاین جدید از داده‌های اندازه‌گیری جو از ابتکار تحقیقاتی “ابرهای با کیفیت بالا و بارش برای پیش‌بینی آب و هوا” (HD(CP) 2 ) معرفی می‌کنیم. آرشیو داده های پروژه با کیفیت مدیریت شده، استفاده آسان است و اکنون برای سایر داده های تحقیقات جوی باز است. ایجاد آرشیو قبلاً در مرحله برنامه ریزی پروژه HD(CP) 2 مورد توجه قرار گرفت و منابع لازم اعطا شد. این بودجه پروژه HD(CP) 2 را قادر ساخت تا یک ساختار آرشیو صدا ایجاد کند، که تضمین می کند داده های جمع آوری شده برای همه محققان پروژه و فراتر از آن قابل دسترسی است.
کلید واژه ها: 

آرشیو داده ها ؛ استاندارد داده ؛ فراداده ; مدیریت کیفیت داده ها ؛ مدیریت داده های تحقیق ; میان رشته ای ; هواشناسی ; فیزیک اتمسفر ; ابرها

 

1. معرفی

برای توسعه استراتژی های تغییر اقلیم، درک نحوه عملکرد سیستم آب و هوای زمین، توجه به تغییرات آب و هوا و همچنین علل آن ضروری است. پیشرفت درک مبتنی بر داده های آب و هوایی مشاهده شده و شبیه سازی شده است، به موجب آن داده های مدل های شبیه سازی آب و هوا یکی از سریع ترین بخش های در حال رشد در دنیای داده است [ 1 ]. فرآیند تشکیل ابر و بارش منطقه ای برای شبیه سازی دینامیک اتمسفر و در نتیجه برای پیش بینی آب و هوا حیاتی است. هم ابر و هم بارش از عناصر مهم سیستم آب و هوا هستند [ 2]. تقریباً هر فرآیند فیزیکی در سیستم زمین، از بازخورد خاک-رطوبت گرفته تا برهمکنش دریا-یخ گرفته تا تعامل بیوژئوشیمیایی، به شدت به ابرها و چرخه هیدرولوژیکی بستگی دارد. پروژه “ابرها و بارش با کیفیت بالا برای پیش بینی آب و هوا” یک ابتکار تحقیقاتی در سطح آلمان برای بهبود درک ما از فرآیندهای ابر و بارش و پیامدهای آنها برای پیش بینی آب و هوا است. این پروژه توسط وزارت آموزش و تحقیقات فدرال آلمان (BMBF) تامین می شود و در اکتبر 2012 آغاز شده است.
در مرحله اول پروژه، دامنه مشاهده و شبیه سازی HD(CP) 2 در آلمان و مناطق مرزی متمرکز شد. در مرحله دوم که به تازگی آغاز شده است، دامنه توسط یک منطقه گرمسیری (باربادوس) بزرگ شده است. در حالی که توسعه دهندگان مدل یک مدل آب و هوایی را طراحی کردند که قادر به شبیه سازی با وضوح بالا است، مولفه مشاهده، مشاهدات زمینی، درجا و ماهواره ای را به منظور ارزیابی نتایج مدل سازماندهی می کند. اندازه‌گیری‌ها بر ساختار فضایی و ترکیب ذرات ابر، با استفاده از امکانات اندازه‌گیری موجود در سراسر آلمان و هلند متمرکز شده‌اند.
همراه با افزایش حجم و اهمیت داده های آب و هوایی، مسئولیت تولیدکنندگان داده و ناشران داده نیز افزایش یافته است [ 3 ]. علاوه بر ایجاد آرشیو داده های قابل اعتماد، سهولت استفاده از آنها مهم است. در HD(CP) 2تقاضا برای استفاده آسان بخشی از پیشنهاد پروژه بود. یک طرح مختصر مدیریت داده گنجانده شد که الزامات مربوط به ذخیره سازی داده ها، مستندسازی داده ها، خط مشی داده ها و قالب بندی استاندارد را برای تولیدکنندگان داده، ناشران داده و کاربران داده شرح می دهد. به عنوان مثال، از همه شرکای مؤلفه مشاهده خواسته شد که داده های جمع آوری شده خود را به آرشیو تحویل دهند. تمایل به اشتراک گذاری داده ها با جامعه علمی پیش نیاز مشارکت در پروژه بود. خط مشی اجباری بایگانی داده ها باید موانع به اشتراک گذاری موثر داده ها را برطرف کند. به طور کلی، اشتراک‌گذاری داده‌ها به دانشمندان دیگر اجازه می‌دهد تا داده‌ها را تأیید کنند، و از آن برای بازتولید نتایج مدل، اعتبارسنجی تفاسیر، و بر اساس کار تحقیق پروژه استفاده کنند [4 ] .
آرشیو داده ها چیزی بیش از مجموعه ای از مجموعه داده هاست. علاوه بر داده ها، بایگانی باید شامل اسناد، یک ذخیره فیزیکی اطلاعات و فرااطلاعات و یک رابط کاربری باشد [ 5 ]. در داخل پروژه، پیاده سازی چنین سیستم مدیریت داده (DMS) عمدتاً در مرکز محاسبات منطقه ای دانشگاه کلن (RRZK) انجام می شود. DMS ایجاد شده توصیه های عملی ارائه شده در “Handbuch Forschungsdatenmanagement” را در نظر می گیرد که برای کمک به رویارویی با چالش های کلی در مدیریت داده ها طراحی شده است [ 6 ]. RRZK یکی از شرکای پروژه در HD(CP) 2 استمسئول زیرساخت های فنی و پشتیبانی. یک مرکز محاسباتی تخصصی برای ارائه خدمات مدیریت داده و پشتیبانی از زیرساخت های ذخیره سازی به منظور اطمینان از سطح بالای کیفیت و پایه ای پایدار برای توسعه بیشتر در مرحله پس از پروژه است. اکثر دانشمندان نه منابع، با توجه به زمان و هزینه، و نه پشتیبانی فنی برای نگهداری آرشیو دارند. در واقع، فقدان پشتیبانی فنی و بودجه ساختاری، تهدیدهایی هستند که اغلب نام برده می شود برای حفظ داده های دیجیتال رایج [ 7 ].
یکی از دلایل مهم ایجاد یک آرشیو داده های جدید فقدان زیرساخت مشترک برای مشاهدات دقیق سوپرسایت در آلمان بود. در حال حاضر طیف گسترده ای از آرشیوها برای داده های جوی در اروپای مرکزی وجود دارد. برخی از آرشیوها بر ابزار یا محصولات خاصی تمرکز می کنند، مانند ACTRIS [ 8 ]، که عمدتاً بر روی داده های LIDAR (تشخیص نور و محدوده) متمرکز است، WDC-RSAT [ 9 ]، که در داده های ماهواره ای تخصص دارد، یا Cloudnet [ 10 ]، که محصولات داده حاصل از ترکیب ابزار برای مشخصات ابری را ارائه می دهد. آرشیوهای دیگر عمومی تر هستند مانند PANGEA [ 11 ]، که برای داده های جغرافیایی ارجاع داده شده یا CERA [ 12] است.]، که عمدتاً برای داده های خروجی مدل آب و هوایی است. هر دو به خوبی تثبیت شده اند. این آرشیو داده‌ها برای ابزارهای خاص/ترکیب‌های ابزار یا داده‌های خروجی مدل طراحی شده‌اند. طیف وسیعی از ابزارها در HD(CP) 2 به اندازه کافی در هیچ یک از این آرشیوهای موجود پوشش داده نشده است. علاوه بر این، یک کمپین اندازه گیری فشرده، برنامه ریزی شده برای HD(CP) 2 ، با ابزارها و محصولات توسعه یافته اضافی و تا حدی جدید، نیاز به یک آرشیو داده جدید را نشان داده است. در نهایت، آرشیو جدید حاوی داده های استاندارد شده تا حد زیادی است. استاندارد داده های مورد استفاده در پروژه به ویژه برای آرشیو طراحی شده است و از تبادل آسان و سریع داده بین دانشمندان پروژه پشتیبانی می کند.
در ادامه پیدایش آرشیو را با جزئیات بیشتری شرح خواهیم داد. بخش 2 یک نمای کلی از انواع مختلف داده های مشاهده در آرشیو HD(CP) 2 را نشان می دهد . در بخش 3 ، یک مقدمه کوتاه در مورد قراردادهای الزام آور برای هر مجموعه داده ارائه شده است. بخش 4 زیرساخت فنی را که بایگانی بر روی آن ساخته شده است، تشریح می کند و به دنبال آن خدمات ارزش افزوده در بخش 5 و برخی از دیدگاه های آینده در بخش 6 توضیح داده می شود .

2. داده های استاندارد شده برای آرشیو HD(CP) 2

در ابتدا بحث‌های پر جنب و جوشی در جامعه مشاهده‌ای HD(CP) 2 در مورد اینکه کدام داده‌ها باید به طور منطقی ادغام شوند، چگونه محصولات معقولی از آن‌ها ایجاد کنیم و چگونه داده‌ها را برای دانشمندان دیگر قابل استفاده مجدد کنیم، به سادگی و آسانی امکان‌پذیر بود، وجود داشت. ، بدون موانع فنی.
بحث های بیشتر در مورد اصطلاح “استفاده آسان” صورت گرفت. یک بایگانی داده با استفاده آسان، نه تنها برای کاربرانی از جامعه مشاهده که قصد دارند داده های خود را به اشتراک بگذارند، بلکه برای شرکای پروژه بدون تجربه در انواع ابزار خاص یا پردازش داده های مشاهده چه معنایی دارد؟ هر تولیدکننده داده قالب داده دلخواه خود را دارد. با شروع از این نیازها، بایگانی باید به فرمت های مختلف داده ای خدمت کند. یک کاربر ممکن است بخواهد یک متغیر خاص را بازیابی کند، در حالت ایده آل یک متغیر خروجی از یک مدل خاص با وضوح خاص. در این مورد، بایگانی باید به تعداد بی‌پایانی از متغیرهای دارای پارامترهای متنوع خدمت کند. هیچ یک از این نوع آرشیو داده های مشاهدات عملی یا مطلوب نیستند. بنابراین، ما باید تعادلی بین موقعیت‌های مختلف پیدا می‌کردیم،
نتایج بحث در استاندارد محصول داده‌های مشاهده HD (CP) 2 (HOPS) [ 13 ] خلاصه شد. این سند اکنون به عنوان یک راهنما برای همه تولیدکنندگان داده عمل می کند و به طور مفصل قراردادهای الزام آور مجموعه داده ها و ابرداده های مرتبط با آنها را توصیف می کند (به بخش 3 مراجعه کنید ).
در حال حاضر آرشیو داده‌های HD(CP) 2 داده‌های استاندارد مشاهدات جوی معمولی و پارامترهای ابری خاص را که در ابزارهای رصدی مختلف اندازه‌گیری و مشتق شده‌اند، ارائه می‌کند. وضوح مکانی داده ها از شبکه های جغرافیایی منظم و نامنظم، مانند داده های شبکه ماهواره ای یا ارتفاع سنج، تا مشاهدات محلی (ابر سایت ها) و داده های چهار بعدی ابزارهای اسکن مانند رادار ابری متفاوت است.
داده ها چرخه های اندازه گیری بلندمدت و همچنین کمپین های فشرده مشاهده کوتاه مدت را پوشش می دهند ( شکل 1 را ببینید ). مشاهدات بلند مدت بر اساس مشاهدات تمام دامنه و مشاهدات محلی است. مجموعه داده‌های ابزارهای مختلف مبتنی بر ماهواره (مانند SEVIRI در ماهواره‌های MeteoSat نسل دوم (MSG)) و همچنین مجموعه داده‌های شبکه‌های ابزاری زمینی (مانند شبکه رادار باران باند C آب‌وهوای آلمان) را پیدا خواهید کرد. سرویس، RADOLAN)، و همچنین مجموعه داده هایی از به اصطلاح supersites.
در حال حاضر هیچ تعریف مشترکی از اصطلاح “ابر سایت هواشناسی” وجود ندارد. معنی بستگی به پروژه و تمرکز ابزار دارد. برای آرشیو داده های HD(CP) 2 ، سوپرسایت به معنای رصدخانه ای برای اندازه گیری های بلندمدت از جمله حداقل رادار ابری، رادیومتر مایکروویو و سیستم LIDAR است. هر ابزار اضافی، مانند برج هواشناسی، یک جایزه است.
در حال حاضر، مجموعه داده‌های چهار ابرسایت در اروپای مرکزی به طور مداوم جمع‌آوری و پردازش می‌شوند: سایت آزمایشی Cabauw برای تحقیقات جوی (CESAR)، رصدخانه Juelich برای تکامل ابر (JOYCE)، آئروسل لایپزیگ و سیستم مشاهدات از راه دور ابری (LACROS)، و ریچارد- رصدخانه آسمان در لیندنبرگ (RAO).
آرشیو داده‌ها همچنین مشاهدات کوتاه‌مدتی مانند داده‌های حاصل از آزمایش نمونه اولیه رصدی HD(CP) 2 (HOPE) را فراهم می‌کند. کمپین HOPE در آوریل و مه 2013 در منطقه اطراف مرکز تحقیقات Juelich، که شامل ابرسایت JOYCE است، انجام شد. برای ارائه یک ارزیابی مدل بحرانی در مقیاس شبیه‌سازی مدل (در حد 100 متر)، و بیشتر برای ارائه اطلاعات در مورد تنوع زیرشبکه و خواص میکروفیزیکی طراحی شده است.
تنوع محصولات مشاهده در آرشیو مبنایی برای مقایسه ابزارها و همچنین اعتبارسنجی مدل‌های آب و هوایی است. به عنوان مثال، نتایج HOPE برای مقایسه بخار آب یکپارچه اندازه گیری شده، مشتق شده از MODIS (طیف سنج تصویربرداری با وضوح متوسط) و ابزارهای زمینی مانند GPS (سیستم موقعیت یاب جهانی)، MWR (رادیومتر مایکروویو) و نورسنج خورشید، و اعتبارسنجی مدل‌های COSMO-DE و ICON-DE (مدل‌های پیش‌بینی عددی آب و هوا سرویس هواشناسی آلمان) [ 14 ].

3. استاندارد محصول مشاهده ای HD(CP) 2

به عنوان یک نتیجه نهایی از بحث، استاندارد محصول داده مشاهده HD (CP) 2 (HOPS) برای آرشیو، از جمله یک طرح ابرداده توسعه داده شد. فایل‌های داده باید در قالب NetCDF ایجاد شوند، که یک فرمت داده مستقل و مستقل از ماشین است که از مشخصات داده‌های علمی آرایه‌محور پشتیبانی می‌کند. کتابخانه های برنامه نویسی امکان ایجاد، دسترسی و اصلاح داده های با فرمت NetCDF را فراهم می کنند. NetCDF [ 15 ] یک فرمت شناخته شده است و اغلب در جامعه آب و هوا استفاده می شود، که آن را به عنوان یک استاندارد اولیه پذیرفته است. برای داده‌های موجود در فایل‌های NetCDF، اصول داده‌شده در قراردادهای ابرداده آب و هوا و پیش‌بینی (CF) باید تا آنجا که ممکن است رعایت شود [ 16 ]. به ویژه HD (CP)تعریف آرایه مختصات و داده بر اساس این قراردادها است. نسخه 3 بعدی NetCDF و نسخه فعلی 4 (همچنین با گزینه فشرده سازی) پشتیبانی می شوند.
با در نظر گرفتن رویکرد “آسان برای استفاده”، داده ها بر اساس فایل روزانه ذخیره می شوند، تنها با چند استثنا، به عنوان مثال، برای اندازه گیری های هوایی یا داده های گذرهای ماهواره ای، به دلیل اندازه بزرگ داده های روزانه مربوطه. مجموعه داده HD(CP) 2 به مجموعه کاملی از فایل های داده (روزانه) از یک سری اندازه گیری اشاره دارد که همان ابرداده را به اشتراک می گذارند. بسته به دوره زمانی اندازه گیری (ادامه) مربوطه، یک مجموعه ممکن است حاوی هزاران فایل باشد. مجموعه داده ها با اختصاص یک شماره نسخه منحصر به فرد به مراحل مختلف، نسخه کنترل می شوند. هر تغییر در داده ها، به عنوان مثال، رفع اشکال در پردازش یا موقعیت جدید ابزار، به یک شماره نسخه جدید دلالت دارد.
به طور کلی، هر فایل داده روزانه باید تنها حاوی یک متغیر و خطای تخمینی آن در صورت موجود بودن باشد. استثناهایی برای داده های سطح 1 وجود دارد که ممکن است شامل بیش از یک متغیر در هر فایل باشد، و اندازه گیری هایی که برای آنها متغیرهای اسکالر یا تک معنی ندارند، به عنوان مثال، برای گروه متغیر باد (شامل سه جزء به اضافه سرعت باد افقی و جهت).
هر متغیر با نام متغیر و در مورد متغیر CF با ویژگی standard_name و واحد آن توصیف می‌شود. با این حال، از آنجایی که قراردادهای فراداده CF برای داده‌های مدل توسعه داده شده‌اند، همه نوع داده‌های مشاهده پوشش داده نمی‌شوند. بنابراین، ما نمی توانیم یک ویژگی CF standard_name برای همه متغیرهای به دست آمده توسط ابزارهای مرتبط با HD(CP) 2 ارائه کنیم. متغیرهایی که نام استاندارد CF ندارند هنوز دارای ویژگی long_name هستند. واحدهای متغیرها با سیستم بین المللی واحدها (SI Units) مطابقت دارند.
یک متغیر مهم برای همه مجموعه داده ها، متغیر زمان اندازه گیری است. بنابراین، قرارداد تعیین زمان بر حسب ثانیه از 1 ژانویه 1970 ساعت 00:00:00 است، همانطور که معمولاً در سیستم عامل های یونیکس مانند استفاده می شود. زمان باید با زمان هماهنگ جهانی (UTC، زمان جهانی، هماهنگ) مرتبط باشد.
به ویژه، یک فایل مجموعه داده باید دارای یک نام منحصر به فرد باشد که سیستم طبقه بندی را نشان می دهد و شامل هفت بخش به شرح زیر است:

<kkk>_<sss>_<instnn>_<ln>_<var>_<vnn>_YYYYMMDDhhmmss.nc.
شرح قسمت های مربوطه در جدول 1 آورده شده است .
ساخت نام فایل به تفصیل در سند HOPS توضیح داده شده است.
استفاده از مجموعه داده های استاندارد شده به این معنی است که هیچ انطباق با یک ابزار منفرد یا نام متغیر خاص ناشر ضروری نیست. به عنوان مثال، دمای هوا دارای نام متغیر ta است، با نام استاندارد «دمای_هوا» و واحد K ، همانطور که در قراردادهای CF آمده است. طبق طبقه بندی HD(CP) 2 ، دمای هوا (ta) در محصول سطح 2 (l2) اولین رادیومتر مایکروویو (mwr00) از سوپرسایت (sups) JOYCE (joy)، نسخه اول (v00) از 1 ژانویه 2014، باید به عنوان sups_joy_mwr00_l2_ta_v00_20140101000000.nc نامگذاری شود.
داده های مستند باید سایر محققان را قادر به درک، استفاده و استفاده مجدد از داده ها به درستی کند. ابرداده با کیفیت خوب یک دارایی است [ 17 ]. به همین دلیل، هر مجموعه داده ای که توسط یک سرور داده HD(CP) 2 منتشر می شود، باید به شکل مناسبی با ابرداده مرتبط شود (به بخش 5.2 مراجعه کنید.). مزیت حاشیه نویسی معنایی داده ها بر اساس برخی واژگان به خوبی تثبیت شده آشکار است. واژگان کنترل‌شده به جستجو و یافتن داده‌ها کمک می‌کند و آن‌ها را با سایر محققان «قابل اشتراک‌گذاری» می‌کند. اکثر استانداردهای رایج مانند برخی استانداردهای ISO ممکن است برای نیازهای ما ایده آل به نظر برسند، اما متأسفانه برای داده های اندازه گیری اتمسفر هیچ استانداردی وجود ندارد که به خوبی مطابقت داشته باشد. خانواده استاندارد ISO 191xx برای سیستم های اطلاعات جغرافیایی (عمدتا ISO 19115-1:2014 [ 18 ]) با ساختار پیچیده و تعداد زیادی موجودیت، برای مجموعه کوچکی از عناصر که با نیازهای پروژه مطابقت دارد بسیار پیچیده است و تقریباً یک تناقض است. به رویکرد “آسان برای استفاده” ما. همین امر را می توان در مورد دستورالعمل INSPIRE (2007) [ 19]. از سوی دیگر، Dublin Core (NISOZ3985) [ 20 ] و DataCite Metadata Scheme (3.1) [ 21 ] خیلی کلی هستند. اگرچه دومی فیلدهای ابرداده را برای مشخص کردن منطقه جغرافیایی که در آن داده ها جمع آوری شده است (یعنی مکان جغرافیایی) فراهم می کند، ما باید موقعیت و جهت دقیق، به ویژه ارتفاع، هر ابزار اندازه گیری، یا ترکیبی از ابزارها را تعریف کنیم. به همین دلیل است که تصمیم گرفتیم طرح ابرداده خود را ایجاد کنیم.
ما حدود 30 عنصر توصیفی فراداده را طراحی کردیم که اکثر آنها با واژگان کنترل شده، برخی از ویژگی های تثبیت شده در جامعه آب و هوا را از سربرگ NetCDF تطبیق می دهند. عناصر خاص نوع داده که نیازهای پروژه آب و هوایی ما و ویژگی های جهانی را منعکس می کنند با استانداردهای فراداده فعلی مانند هسته دوبلین، طرح ابرداده DataCite، استاندارد ISO19115-1 و دستورالعمل INSPIRE مطابقت دارند. طرح فراداده HD(CP) 2 ویژگی های اجباری، اختیاری و تولید شده به صورت خودکار را ارائه می دهد. به عنوان مثال، HD (CP) 2ابرداده باید حداقل شامل ویژگی‌های کلی زیر باشد: عنوان مجموعه داده‌ها، موسسه و نام تولیدکننده داده، نام و آدرس ایمیل یک فرد تماس، منبع ابزار، اطلاعات مربوط به قراردادهای مورد استفاده، تاریخ پردازش. و خط مشی مجوز HD(CP) 2 . فیلدهای نظرات و تاریخچه داده ها اختیاری هستند.
سند HOPS استاندارد فراداده را برای توصیف و فهرست بندی داده های بایگانی شده به روشی ثابت مشخص می کند. فایل های ابرداده باید در زبان نشانه گذاری توسعه پذیر [ 22 ] کدگذاری شوند. XML یک روش معمول برای توصیف انواع خاصی از ساختار سند ارائه می دهد، به همین دلیل است که به عنوان زبان مشخصات فراداده انتخاب شده است. تولیدکنندگان داده باید یک فایل مجزا با اطلاعات دقیق در مورد اندازه‌گیری و ابزار تولید کنند که توسط واژگان تثبیت شده ما برای ابرداده هدایت می‌شود. به عنوان مثال، آنها باید کلمات کلیدی را با HD(CP) 2 مشخص کنندطبقه بندی برای جستجوی بعدی و نتایج بازیابی دقیق. فراداده های اضافی، مانند شرح مکان ابزار، مراجع، تاریخچه داده ها و محدودیت های روش ها و/یا داده ها نیز باید مشخص شوند.
HOPS به طور مداوم در حال پیشرفت است، عمدتاً به این دلیل که مبتنی بر مجموعه داده های پویا است. یک مجموعه داده پویا به طور مداوم در حال رشد است که توسط مشاهدات مداوم تغذیه می شود، که شرایط و روش های آن هر از گاهی تغییر می کند. به عنوان مثال، یک پردازش داده جدید، یک نرم افزار ابزار جدید قابل توجه یا یک ترکیب ابزار جدید به این معنی است که استاندارد باید به روز شود تا آن را برای هدف مناسب نگه دارد.
در نتیجه، استاندارد محصول داده‌های مشاهده‌ای HD(CP) 2 را می‌توان با سوپرسایت‌ها، کمپین‌های اندازه‌گیری، و ابزار/متغیرهای بیشتر تطبیق داد و فراتر از HD(CP) 2 ، می‌تواند برای سایر داده‌های تحقیقات جوی که آرشیو برای آنها باز است نیز اعمال شود. اکنون.

4. زیرساخت و مدیریت داده ها

HD(CP) 2آرشیو داده ها داده های مشاهده ای از انواع بسیار متفاوت را فراهم می کند و آن را به صورت بلندمدت در دسترس قرار می دهد. بنابراین، مدیریت داده‌های مقرون‌به‌صرفه یک چالش است: از یک سو، داده‌ها باید متمرکز باشند تا از ثبات داده‌ها و دسترسی آسان برای کاربران اطمینان حاصل شود. از سوی دیگر، همه منابع زیرساختی بدون توجه به جایی که ممکن است در دسترس باشد، باید مورد استفاده قرار گیرند. مورد دوم به دلیل این واقعیت که مقدار داده به طور پیوسته در حال رشد است، جنبه بسیار مهمی است. اگرچه مخزن داده در پاییز 2013 راه اندازی شد، اما به سرعت پر می شود. به همین دلیل است که آرشیو باید مقیاس پذیر باشد و با رعایت الزامات مربوط به در دسترس بودن و عملکرد، انعطاف پذیر باشد. در حال حاضر – ژوئن 2016 – آرشیو در حال حاضر شامل بیش از 150 مجموعه داده است که از سال 2007 شروع می شود. مجموعه داده ها شامل حدود 55،
راه حل فنی مقیاس پذیر ما از چندین سرور داده توزیع شده در سایت های مختلف شریک پروژه تشکیل شده است. همه سرورها دارای یک زیرساخت مشترک با یک طراحی استاندارد اما خدمات عملیاتی متفرقه هستند. این سرویس ها به یکدیگر متصل می شوند تا یک آرشیو مجازی واحد با یک پورتال وب مشترک به عنوان نقطه ورودی مرکزی برای همه کاربران تشکیل دهند. هر سرور داده توسط یک مرکز محاسباتی دانشگاه یا یک موسسه دانشگاهی با یک مرکز محاسباتی در پس‌زمینه میزبانی می‌شود که در دسترس بودن طولانی‌مدت داده‌ها را تضمین می‌کند. برای هر سرور داده، همه فایل‌ها در یک سیستم فایل سلسله مراتبی استاندارد ذخیره می‌شوند، هر سیستم فایل توسعه‌پذیر این کار را انجام می‌دهد، تا زمانی که سازماندهی فایل داده داخلی بر اساس طبقه‌بندی نام فایل مشخص شده در HOPS با توجه به ابزار اندازه‌گیری، متغیرها، وضعیت پردازش داده باشد. و دیگران (نگاه کنید بهبخش 3 ).
با توجه به محاسبات محلی و منابع ذخیره داده های مختلف، پیاده سازی فیزیکی بین سایت های منفرد متفاوت است. به عنوان مثال، در کلن، خدمات داده و همچنین ذخیره سازی داده ها به صورت اضافی با استفاده از زیرساخت مجازی در دسترس بودن بالا مرکز محاسبات منطقه ای (RRZK) مبتنی بر VMWare ESX پیاده سازی می شوند. ماشین مجازی (VM) در بالای یک خوشه دسترسی بالا (HA Cluster) اجرا می شود و از نظر پردازنده، حافظه و حافظه قابل ارتقا است. این نه تنها اجازه مدیریت انعطاف پذیر HD(CP) 2 را می دهدسرویس داده، اما همچنین حداقل دوره های وقفه زمانی را در صورت تعمیر و نگهداری سخت افزار یا خرابی سخت افزار زیرساخت مجازی سازی شده تضمین می کند. علاوه بر این، تمام سرویس‌های موجود در سرور داده توسط یک سرور مرکزی NAGIOS نظارت می‌شوند که در صورت عدم کارکرد یا قطعی سرویس‌ها به مدیران آرشیو داده‌ها اطلاع می‌دهد. با توجه به ایمنی داده‌های HD(CP) 2 ، هر شب از تمام داده‌ها به صورت تدریجی در یک سیستم روبات نوار مرکزی حداقل در دو نوار مختلف در دو مکان مختلف پشتیبان‌گیری می‌شود، بنابراین چهار نسخه ارائه می‌شود. دانشگاه لایپزیگ از مفهوم متفاوتی برای افزونگی استفاده می کند. برای خدمات داده، دو سرور مجازی یکسان در مکان‌های مختلف دانشگاه راه‌اندازی شده‌اند و از طریق ضربان قلب همگام‌سازی می‌شوند. بخش لایپزیگ HD(CP) 2داده ها در یک سرور داده مرکزی ذخیره می شوند و از طریق GlusterFS به دیسک های RAID مجازی مختلف، که توسط سرورهای داده مجازی ذکر شده در بالا نصب می شوند، تکثیر می شوند. بنابراین، در دسترس بودن بالای خدمات داده نیز تضمین شده است.
ستون فقرات پلت فرم فنی HD(CP) 2 THREDDS Data Server (TDS) است، یک محصول منبع باز توسعه یافته توسط Unidata [ 23]. عملکرد سرویس‌های داده‌های توزیع‌شده محیطی در زمان واقعی (THREDDS) این است که به محققان امکان دسترسی به مجموعه بزرگی از مجموعه داده‌های متنوع و آرشیو شده در تعدادی از سایت‌های سرور توزیع‌شده را می‌دهد. این یک رابط مشترک برای فرمت‌های داده‌های زمین‌شناسی مانند HDF5، GRIB، و NetCDF فراهم می‌کند و از طریق OPeNDAP، خدمات پوشش وب (WCS)، زیر مجموعه NetCDF و سرویس‌های انتقال فایل HTTP به آنها سرویس می‌دهد. سه پروتکل سرور اول به کاربر اجازه می دهد تا زیر مجموعه هایی از داده ها را بدست آورد که برای تعامل مستقیم، به عنوان مثال، برای تجسم داده ها کارآمد است. TDS حاوی فراداده در موجودی ها و کاتالوگ های قابل انتشار است. بر اساس XML، این موجودی ها و کاتالوگ ها می توانند به صورت جداگانه توسط ناشران داده ایجاد شوند. موجودی ها و فهرست ها را می توان جمع آوری کرد و در کتابخانه های دیجیتالی در سراسر جهان نمایه کرد. کاتالوگ های THREDDS تمام منابع داده ای را که در یک سرور خاص قرار دارند فهرست می کنند. کاتالوگ های راه دور از سرورهای دیگر را می توان از طریق URL ها ارجاع داد. کاربرانی که در جستجوی داده هستند، از طریق کاتالوگ های مرتبط سرورهای توزیع شده برای کاوش ابرداده ها جستجو می کنند، بدون توجه به اینکه داده ها در کجا قرار دارند [24 ].
تا به حال، HD(CP) 2 شبکه ای از سه سرور داده توزیع شده THREDDS (کلن، برلین و لایپزیگ) ایجاد کرده است که ممکن است در آینده توسط سرورهای بیشتری گسترش یابد. در مرحله دوم پروژه، یک هدف آن ارائه یک ماشین مجازی از پیش پیکربندی شده برای تحویل به سایر ناشران داده بالقوه است. از پیش پیکربندی شده به این معنی است که یک سیستم عامل، سرور داده THREDDS و یک جمع کننده داده قبلاً نصب شده اند. این یک گام بیشتر به سمت پایداری است و از رویکرد “آسان برای استفاده” برای دانشمندان جاه طلب نیز پشتیبانی می کند، که ممکن است بخواهند سرور داده خود را راه اندازی کنند و آن را با آرشیو وصل کنند.

5. خدمات ارزش افزوده

یکی از اهداف ما ساده سازی و خودکارسازی اقدامات و فرآیندهای روزمره در مدیریت داده است. نگهداری داده‌ها به منابع زیادی نیاز دارد: داده‌ها باید بررسی شوند، کیفیت داده‌ها با جزئیات شرح داده شوند، در پوشه‌ها سازمان‌دهی شوند، فهرست‌بندی و منتشر شوند، دسترسی کنترل شود و به راحتی پیدا شوند. جهت فنی ساخت آرشیو داده ها با استفاده از مولفه های منبع باز موجود و تکمیل آنها با ابزارهای خود تولید شده برای مطابقت با خواسته های آرشیو در صورت لزوم بود.

5.1. پردازش و یکپارچه سازی داده ها

متأسفانه، سرور داده THREDDS شامل ابزارهای نرم افزاری برای پردازش و ادغام خودکار داده ها نمی شود. بنابراین، ما مجبور شدیم نرم افزار خود را توسعه دهیم، که اکنون قادر است بیشتر مراحل را از تحویل داده ها تا یکپارچه سازی داده ها تا تجزیه و تحلیل داده ها را خودکار کند. ابزارهای ایجاد شده چندین برنامه کاربردی و ماژول ها را برای کارهای متفرقه مانند تحویل داده ها، بررسی انطباق به علاوه ارزیابی داده ها و ابرداده های مرتبط، یکپارچه سازی داده ها و نظارت بر پایگاه داده ابرداده ارائه می دهند. به طور خاص، یک ویرایشگر آنلاین ویژه طراحی شده به تولیدکنندگان داده اجازه می دهد تا ابرداده های اجباری را به روشی راحت تولید کنند (به بخش 5.2 مراجعه کنید ).
گردش کار انتشار داده ها (نشان داده شده در شکل 2 ) به شرح زیر است: یک تولید کننده داده ثبت شده باید ابتدا یک مجموعه داده نمونه را برای ارزیابی آپلود کند. یک مجموعه نمونه HD(CP) 2 حاوی یک فایل داده در قالب NetCDF نسخه 3 یا 4، فایل چک جمع آن، و فایل فراداده کدگذاری شده XML مربوط به طرح HD(CP) 2 است . در صورت ارزیابی (به بخش 5.3 مراجعه کنید) موفقیت آمیز است، ناشر داده مجاز است کل مجموعه داده و ابرداده آن را آپلود کند. اگر ارزیابی داده ها با شکست مواجه شود، ناشر داده پیشنهادات اصلاحی را دریافت می کند. هنگامی که اصلاحات پذیرفته شد، مجموعه نمونه را می توان دوباره برای ارزیابی بارگذاری کرد. البته، یک ناشر داده نیز می تواند پیشنهاداتی را ارائه دهد، به عنوان مثال، معرفی یک متغیر جدید. در صورتی که مجموعه داده نشان دهنده یک اندازه گیری مداوم باشد و تغییر عمده ای مانند موقعیت جدید ابزار وجود داشته باشد، روند ارزیابی باید دوباره تکرار شود و تعداد نسخه مجموعه داده یک عدد افزایش یابد. هنگامی که فایل‌های داده آپلود می‌شوند، یک ابزار نرم‌افزار آزمایش مختصری را اجرا می‌کند، به عنوان مثال، اینکه آیا مجموعه داده تایید شده است یا خیر، و اگر آزمایش مثبت باشد، فایل‌های داده در سیستم فایل ادغام می‌شوند. تولید کاتالوگ TDS باید به صورت دستی انجام شود، اما در مرحله بعدی پروژه خودکار خواهد شد. فایل‌های فراداده جدید اضافه شده جمع‌آوری می‌شوند و مسیر داده به پورتال وب مرتبط می‌شود (نگاه کنید بهبخش 5.4 ).
علاوه بر این، ما یک بسته آماری پایه برای پاسخ به برخی سؤالات اساسی ایجاد کرده ایم، مانند تعداد فایل های آرشیو و افزایش ماهانه داده ها چقدر است؟ برخی از جزئیات فنی مانند سرعت دانلود، تعداد دانلود و موقعیت جغرافیایی مشتری کاربر نیز جمع‌آوری و در یک پایگاه داده رابطه‌ای ذخیره می‌شوند که در هر زمان با استفاده از یک رابط مدیر ایجاد شده خاص قابل دسترسی است. این داده‌های خاص به مدیر آرشیو داده کمک می‌کند تا عملکرد و رشد بایگانی را اندازه‌گیری کند و محاسبه حجم داده‌ها و منابع مورد نیاز آینده را بهینه کند.

5.2. ویرایشگر فراداده

برای تضمین انطباق با استاندارد تعریف شده، فایل‌های فراداده باید از طریق ویرایشگر فراداده HD(CP) 2 ایجاد شوند ( شکل 3 را ببینید ). این به محققانی که با XML یا طرح ابرداده HD(CP) 2 آشنایی ندارند ، این امکان را می‌دهد تا فایل‌های ابرداده خود را با پاسخ دادن به چندین سؤال در یک فرم وب طراحی شده خاص ایجاد کنند. این فرم بیشتر لیستی از موارد قابل انتخاب را ارائه می دهد که در منوهای کشویی نمایش داده می شوند. برخی از فیلدها به متن آزاد اجازه می دهند تا طیف کاملی از احتمالات را پوشش دهد. به عنوان مثال، HD(CP) 2متغیرهای تایید شده را می توان از لیستی از بیش از 100 مورد انتخاب کرد. همه آنها توسط جامعه رصد پیشنهاد و پذیرفته شدند. در مقابل، فیلد توضیحات محصول به متن آزاد اجازه می دهد، به اضافه کردن اطلاعاتی کمک می کند که توسط واژگان مشخص شده پوشش داده نمی شوند و ممکن است مهم باشند. در پایان پرسشنامه، اپلیکیشن زیربنایی اطلاعات تکمیل شده را به یک سند XML معتبر تبدیل کرده و یک امضای دیجیتال (کلید هش) در اختیار آن قرار می دهد. فقط فایل‌های ابرداده امضا شده پذیرفته می‌شوند، با اطمینان از ویرایش آنها توسط ویرایشگر فراداده، برای فرآیند یکپارچه‌سازی داده‌ها.
ویرایشگر فراداده HD(CP) 2 یک برنامه کاربردی تحت پشتیبانی وب سرور است و برای مشاهده و/یا ویرایش فایل های ابرداده به هیچ پلاگینی نیاز ندارد. همچنین می تواند برای افزودن، اصلاح و حذف عناصر فایل ابرداده استفاده شود.

5.3. مدیریت کیفیت داده ها

ما کیفیت داده را به عنوان درجه ای که داده ها نیازهای ما را برآورده می کنند تعریف می کنیم [ 25 ]. داده ها به دقت تجزیه و تحلیل می شوند تا مطمئن شویم که استاندارد ما را برآورده می کنند تا داده های با کیفیت بالا را بایگانی کنند. کیفیت بالا در این زمینه به این معنی است که داده ها قابل اعتماد و مناسب برای شبیه سازی آب و هوا هستند و می توانند بدون صرف زمان یا هزینه های غیرمنطقی مورد استفاده قرار گیرند، که در اصل به این معنی است که داده ها به راحتی در دسترس و قابل درک هستند.
قابلیت اطمینان داده ها به منابع آنها، روش های اکتساب و روش های ارزیابی و ذخیره سازی مربوط می شود (به بخش 4 مراجعه کنید ). با توجه به جمع آوری داده ها، محققانی که می خواهند به عنوان تولید کننده داده پذیرفته شوند می توانند در اداره آرشیو داده HD (CP) 2 ثبت نام کنند. پس از تأیید هویت آنها، آنها باید یک مجموعه داده نمونه را بارگذاری کنند که ارزیابی می شود (به بخش 5.1 مراجعه کنید ).
برای ارزیابی داده های مشاهده و ابرداده های مرتبط با آنها، یک سیستم کنترل مبتنی بر نرم افزار ایجاد شد. این نرم افزار انطباق دقیق با HD(CP) 2 را تضمین می کنداستاندارد و محتوای فایل فراداده را با اطلاعات کلی ذخیره شده در سربرگ فایل NetCDF بررسی می کند. با توجه به حجم زیاد ابزارها و متغیرهای مختلف، هنوز نمی توان تعامل انسانی را حذف کرد. ما نقشی به نام کاربر متخصص مشاهده (OEU) ایجاد کرده ایم که مسئولیت پذیرش نهایی را بر عهده دارد. OEU داده‌ها و ابرداده‌ها را در فایل NetCDF و فایل‌های فراداده با فرمت XML ایجاد شده توسط ویرایشگر بررسی می‌کند. حتی یک مجموعه داده رسمی می‌تواند شامل واحدهای نادرست، نام‌های استاندارد نادرست یا داده‌های خراب باشد. به عنوان مثال، تصمیم گیری در مورد اینکه آیا یک اندازه گیری برای یک ابزار خاص منطقی است (ممکن است ساختارهای غیرقابل اعتماد ناشی از خطاهای برنامه ریزی وجود داشته باشد) یا حتی اینکه آیا واحدهای موجود در خود مجموعه داده به درستی انتخاب شده اند (ممکن است واحدهای نادرستی مانند Pa/hPa برای هوا وجود داشته باشد. فشار، یا K/°C برای دما) هنوز به یک عامل انسانی نیاز دارند. بنابراین، بررسی بصری هر مجموعه نمونه ضروری است. فایل NetCDF با یک نرم افزار مورد توافق عمومی مانند “Ncview” و “Panoply” مورد بررسی قرار می گیرد تا نگاهی به سری زمانی داشته باشد. این تضمین می کند که داده ها با کیفیت بالا و مطابق با استانداردهای ما هستند.
این روش همچنان شامل هماهنگی و هماهنگی است، به ویژه زمانی که یک متغیر جدید معرفی می شود، اما در حمایت از محققان برای آماده سازی داده های خود برای استفاده مجدد بسیار مفید است.
هنگامی که یک مجموعه نمونه پذیرفته شد، کل مجموعه داده را می توان آپلود کرد. مجموعه داده تایید شده به TDS منتقل می‌شود، فهرست‌بندی می‌شود و تقریباً بلافاصله می‌تواند به کاربر ارائه شود.

5.4. پورتال HD(CP) 2

پورتال وب HD(CP) 2 ، واقع در مرکز داده های آب و هوایی یکپارچه (ICDC) دانشگاه هامبورگ [ 26 ]، به عنوان نقطه ورودی مرکزی به آرشیو داده ها ایجاد شد. وظیفه اصلی پورتال، ارائه کاملاً مرتب تمام مجموعه داده‌های موجود، ابرداده‌های مربوطه و پیوندهای مربوطه به آرشیو است. برای هر مجموعه داده، پورتال وب یک برگه داده استاندارد ارائه می دهد که در شکل 4 نشان داده شده است، به طور خودکار از ابرداده های آن تولید می شود. شامل اطلاعاتی در مورد ابزار اندازه گیری، متغیرهای اندازه گیری اصلی و برخی اطلاعات کلی مانند شروع و پایان اندازه گیری ها و شماره نسخه است. برگه داده همچنین حاوی پیوندی به مجموعه داده و ابرداده مرتبط است. فایل های ابرداده به صورت دوره ای از سرورهای داده توزیع شده با استفاده از پروتکل برداشت فراداده OAI [ 27 ] برداشت می شوند. دانلود کاربر یک مجموعه داده توسط سرورهای داده توزیع شده انجام می شود، که زیرساخت آنها مبتنی بر سخت افزار مجازی است که امکان گسترش آسان منابع سخت افزاری را فراهم می کند، به عنوان مثال، تعداد پردازنده ها، حافظه یا دیسک و ذخیره سازی پشتیبان (به بخش 4 مراجعه کنید) .). معماری توسعه پذیر همچنین ممکن است در آینده با افزایش تعداد کاربران و حجم فزاینده ای از مجموعه داده ها مواجه شود. همه کاربران به ابرداده ها دسترسی آنلاین رایگان دارند، اما در مرحله اول پروژه باید خود را به عنوان اعضای پروژه احراز هویت کنند تا خودشان داده ها را دانلود کنند. با شروع مرحله دوم، همه داده ها باید آزادانه برای کل جامعه علمی آب و هوا قابل دسترسی باشد.
فراتر از آن، پورتال اطلاعات کلی در مورد پروژه HD(CP) 2 ، توضیحات طبقه بندی های مختلف اندازه گیری، کمپین های اندازه گیری و سند HOPS را ارائه می دهد. علاوه بر این، پورتال یک نمای کلی از تمام عملگرهای فوروارد استفاده شده در HD(CP) 2 ارائه می دهد . عملگرهای رو به جلو وضعیت جو درون مدل را به اندازه‌گیری‌های مجازی ترجمه می‌کنند که می‌تواند مستقیماً با اندازه‌گیری‌های واقعی مقایسه شود. موجودی تمام اپراتورهای فوروارد امکان ارزیابی مقایسه ای را در بین خود فراهم می کند، به دلیل ابرداده استاندارد شده برای هر اپراتور.
با پیروی از رویکرد “استفاده آسان”، پورتال وب امکان جستجوی مجموعه داده های خاص را با استفاده از منوی انتخاب بر اساس طبقه بندی جستجوی HD(CP) 2 ارائه می دهد. درخت جستجو که در شکل 5 نشان داده شده است، برای تسهیل جستجوی کاربر برای یک مجموعه داده خاص طراحی شده است. مجموعه داده ها بر اساس نوع اندازه گیری در مشاهدات بلند مدت یا کوتاه مدت طبقه بندی می شوند. مشاهدات طولانی مدت به مشاهدات محلی، معادل اندازه گیری در سوپرسایت ها، و مشاهدات دامنه کامل، که شامل داده های ماهواره ای و شبکه است، تقسیم می شوند. مشاهدات کوتاه مدت بر اساس کمپین های مختلف، به عنوان مثال، کمپین HOPE یا دوره های مشاهده فشرده (IOPs) مرتب شده اند. در سطح بعدی، مجموعه داده ها به گروه های خاص، مانند گروه های ابزار، گروه های متغیر یا ماهواره ها تقسیم می شوند.
کاربر بدون هیچ تجربه ای در مشاهدات هواشناسی ممکن است به دنبال یک متغیر خاص باشد، در حالی که یک متخصص رصد ممکن است به دنبال یک گروه ابزار در یک مکان خاص (سوپر سایت) باشد.
به همین دلیل، تولیدکنندگان داده این فرصت را دارند که بیش از یک فهرست کلیدواژه برای یک مجموعه داده ایجاد کنند، به عنوان مثال مجموعه داده های ارتفاع سنج از supersite JOYCE باید در سطح اول به عنوان مشاهدات بلند مدت و در سطح دوم به عنوان مشاهدات محلی طبقه بندی شوند. در سطح سوم، احتمالات بیشتری وجود دارد: مجموعه داده می تواند با Supersites → JOYCE، گروه های ابزار → Lidar و گروه های متغیر → Aerosol مرتبط باشد. در نتیجه، یک مجموعه داده به سه دسته مختلف طبقه بندی می شود که احتمال یافتن و استفاده را افزایش می دهد.

6. چشم اندازهای آینده

همکاری بین ناشران داده در دنیای دیجیتالی شبکه ای اهمیت فزاینده ای دارد، به ویژه از نظر پایداری برای داده های اندازه گیری، زیرا داده های اندازه گیری قابل تکرار نیستند [ 28 ]. در آینده با CERA [ 12 ]، واقع در مرکز محاسبات آب و هوایی آلمان (DKRZ؛ Deutsches KlimaRechenZentrum)، که شریک HD(CP) 2 است، همکاری خواهیم کرد.. به منظور ادغام داده‌های خود در پایگاه داده CERA، مجموعه داده‌های نهایی را تعریف کرده و آنها را در گروه‌های داده جدید جمع‌آوری می‌کنیم (به عنوان مثال، یک مجموعه داده برای همه اندازه‌گیری‌ها و محصولات یک سوپرسایت خاص). مجموعه داده های نهایی ممکن است داده های کمپین یا اندازه گیری های بلندمدت برای سال های بسته باشد. مفهوم سیستم ذخیره سازی موازی راه حلی برای تضمین پایداری است. اولین گام، نگاشت اصطلاحات فراداده مورد استفاده در HD(CP) 2 و CERA است. فرآیند یکپارچه سازی شامل تخصیص یک شناسه دیجیتال شی (DOI) برای اهداف ارجاع است. برای “داده های تجربی” بیشتر در آرشیو داده HD(CP) 2 ، یک شناسه پایدار (PID) ایجاد خواهیم کرد.
در پاییز 2016، آرشیو داده‌ها برای اشتراک‌گذاری داده‌ها به روی جامعه آب و هوا و همچنین سایر کتابخانه‌ها و بایگانی‌های دیجیتال برای برداشت ابرداده برای پشتیبانی از دسترسی آزاد باز می‌شود. در حال حاضر ما در حال کار بر روی یک رابطه نقشه برداری برای EUDAT [ 29 ] هستیم. هر جا که داده‌های HD(CP) 2 ذخیره شوند، برای جامعه پژوهشی و در نتیجه برای استفاده غیرتجاری آزادانه در دسترس خواهند بود.
در نهایت، اگرچه قراردادهای CF عمدتاً برای خروجی مدل تعریف شده‌اند، ما در آینده نزدیک به قراردادهای CF کمک خواهیم کرد به دلیل مقدار زیادی از متغیرهای اندازه‌گیری اغلب استفاده شده اما تعریف نشده.

منابع

  1. Overpeck، JT; Meehl، GA; استخوانی، اس. ایسترلینگ، DR چالش های داده های آب و هوایی در قرن بیست و یکم. Science 2011 ، 331 ، 700-702. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  2. استخوانی، اس. استیونز، بی. فریرسون، DMW؛ جاکوب، سی. کاگیاما، م. پینکوس، آر. شپرد، TG; شروود، SC; Siebesma، AP; سوبل، ق. و همکاران ابرها، گردش خون و حساسیت آب و هوا. نات. Geosci. 2015 ، 8 . [ Google Scholar ] [ CrossRef ]
  3. پراکتر، آر. هاف پنی، پی. Voss, A. مدیریت داده های تحقیق: فرصت ها و چالش ها برای HEI. در مدیریت داده های پژوهشی ; گراهام، پی، اد. Facet Publishing: لندن، انگلستان، 2012; صص 135-150. [ Google Scholar ]
  4. تنوپیر، سی. آلارد، اس. داگلاس، ک. آیدین اوغلو، AU; وو، ال. بخوانید، E. مانوف، م. Frame, M. به اشتراک گذاری داده ها توسط دانشمندان: تمرین ها و ادراکات. PLoS ONE 2011 ، 6 ، e21101. [ Google Scholar ] [ CrossRef ] [ PubMed ]
  5. موکشل، سی. نیشولزه، جی. ویست، سی. اسلوبودا، بی. کوهلر، دبلیو. چالش ها، مشکلات و راه حل ها در مدیریت داده های مراکز تحقیقاتی مشارکتی ; eZAI (elektronische Zeitschrift für Agrarinformatik): Freising، آلمان، 2007. [ Google Scholar ]
  6. بوتنر، اس. Hobohm، H.-S.; مولر، L. Handbuch Forschungsdatenmanagement ; Bock + Herchen: Bad Honnef، آلمان، 2011. [ Google Scholar ]
  7. کویپر، تی. ون در هوون، جی. بینش حفظ دیجیتالی خروجی تحقیقات در اروپا. گزارش نظرسنجی PARSE Insight، 2009. موجود به صورت آنلاین: http://www.parse-insight.eu/downloads/PARSE-Insight_D3–4_SurveyReport_final_hq.pdf (در 8 دسامبر 2015 قابل دسترسی است).
  8. زیرساخت تحقیقات آئروسل، ابرها و گازهای ردیابی (ACTRIS). در دسترس آنلاین: http://www.actris.eu (در 20 مه 2016 قابل دسترسی است).
  9. مرکز جهانی داده برای سنجش از دور جو (WDC-RSAT). در دسترس آنلاین: http://wdc.dlr.de (در 20 مه 2016 قابل دسترسی است).
  10. کلودنت. در دسترس آنلاین: http://www.cloud-net.org (در 20 مه 2016 قابل دسترسی است).
  11. ناشر داده برای علوم زمین و محیط زیست: PANGAEA. در دسترس آنلاین: http://www.pangaea.de (در 20 مه 2016 قابل دسترسی است).
  12. بازیابی و آرشیو آب و هوا و محیط زیست (CERA). در دسترس آنلاین: http://cera-www.dkrz.de/WDCC/ui (در 8 دسامبر 2015 قابل دسترسی است).
  13. استاندارد محصول داده‌های مشاهده HD(CP) 2 (HOPS). در دسترس آنلاین: http://www.hdcp2.eu/Community-Data-Format.2810.0.html (در 8 دسامبر 2015 قابل دسترسی است).
  14. استاینکه، اس. آیکنبرگ، اس. لوهنرت، یو. دیک، جی. کلوک، دی. دی جیرولامو، پی. Crewell, S. ارزیابی تغییرپذیری بخار آب یکپارچه در مقیاس کوچک در طول HOPE. اتمس. شیمی. فیزیک 2015 ، 15 ، 2675-2692. [ Google Scholar ] [ CrossRef ]
  15. فرم داده مشترک شبکه (NetCDF). در دسترس آنلاین: http://www.unidata.ucar.edu/software/netcdf/ (در 8 دسامبر 2015 قابل دسترسی است).
  16. کنوانسیون ها و فراداده های CF. در دسترس آنلاین: http://cfconventions.org/ (در 8 دسامبر 2015 قابل دسترسی است).
  17. گرینبرگ، جی. سووگر، اس. فاینشتاین، سرمایه فراداده EM در یک مخزن داده. در مجموعه مقالات کنفرانس بین المللی دوبلین هسته و کاربردهای فراداده 2013، لیسبون، پرتغال، 2 تا 6 سپتامبر 2013. صص 140-150.
  18. ISO/TC 19115-1:2014. اطلاعات جغرافیایی – فراداده – قسمت 1: اصول. سازمان بین المللی استاندارد: ژنو، سوئیس. در دسترس آنلاین: https://www.iso.org/obp/ui/#iso:std:iso:19115:-1:ed-1:v1:en (دسترسی در 29 آوریل 2015).
  19. دستورالعمل INSPIRE، مه 2007. در دسترس آنلاین: http://inspire.ec.europa.eu/ (در 29 آوریل 2015 قابل دسترسی است).
  20. Dublin CORE Metadata Initiative. در دسترس آنلاین: http://dublincore.org/metadata-basics/ (در تاریخ 29 آوریل 2015 قابل دسترسی است).
  21. DataCite Metadata Schema نسخه 3.1، ژوئن 2015. موجود به صورت آنلاین: https://schema.datacite.org/meta/kernel-3/doc/DataCite-MetadataKernel_v3.1.pdf (در 29 آوریل 2015 قابل دسترسی است).
  22. W3C-Extensible Markup Language (XML). در دسترس آنلاین: http://www.w3.org/XML/ (در 8 دسامبر 2015 قابل دسترسی است).
  23. سرور داده THREDDS. در دسترس آنلاین: http://www.unidata.ucar.edu/software/thredds/current/tds/TDS.html (در 8 دسامبر 2015 قابل دسترسی است).
  24. دومنیکو، بی. کارون، جی. دیویس، ای. کامبیک، آر. Nativi، S. خدمات داده های توزیع شده محیطی در زمان واقعی (THREDDS): ترکیب ابزارهای تحلیل تعاملی در NSDL. J. اطلاعات دیجیتال. 2006 ، 2 ، 4. موجود به صورت آنلاین: https://journals.tdl.org/jodi/index.php/jodi/article/view/51/54 (در 13 ژوئیه 2016 قابل دسترسی است). [ Google Scholar ]
  25. Fürber, C. مدیریت کیفیت داده ها با فناوری های معنایی . Springer Gabler: Wiesbaden، آلمان، 2016. [ Google Scholar ]
  26. مرکز داده های آب و هوایی یکپارچه (ICDC). در دسترس آنلاین: http://icdc.zmaw.de/1/projekte/hdcp2.html (دسترسی در 30 مارس 2016).
  27. پروتکل ابتکار بایگانی باز برای برداشت فراداده (OAI-PMH). در دسترس آنلاین: http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm (دسترسی در 30 مارس 2016).
  28. فریچ، بی کلیمافورشانگ. در Langzeitarchivierung von Forschungsdaten ; Neuroth, H., Strathmann, S., Oßwald, A., Scheffel, R., Klump, J., Ludwig, J., Eds. Verlag Werner Hülsbusch: Boizenburg، آلمان، 2012; صص 195-212. [ Google Scholar ]
  29. EUDAT B2find. در دسترس آنلاین: http://b2find.eudat.eu (در 27 ژانویه 2016 قابل دسترسی است).
شکل 1. نمای کلی مشاهدات در HD(CP) 2 . نقشه زیربنایی آلمان مکان سوپرسایت ها و ایستگاه های شبکه GNSS و Ceilometer را نشان می دهد. نمونه ای از مشاهدات کوتاه مدت: ابزار دقیق در طول کمپین HOPE در Juelich ( A ); مشاهدات بلند مدت: مشاهدات ماهواره ای ( B ); ابزار دقیق شماتیک Supersites ( C ); بارش از شبکه رادار باران C-Band سرویس هواشناسی آلمان ( D ).
شکل 2. گردش کار انتشار داده HD(CP) 2 .
شکل 3. ویرایشگر فراداده.
شکل 4. نمونه ای از برگه داده ارائه شده توسط پورتال وب HD(CP) 2 . منوی انتخاب کشویی، بر اساس درخت جستجو (به شکل 5 مراجعه کنید )، مستقیماً در زیر لوگوی پروژه ظاهر می شود.
شکل 5. درخت جستجو، به دنبال طبقه بندی ابرداده برای کلمات کلیدی جستجو.
جدول 1. ترکیب نام فایل داده HD(CP) 2 و شرح هر قسمت از نام فایل.

به اشتراک بگذارید و استناد کنید

بدون نظر

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد. بخش‌های موردنیاز علامت‌گذاری شده‌اند *