خلاصه
آرشیو داده های علمی تقریباً در تمام پروژه های تحقیقاتی یک ماموریت پیچیده است. در این مقاله، ما یک آرشیو آنلاین جدید از دادههای اندازهگیری جو از ابتکار تحقیقاتی “ابرهای با کیفیت بالا و بارش برای پیشبینی آب و هوا” (HD(CP) 2 ) معرفی میکنیم. آرشیو داده های پروژه با کیفیت مدیریت شده، استفاده آسان است و اکنون برای سایر داده های تحقیقات جوی باز است. ایجاد آرشیو قبلاً در مرحله برنامه ریزی پروژه HD(CP) 2 مورد توجه قرار گرفت و منابع لازم اعطا شد. این بودجه پروژه HD(CP) 2 را قادر ساخت تا یک ساختار آرشیو صدا ایجاد کند، که تضمین می کند داده های جمع آوری شده برای همه محققان پروژه و فراتر از آن قابل دسترسی است.
کلید واژه ها:
آرشیو داده ها ؛ استاندارد داده ؛ فراداده ; مدیریت کیفیت داده ها ؛ مدیریت داده های تحقیق ; میان رشته ای ; هواشناسی ; فیزیک اتمسفر ; ابرها
1. معرفی
برای توسعه استراتژی های تغییر اقلیم، درک نحوه عملکرد سیستم آب و هوای زمین، توجه به تغییرات آب و هوا و همچنین علل آن ضروری است. پیشرفت درک مبتنی بر داده های آب و هوایی مشاهده شده و شبیه سازی شده است، به موجب آن داده های مدل های شبیه سازی آب و هوا یکی از سریع ترین بخش های در حال رشد در دنیای داده است [ 1 ]. فرآیند تشکیل ابر و بارش منطقه ای برای شبیه سازی دینامیک اتمسفر و در نتیجه برای پیش بینی آب و هوا حیاتی است. هم ابر و هم بارش از عناصر مهم سیستم آب و هوا هستند [ 2]. تقریباً هر فرآیند فیزیکی در سیستم زمین، از بازخورد خاک-رطوبت گرفته تا برهمکنش دریا-یخ گرفته تا تعامل بیوژئوشیمیایی، به شدت به ابرها و چرخه هیدرولوژیکی بستگی دارد. پروژه “ابرها و بارش با کیفیت بالا برای پیش بینی آب و هوا” یک ابتکار تحقیقاتی در سطح آلمان برای بهبود درک ما از فرآیندهای ابر و بارش و پیامدهای آنها برای پیش بینی آب و هوا است. این پروژه توسط وزارت آموزش و تحقیقات فدرال آلمان (BMBF) تامین می شود و در اکتبر 2012 آغاز شده است.
در مرحله اول پروژه، دامنه مشاهده و شبیه سازی HD(CP) 2 در آلمان و مناطق مرزی متمرکز شد. در مرحله دوم که به تازگی آغاز شده است، دامنه توسط یک منطقه گرمسیری (باربادوس) بزرگ شده است. در حالی که توسعه دهندگان مدل یک مدل آب و هوایی را طراحی کردند که قادر به شبیه سازی با وضوح بالا است، مولفه مشاهده، مشاهدات زمینی، درجا و ماهواره ای را به منظور ارزیابی نتایج مدل سازماندهی می کند. اندازهگیریها بر ساختار فضایی و ترکیب ذرات ابر، با استفاده از امکانات اندازهگیری موجود در سراسر آلمان و هلند متمرکز شدهاند.
همراه با افزایش حجم و اهمیت داده های آب و هوایی، مسئولیت تولیدکنندگان داده و ناشران داده نیز افزایش یافته است [ 3 ]. علاوه بر ایجاد آرشیو داده های قابل اعتماد، سهولت استفاده از آنها مهم است. در HD(CP) 2تقاضا برای استفاده آسان بخشی از پیشنهاد پروژه بود. یک طرح مختصر مدیریت داده گنجانده شد که الزامات مربوط به ذخیره سازی داده ها، مستندسازی داده ها، خط مشی داده ها و قالب بندی استاندارد را برای تولیدکنندگان داده، ناشران داده و کاربران داده شرح می دهد. به عنوان مثال، از همه شرکای مؤلفه مشاهده خواسته شد که داده های جمع آوری شده خود را به آرشیو تحویل دهند. تمایل به اشتراک گذاری داده ها با جامعه علمی پیش نیاز مشارکت در پروژه بود. خط مشی اجباری بایگانی داده ها باید موانع به اشتراک گذاری موثر داده ها را برطرف کند. به طور کلی، اشتراکگذاری دادهها به دانشمندان دیگر اجازه میدهد تا دادهها را تأیید کنند، و از آن برای بازتولید نتایج مدل، اعتبارسنجی تفاسیر، و بر اساس کار تحقیق پروژه استفاده کنند [4 ] .
آرشیو داده ها چیزی بیش از مجموعه ای از مجموعه داده هاست. علاوه بر داده ها، بایگانی باید شامل اسناد، یک ذخیره فیزیکی اطلاعات و فرااطلاعات و یک رابط کاربری باشد [ 5 ]. در داخل پروژه، پیاده سازی چنین سیستم مدیریت داده (DMS) عمدتاً در مرکز محاسبات منطقه ای دانشگاه کلن (RRZK) انجام می شود. DMS ایجاد شده توصیه های عملی ارائه شده در “Handbuch Forschungsdatenmanagement” را در نظر می گیرد که برای کمک به رویارویی با چالش های کلی در مدیریت داده ها طراحی شده است [ 6 ]. RRZK یکی از شرکای پروژه در HD(CP) 2 استمسئول زیرساخت های فنی و پشتیبانی. یک مرکز محاسباتی تخصصی برای ارائه خدمات مدیریت داده و پشتیبانی از زیرساخت های ذخیره سازی به منظور اطمینان از سطح بالای کیفیت و پایه ای پایدار برای توسعه بیشتر در مرحله پس از پروژه است. اکثر دانشمندان نه منابع، با توجه به زمان و هزینه، و نه پشتیبانی فنی برای نگهداری آرشیو دارند. در واقع، فقدان پشتیبانی فنی و بودجه ساختاری، تهدیدهایی هستند که اغلب نام برده می شود برای حفظ داده های دیجیتال رایج [ 7 ].
یکی از دلایل مهم ایجاد یک آرشیو داده های جدید فقدان زیرساخت مشترک برای مشاهدات دقیق سوپرسایت در آلمان بود. در حال حاضر طیف گسترده ای از آرشیوها برای داده های جوی در اروپای مرکزی وجود دارد. برخی از آرشیوها بر ابزار یا محصولات خاصی تمرکز می کنند، مانند ACTRIS [ 8 ]، که عمدتاً بر روی داده های LIDAR (تشخیص نور و محدوده) متمرکز است، WDC-RSAT [ 9 ]، که در داده های ماهواره ای تخصص دارد، یا Cloudnet [ 10 ]، که محصولات داده حاصل از ترکیب ابزار برای مشخصات ابری را ارائه می دهد. آرشیوهای دیگر عمومی تر هستند مانند PANGEA [ 11 ]، که برای داده های جغرافیایی ارجاع داده شده یا CERA [ 12] است.]، که عمدتاً برای داده های خروجی مدل آب و هوایی است. هر دو به خوبی تثبیت شده اند. این آرشیو دادهها برای ابزارهای خاص/ترکیبهای ابزار یا دادههای خروجی مدل طراحی شدهاند. طیف وسیعی از ابزارها در HD(CP) 2 به اندازه کافی در هیچ یک از این آرشیوهای موجود پوشش داده نشده است. علاوه بر این، یک کمپین اندازه گیری فشرده، برنامه ریزی شده برای HD(CP) 2 ، با ابزارها و محصولات توسعه یافته اضافی و تا حدی جدید، نیاز به یک آرشیو داده جدید را نشان داده است. در نهایت، آرشیو جدید حاوی داده های استاندارد شده تا حد زیادی است. استاندارد داده های مورد استفاده در پروژه به ویژه برای آرشیو طراحی شده است و از تبادل آسان و سریع داده بین دانشمندان پروژه پشتیبانی می کند.
در ادامه پیدایش آرشیو را با جزئیات بیشتری شرح خواهیم داد. بخش 2 یک نمای کلی از انواع مختلف داده های مشاهده در آرشیو HD(CP) 2 را نشان می دهد . در بخش 3 ، یک مقدمه کوتاه در مورد قراردادهای الزام آور برای هر مجموعه داده ارائه شده است. بخش 4 زیرساخت فنی را که بایگانی بر روی آن ساخته شده است، تشریح می کند و به دنبال آن خدمات ارزش افزوده در بخش 5 و برخی از دیدگاه های آینده در بخش 6 توضیح داده می شود .
2. داده های استاندارد شده برای آرشیو HD(CP) 2
در ابتدا بحثهای پر جنب و جوشی در جامعه مشاهدهای HD(CP) 2 در مورد اینکه کدام دادهها باید به طور منطقی ادغام شوند، چگونه محصولات معقولی از آنها ایجاد کنیم و چگونه دادهها را برای دانشمندان دیگر قابل استفاده مجدد کنیم، به سادگی و آسانی امکانپذیر بود، وجود داشت. ، بدون موانع فنی.
بحث های بیشتر در مورد اصطلاح “استفاده آسان” صورت گرفت. یک بایگانی داده با استفاده آسان، نه تنها برای کاربرانی از جامعه مشاهده که قصد دارند داده های خود را به اشتراک بگذارند، بلکه برای شرکای پروژه بدون تجربه در انواع ابزار خاص یا پردازش داده های مشاهده چه معنایی دارد؟ هر تولیدکننده داده قالب داده دلخواه خود را دارد. با شروع از این نیازها، بایگانی باید به فرمت های مختلف داده ای خدمت کند. یک کاربر ممکن است بخواهد یک متغیر خاص را بازیابی کند، در حالت ایده آل یک متغیر خروجی از یک مدل خاص با وضوح خاص. در این مورد، بایگانی باید به تعداد بیپایانی از متغیرهای دارای پارامترهای متنوع خدمت کند. هیچ یک از این نوع آرشیو داده های مشاهدات عملی یا مطلوب نیستند. بنابراین، ما باید تعادلی بین موقعیتهای مختلف پیدا میکردیم،
نتایج بحث در استاندارد محصول دادههای مشاهده HD (CP) 2 (HOPS) [ 13 ] خلاصه شد. این سند اکنون به عنوان یک راهنما برای همه تولیدکنندگان داده عمل می کند و به طور مفصل قراردادهای الزام آور مجموعه داده ها و ابرداده های مرتبط با آنها را توصیف می کند (به بخش 3 مراجعه کنید ).
در حال حاضر آرشیو دادههای HD(CP) 2 دادههای استاندارد مشاهدات جوی معمولی و پارامترهای ابری خاص را که در ابزارهای رصدی مختلف اندازهگیری و مشتق شدهاند، ارائه میکند. وضوح مکانی داده ها از شبکه های جغرافیایی منظم و نامنظم، مانند داده های شبکه ماهواره ای یا ارتفاع سنج، تا مشاهدات محلی (ابر سایت ها) و داده های چهار بعدی ابزارهای اسکن مانند رادار ابری متفاوت است.
داده ها چرخه های اندازه گیری بلندمدت و همچنین کمپین های فشرده مشاهده کوتاه مدت را پوشش می دهند ( شکل 1 را ببینید ). مشاهدات بلند مدت بر اساس مشاهدات تمام دامنه و مشاهدات محلی است. مجموعه دادههای ابزارهای مختلف مبتنی بر ماهواره (مانند SEVIRI در ماهوارههای MeteoSat نسل دوم (MSG)) و همچنین مجموعه دادههای شبکههای ابزاری زمینی (مانند شبکه رادار باران باند C آبوهوای آلمان) را پیدا خواهید کرد. سرویس، RADOLAN)، و همچنین مجموعه داده هایی از به اصطلاح supersites.
در حال حاضر هیچ تعریف مشترکی از اصطلاح “ابر سایت هواشناسی” وجود ندارد. معنی بستگی به پروژه و تمرکز ابزار دارد. برای آرشیو داده های HD(CP) 2 ، سوپرسایت به معنای رصدخانه ای برای اندازه گیری های بلندمدت از جمله حداقل رادار ابری، رادیومتر مایکروویو و سیستم LIDAR است. هر ابزار اضافی، مانند برج هواشناسی، یک جایزه است.
در حال حاضر، مجموعه دادههای چهار ابرسایت در اروپای مرکزی به طور مداوم جمعآوری و پردازش میشوند: سایت آزمایشی Cabauw برای تحقیقات جوی (CESAR)، رصدخانه Juelich برای تکامل ابر (JOYCE)، آئروسل لایپزیگ و سیستم مشاهدات از راه دور ابری (LACROS)، و ریچارد- رصدخانه آسمان در لیندنبرگ (RAO).
آرشیو دادهها همچنین مشاهدات کوتاهمدتی مانند دادههای حاصل از آزمایش نمونه اولیه رصدی HD(CP) 2 (HOPE) را فراهم میکند. کمپین HOPE در آوریل و مه 2013 در منطقه اطراف مرکز تحقیقات Juelich، که شامل ابرسایت JOYCE است، انجام شد. برای ارائه یک ارزیابی مدل بحرانی در مقیاس شبیهسازی مدل (در حد 100 متر)، و بیشتر برای ارائه اطلاعات در مورد تنوع زیرشبکه و خواص میکروفیزیکی طراحی شده است.
تنوع محصولات مشاهده در آرشیو مبنایی برای مقایسه ابزارها و همچنین اعتبارسنجی مدلهای آب و هوایی است. به عنوان مثال، نتایج HOPE برای مقایسه بخار آب یکپارچه اندازه گیری شده، مشتق شده از MODIS (طیف سنج تصویربرداری با وضوح متوسط) و ابزارهای زمینی مانند GPS (سیستم موقعیت یاب جهانی)، MWR (رادیومتر مایکروویو) و نورسنج خورشید، و اعتبارسنجی مدلهای COSMO-DE و ICON-DE (مدلهای پیشبینی عددی آب و هوا سرویس هواشناسی آلمان) [ 14 ].
3. استاندارد محصول مشاهده ای HD(CP) 2
به عنوان یک نتیجه نهایی از بحث، استاندارد محصول داده مشاهده HD (CP) 2 (HOPS) برای آرشیو، از جمله یک طرح ابرداده توسعه داده شد. فایلهای داده باید در قالب NetCDF ایجاد شوند، که یک فرمت داده مستقل و مستقل از ماشین است که از مشخصات دادههای علمی آرایهمحور پشتیبانی میکند. کتابخانه های برنامه نویسی امکان ایجاد، دسترسی و اصلاح داده های با فرمت NetCDF را فراهم می کنند. NetCDF [ 15 ] یک فرمت شناخته شده است و اغلب در جامعه آب و هوا استفاده می شود، که آن را به عنوان یک استاندارد اولیه پذیرفته است. برای دادههای موجود در فایلهای NetCDF، اصول دادهشده در قراردادهای ابرداده آب و هوا و پیشبینی (CF) باید تا آنجا که ممکن است رعایت شود [ 16 ]. به ویژه HD (CP)تعریف آرایه مختصات و داده بر اساس این قراردادها است. نسخه 3 بعدی NetCDF و نسخه فعلی 4 (همچنین با گزینه فشرده سازی) پشتیبانی می شوند.
با در نظر گرفتن رویکرد “آسان برای استفاده”، داده ها بر اساس فایل روزانه ذخیره می شوند، تنها با چند استثنا، به عنوان مثال، برای اندازه گیری های هوایی یا داده های گذرهای ماهواره ای، به دلیل اندازه بزرگ داده های روزانه مربوطه. مجموعه داده HD(CP) 2 به مجموعه کاملی از فایل های داده (روزانه) از یک سری اندازه گیری اشاره دارد که همان ابرداده را به اشتراک می گذارند. بسته به دوره زمانی اندازه گیری (ادامه) مربوطه، یک مجموعه ممکن است حاوی هزاران فایل باشد. مجموعه داده ها با اختصاص یک شماره نسخه منحصر به فرد به مراحل مختلف، نسخه کنترل می شوند. هر تغییر در داده ها، به عنوان مثال، رفع اشکال در پردازش یا موقعیت جدید ابزار، به یک شماره نسخه جدید دلالت دارد.
به طور کلی، هر فایل داده روزانه باید تنها حاوی یک متغیر و خطای تخمینی آن در صورت موجود بودن باشد. استثناهایی برای داده های سطح 1 وجود دارد که ممکن است شامل بیش از یک متغیر در هر فایل باشد، و اندازه گیری هایی که برای آنها متغیرهای اسکالر یا تک معنی ندارند، به عنوان مثال، برای گروه متغیر باد (شامل سه جزء به اضافه سرعت باد افقی و جهت).
هر متغیر با نام متغیر و در مورد متغیر CF با ویژگی standard_name و واحد آن توصیف میشود. با این حال، از آنجایی که قراردادهای فراداده CF برای دادههای مدل توسعه داده شدهاند، همه نوع دادههای مشاهده پوشش داده نمیشوند. بنابراین، ما نمی توانیم یک ویژگی CF standard_name برای همه متغیرهای به دست آمده توسط ابزارهای مرتبط با HD(CP) 2 ارائه کنیم. متغیرهایی که نام استاندارد CF ندارند هنوز دارای ویژگی long_name هستند. واحدهای متغیرها با سیستم بین المللی واحدها (SI Units) مطابقت دارند.
یک متغیر مهم برای همه مجموعه داده ها، متغیر زمان اندازه گیری است. بنابراین، قرارداد تعیین زمان بر حسب ثانیه از 1 ژانویه 1970 ساعت 00:00:00 است، همانطور که معمولاً در سیستم عامل های یونیکس مانند استفاده می شود. زمان باید با زمان هماهنگ جهانی (UTC، زمان جهانی، هماهنگ) مرتبط باشد.
به ویژه، یک فایل مجموعه داده باید دارای یک نام منحصر به فرد باشد که سیستم طبقه بندی را نشان می دهد و شامل هفت بخش به شرح زیر است:
<kkk>_<sss>_<instnn>_<ln>_<var>_<vnn>_YYYYMMDDhhmmss.nc.
شرح قسمت های مربوطه در جدول 1 آورده شده است .
ساخت نام فایل به تفصیل در سند HOPS توضیح داده شده است.
استفاده از مجموعه داده های استاندارد شده به این معنی است که هیچ انطباق با یک ابزار منفرد یا نام متغیر خاص ناشر ضروری نیست. به عنوان مثال، دمای هوا دارای نام متغیر ta است، با نام استاندارد «دمای_هوا» و واحد K ، همانطور که در قراردادهای CF آمده است. طبق طبقه بندی HD(CP) 2 ، دمای هوا (ta) در محصول سطح 2 (l2) اولین رادیومتر مایکروویو (mwr00) از سوپرسایت (sups) JOYCE (joy)، نسخه اول (v00) از 1 ژانویه 2014، باید به عنوان sups_joy_mwr00_l2_ta_v00_20140101000000.nc نامگذاری شود.
داده های مستند باید سایر محققان را قادر به درک، استفاده و استفاده مجدد از داده ها به درستی کند. ابرداده با کیفیت خوب یک دارایی است [ 17 ]. به همین دلیل، هر مجموعه داده ای که توسط یک سرور داده HD(CP) 2 منتشر می شود، باید به شکل مناسبی با ابرداده مرتبط شود (به بخش 5.2 مراجعه کنید.). مزیت حاشیه نویسی معنایی داده ها بر اساس برخی واژگان به خوبی تثبیت شده آشکار است. واژگان کنترلشده به جستجو و یافتن دادهها کمک میکند و آنها را با سایر محققان «قابل اشتراکگذاری» میکند. اکثر استانداردهای رایج مانند برخی استانداردهای ISO ممکن است برای نیازهای ما ایده آل به نظر برسند، اما متأسفانه برای داده های اندازه گیری اتمسفر هیچ استانداردی وجود ندارد که به خوبی مطابقت داشته باشد. خانواده استاندارد ISO 191xx برای سیستم های اطلاعات جغرافیایی (عمدتا ISO 19115-1:2014 [ 18 ]) با ساختار پیچیده و تعداد زیادی موجودیت، برای مجموعه کوچکی از عناصر که با نیازهای پروژه مطابقت دارد بسیار پیچیده است و تقریباً یک تناقض است. به رویکرد “آسان برای استفاده” ما. همین امر را می توان در مورد دستورالعمل INSPIRE (2007) [ 19]. از سوی دیگر، Dublin Core (NISOZ3985) [ 20 ] و DataCite Metadata Scheme (3.1) [ 21 ] خیلی کلی هستند. اگرچه دومی فیلدهای ابرداده را برای مشخص کردن منطقه جغرافیایی که در آن داده ها جمع آوری شده است (یعنی مکان جغرافیایی) فراهم می کند، ما باید موقعیت و جهت دقیق، به ویژه ارتفاع، هر ابزار اندازه گیری، یا ترکیبی از ابزارها را تعریف کنیم. به همین دلیل است که تصمیم گرفتیم طرح ابرداده خود را ایجاد کنیم.
ما حدود 30 عنصر توصیفی فراداده را طراحی کردیم که اکثر آنها با واژگان کنترل شده، برخی از ویژگی های تثبیت شده در جامعه آب و هوا را از سربرگ NetCDF تطبیق می دهند. عناصر خاص نوع داده که نیازهای پروژه آب و هوایی ما و ویژگی های جهانی را منعکس می کنند با استانداردهای فراداده فعلی مانند هسته دوبلین، طرح ابرداده DataCite، استاندارد ISO19115-1 و دستورالعمل INSPIRE مطابقت دارند. طرح فراداده HD(CP) 2 ویژگی های اجباری، اختیاری و تولید شده به صورت خودکار را ارائه می دهد. به عنوان مثال، HD (CP) 2ابرداده باید حداقل شامل ویژگیهای کلی زیر باشد: عنوان مجموعه دادهها، موسسه و نام تولیدکننده داده، نام و آدرس ایمیل یک فرد تماس، منبع ابزار، اطلاعات مربوط به قراردادهای مورد استفاده، تاریخ پردازش. و خط مشی مجوز HD(CP) 2 . فیلدهای نظرات و تاریخچه داده ها اختیاری هستند.
سند HOPS استاندارد فراداده را برای توصیف و فهرست بندی داده های بایگانی شده به روشی ثابت مشخص می کند. فایل های ابرداده باید در زبان نشانه گذاری توسعه پذیر [ 22 ] کدگذاری شوند. XML یک روش معمول برای توصیف انواع خاصی از ساختار سند ارائه می دهد، به همین دلیل است که به عنوان زبان مشخصات فراداده انتخاب شده است. تولیدکنندگان داده باید یک فایل مجزا با اطلاعات دقیق در مورد اندازهگیری و ابزار تولید کنند که توسط واژگان تثبیت شده ما برای ابرداده هدایت میشود. به عنوان مثال، آنها باید کلمات کلیدی را با HD(CP) 2 مشخص کنندطبقه بندی برای جستجوی بعدی و نتایج بازیابی دقیق. فراداده های اضافی، مانند شرح مکان ابزار، مراجع، تاریخچه داده ها و محدودیت های روش ها و/یا داده ها نیز باید مشخص شوند.
HOPS به طور مداوم در حال پیشرفت است، عمدتاً به این دلیل که مبتنی بر مجموعه داده های پویا است. یک مجموعه داده پویا به طور مداوم در حال رشد است که توسط مشاهدات مداوم تغذیه می شود، که شرایط و روش های آن هر از گاهی تغییر می کند. به عنوان مثال، یک پردازش داده جدید، یک نرم افزار ابزار جدید قابل توجه یا یک ترکیب ابزار جدید به این معنی است که استاندارد باید به روز شود تا آن را برای هدف مناسب نگه دارد.
در نتیجه، استاندارد محصول دادههای مشاهدهای HD(CP) 2 را میتوان با سوپرسایتها، کمپینهای اندازهگیری، و ابزار/متغیرهای بیشتر تطبیق داد و فراتر از HD(CP) 2 ، میتواند برای سایر دادههای تحقیقات جوی که آرشیو برای آنها باز است نیز اعمال شود. اکنون.
4. زیرساخت و مدیریت داده ها
HD(CP) 2آرشیو داده ها داده های مشاهده ای از انواع بسیار متفاوت را فراهم می کند و آن را به صورت بلندمدت در دسترس قرار می دهد. بنابراین، مدیریت دادههای مقرونبهصرفه یک چالش است: از یک سو، دادهها باید متمرکز باشند تا از ثبات دادهها و دسترسی آسان برای کاربران اطمینان حاصل شود. از سوی دیگر، همه منابع زیرساختی بدون توجه به جایی که ممکن است در دسترس باشد، باید مورد استفاده قرار گیرند. مورد دوم به دلیل این واقعیت که مقدار داده به طور پیوسته در حال رشد است، جنبه بسیار مهمی است. اگرچه مخزن داده در پاییز 2013 راه اندازی شد، اما به سرعت پر می شود. به همین دلیل است که آرشیو باید مقیاس پذیر باشد و با رعایت الزامات مربوط به در دسترس بودن و عملکرد، انعطاف پذیر باشد. در حال حاضر – ژوئن 2016 – آرشیو در حال حاضر شامل بیش از 150 مجموعه داده است که از سال 2007 شروع می شود. مجموعه داده ها شامل حدود 55،
راه حل فنی مقیاس پذیر ما از چندین سرور داده توزیع شده در سایت های مختلف شریک پروژه تشکیل شده است. همه سرورها دارای یک زیرساخت مشترک با یک طراحی استاندارد اما خدمات عملیاتی متفرقه هستند. این سرویس ها به یکدیگر متصل می شوند تا یک آرشیو مجازی واحد با یک پورتال وب مشترک به عنوان نقطه ورودی مرکزی برای همه کاربران تشکیل دهند. هر سرور داده توسط یک مرکز محاسباتی دانشگاه یا یک موسسه دانشگاهی با یک مرکز محاسباتی در پسزمینه میزبانی میشود که در دسترس بودن طولانیمدت دادهها را تضمین میکند. برای هر سرور داده، همه فایلها در یک سیستم فایل سلسله مراتبی استاندارد ذخیره میشوند، هر سیستم فایل توسعهپذیر این کار را انجام میدهد، تا زمانی که سازماندهی فایل داده داخلی بر اساس طبقهبندی نام فایل مشخص شده در HOPS با توجه به ابزار اندازهگیری، متغیرها، وضعیت پردازش داده باشد. و دیگران (نگاه کنید بهبخش 3 ).
با توجه به محاسبات محلی و منابع ذخیره داده های مختلف، پیاده سازی فیزیکی بین سایت های منفرد متفاوت است. به عنوان مثال، در کلن، خدمات داده و همچنین ذخیره سازی داده ها به صورت اضافی با استفاده از زیرساخت مجازی در دسترس بودن بالا مرکز محاسبات منطقه ای (RRZK) مبتنی بر VMWare ESX پیاده سازی می شوند. ماشین مجازی (VM) در بالای یک خوشه دسترسی بالا (HA Cluster) اجرا می شود و از نظر پردازنده، حافظه و حافظه قابل ارتقا است. این نه تنها اجازه مدیریت انعطاف پذیر HD(CP) 2 را می دهدسرویس داده، اما همچنین حداقل دوره های وقفه زمانی را در صورت تعمیر و نگهداری سخت افزار یا خرابی سخت افزار زیرساخت مجازی سازی شده تضمین می کند. علاوه بر این، تمام سرویسهای موجود در سرور داده توسط یک سرور مرکزی NAGIOS نظارت میشوند که در صورت عدم کارکرد یا قطعی سرویسها به مدیران آرشیو دادهها اطلاع میدهد. با توجه به ایمنی دادههای HD(CP) 2 ، هر شب از تمام دادهها به صورت تدریجی در یک سیستم روبات نوار مرکزی حداقل در دو نوار مختلف در دو مکان مختلف پشتیبانگیری میشود، بنابراین چهار نسخه ارائه میشود. دانشگاه لایپزیگ از مفهوم متفاوتی برای افزونگی استفاده می کند. برای خدمات داده، دو سرور مجازی یکسان در مکانهای مختلف دانشگاه راهاندازی شدهاند و از طریق ضربان قلب همگامسازی میشوند. بخش لایپزیگ HD(CP) 2داده ها در یک سرور داده مرکزی ذخیره می شوند و از طریق GlusterFS به دیسک های RAID مجازی مختلف، که توسط سرورهای داده مجازی ذکر شده در بالا نصب می شوند، تکثیر می شوند. بنابراین، در دسترس بودن بالای خدمات داده نیز تضمین شده است.
ستون فقرات پلت فرم فنی HD(CP) 2 THREDDS Data Server (TDS) است، یک محصول منبع باز توسعه یافته توسط Unidata [ 23]. عملکرد سرویسهای دادههای توزیعشده محیطی در زمان واقعی (THREDDS) این است که به محققان امکان دسترسی به مجموعه بزرگی از مجموعه دادههای متنوع و آرشیو شده در تعدادی از سایتهای سرور توزیعشده را میدهد. این یک رابط مشترک برای فرمتهای دادههای زمینشناسی مانند HDF5، GRIB، و NetCDF فراهم میکند و از طریق OPeNDAP، خدمات پوشش وب (WCS)، زیر مجموعه NetCDF و سرویسهای انتقال فایل HTTP به آنها سرویس میدهد. سه پروتکل سرور اول به کاربر اجازه می دهد تا زیر مجموعه هایی از داده ها را بدست آورد که برای تعامل مستقیم، به عنوان مثال، برای تجسم داده ها کارآمد است. TDS حاوی فراداده در موجودی ها و کاتالوگ های قابل انتشار است. بر اساس XML، این موجودی ها و کاتالوگ ها می توانند به صورت جداگانه توسط ناشران داده ایجاد شوند. موجودی ها و فهرست ها را می توان جمع آوری کرد و در کتابخانه های دیجیتالی در سراسر جهان نمایه کرد. کاتالوگ های THREDDS تمام منابع داده ای را که در یک سرور خاص قرار دارند فهرست می کنند. کاتالوگ های راه دور از سرورهای دیگر را می توان از طریق URL ها ارجاع داد. کاربرانی که در جستجوی داده هستند، از طریق کاتالوگ های مرتبط سرورهای توزیع شده برای کاوش ابرداده ها جستجو می کنند، بدون توجه به اینکه داده ها در کجا قرار دارند [24 ].
تا به حال، HD(CP) 2 شبکه ای از سه سرور داده توزیع شده THREDDS (کلن، برلین و لایپزیگ) ایجاد کرده است که ممکن است در آینده توسط سرورهای بیشتری گسترش یابد. در مرحله دوم پروژه، یک هدف آن ارائه یک ماشین مجازی از پیش پیکربندی شده برای تحویل به سایر ناشران داده بالقوه است. از پیش پیکربندی شده به این معنی است که یک سیستم عامل، سرور داده THREDDS و یک جمع کننده داده قبلاً نصب شده اند. این یک گام بیشتر به سمت پایداری است و از رویکرد “آسان برای استفاده” برای دانشمندان جاه طلب نیز پشتیبانی می کند، که ممکن است بخواهند سرور داده خود را راه اندازی کنند و آن را با آرشیو وصل کنند.
5. خدمات ارزش افزوده
یکی از اهداف ما ساده سازی و خودکارسازی اقدامات و فرآیندهای روزمره در مدیریت داده است. نگهداری دادهها به منابع زیادی نیاز دارد: دادهها باید بررسی شوند، کیفیت دادهها با جزئیات شرح داده شوند، در پوشهها سازماندهی شوند، فهرستبندی و منتشر شوند، دسترسی کنترل شود و به راحتی پیدا شوند. جهت فنی ساخت آرشیو داده ها با استفاده از مولفه های منبع باز موجود و تکمیل آنها با ابزارهای خود تولید شده برای مطابقت با خواسته های آرشیو در صورت لزوم بود.
5.1. پردازش و یکپارچه سازی داده ها
متأسفانه، سرور داده THREDDS شامل ابزارهای نرم افزاری برای پردازش و ادغام خودکار داده ها نمی شود. بنابراین، ما مجبور شدیم نرم افزار خود را توسعه دهیم، که اکنون قادر است بیشتر مراحل را از تحویل داده ها تا یکپارچه سازی داده ها تا تجزیه و تحلیل داده ها را خودکار کند. ابزارهای ایجاد شده چندین برنامه کاربردی و ماژول ها را برای کارهای متفرقه مانند تحویل داده ها، بررسی انطباق به علاوه ارزیابی داده ها و ابرداده های مرتبط، یکپارچه سازی داده ها و نظارت بر پایگاه داده ابرداده ارائه می دهند. به طور خاص، یک ویرایشگر آنلاین ویژه طراحی شده به تولیدکنندگان داده اجازه می دهد تا ابرداده های اجباری را به روشی راحت تولید کنند (به بخش 5.2 مراجعه کنید ).
گردش کار انتشار داده ها (نشان داده شده در شکل 2 ) به شرح زیر است: یک تولید کننده داده ثبت شده باید ابتدا یک مجموعه داده نمونه را برای ارزیابی آپلود کند. یک مجموعه نمونه HD(CP) 2 حاوی یک فایل داده در قالب NetCDF نسخه 3 یا 4، فایل چک جمع آن، و فایل فراداده کدگذاری شده XML مربوط به طرح HD(CP) 2 است . در صورت ارزیابی (به بخش 5.3 مراجعه کنید) موفقیت آمیز است، ناشر داده مجاز است کل مجموعه داده و ابرداده آن را آپلود کند. اگر ارزیابی داده ها با شکست مواجه شود، ناشر داده پیشنهادات اصلاحی را دریافت می کند. هنگامی که اصلاحات پذیرفته شد، مجموعه نمونه را می توان دوباره برای ارزیابی بارگذاری کرد. البته، یک ناشر داده نیز می تواند پیشنهاداتی را ارائه دهد، به عنوان مثال، معرفی یک متغیر جدید. در صورتی که مجموعه داده نشان دهنده یک اندازه گیری مداوم باشد و تغییر عمده ای مانند موقعیت جدید ابزار وجود داشته باشد، روند ارزیابی باید دوباره تکرار شود و تعداد نسخه مجموعه داده یک عدد افزایش یابد. هنگامی که فایلهای داده آپلود میشوند، یک ابزار نرمافزار آزمایش مختصری را اجرا میکند، به عنوان مثال، اینکه آیا مجموعه داده تایید شده است یا خیر، و اگر آزمایش مثبت باشد، فایلهای داده در سیستم فایل ادغام میشوند. تولید کاتالوگ TDS باید به صورت دستی انجام شود، اما در مرحله بعدی پروژه خودکار خواهد شد. فایلهای فراداده جدید اضافه شده جمعآوری میشوند و مسیر داده به پورتال وب مرتبط میشود (نگاه کنید بهبخش 5.4 ).
علاوه بر این، ما یک بسته آماری پایه برای پاسخ به برخی سؤالات اساسی ایجاد کرده ایم، مانند تعداد فایل های آرشیو و افزایش ماهانه داده ها چقدر است؟ برخی از جزئیات فنی مانند سرعت دانلود، تعداد دانلود و موقعیت جغرافیایی مشتری کاربر نیز جمعآوری و در یک پایگاه داده رابطهای ذخیره میشوند که در هر زمان با استفاده از یک رابط مدیر ایجاد شده خاص قابل دسترسی است. این دادههای خاص به مدیر آرشیو داده کمک میکند تا عملکرد و رشد بایگانی را اندازهگیری کند و محاسبه حجم دادهها و منابع مورد نیاز آینده را بهینه کند.
5.2. ویرایشگر فراداده
برای تضمین انطباق با استاندارد تعریف شده، فایلهای فراداده باید از طریق ویرایشگر فراداده HD(CP) 2 ایجاد شوند ( شکل 3 را ببینید ). این به محققانی که با XML یا طرح ابرداده HD(CP) 2 آشنایی ندارند ، این امکان را میدهد تا فایلهای ابرداده خود را با پاسخ دادن به چندین سؤال در یک فرم وب طراحی شده خاص ایجاد کنند. این فرم بیشتر لیستی از موارد قابل انتخاب را ارائه می دهد که در منوهای کشویی نمایش داده می شوند. برخی از فیلدها به متن آزاد اجازه می دهند تا طیف کاملی از احتمالات را پوشش دهد. به عنوان مثال، HD(CP) 2متغیرهای تایید شده را می توان از لیستی از بیش از 100 مورد انتخاب کرد. همه آنها توسط جامعه رصد پیشنهاد و پذیرفته شدند. در مقابل، فیلد توضیحات محصول به متن آزاد اجازه می دهد، به اضافه کردن اطلاعاتی کمک می کند که توسط واژگان مشخص شده پوشش داده نمی شوند و ممکن است مهم باشند. در پایان پرسشنامه، اپلیکیشن زیربنایی اطلاعات تکمیل شده را به یک سند XML معتبر تبدیل کرده و یک امضای دیجیتال (کلید هش) در اختیار آن قرار می دهد. فقط فایلهای ابرداده امضا شده پذیرفته میشوند، با اطمینان از ویرایش آنها توسط ویرایشگر فراداده، برای فرآیند یکپارچهسازی دادهها.
ویرایشگر فراداده HD(CP) 2 یک برنامه کاربردی تحت پشتیبانی وب سرور است و برای مشاهده و/یا ویرایش فایل های ابرداده به هیچ پلاگینی نیاز ندارد. همچنین می تواند برای افزودن، اصلاح و حذف عناصر فایل ابرداده استفاده شود.
5.3. مدیریت کیفیت داده ها
ما کیفیت داده را به عنوان درجه ای که داده ها نیازهای ما را برآورده می کنند تعریف می کنیم [ 25 ]. داده ها به دقت تجزیه و تحلیل می شوند تا مطمئن شویم که استاندارد ما را برآورده می کنند تا داده های با کیفیت بالا را بایگانی کنند. کیفیت بالا در این زمینه به این معنی است که داده ها قابل اعتماد و مناسب برای شبیه سازی آب و هوا هستند و می توانند بدون صرف زمان یا هزینه های غیرمنطقی مورد استفاده قرار گیرند، که در اصل به این معنی است که داده ها به راحتی در دسترس و قابل درک هستند.
قابلیت اطمینان داده ها به منابع آنها، روش های اکتساب و روش های ارزیابی و ذخیره سازی مربوط می شود (به بخش 4 مراجعه کنید ). با توجه به جمع آوری داده ها، محققانی که می خواهند به عنوان تولید کننده داده پذیرفته شوند می توانند در اداره آرشیو داده HD (CP) 2 ثبت نام کنند. پس از تأیید هویت آنها، آنها باید یک مجموعه داده نمونه را بارگذاری کنند که ارزیابی می شود (به بخش 5.1 مراجعه کنید ).
برای ارزیابی داده های مشاهده و ابرداده های مرتبط با آنها، یک سیستم کنترل مبتنی بر نرم افزار ایجاد شد. این نرم افزار انطباق دقیق با HD(CP) 2 را تضمین می کنداستاندارد و محتوای فایل فراداده را با اطلاعات کلی ذخیره شده در سربرگ فایل NetCDF بررسی می کند. با توجه به حجم زیاد ابزارها و متغیرهای مختلف، هنوز نمی توان تعامل انسانی را حذف کرد. ما نقشی به نام کاربر متخصص مشاهده (OEU) ایجاد کرده ایم که مسئولیت پذیرش نهایی را بر عهده دارد. OEU دادهها و ابردادهها را در فایل NetCDF و فایلهای فراداده با فرمت XML ایجاد شده توسط ویرایشگر بررسی میکند. حتی یک مجموعه داده رسمی میتواند شامل واحدهای نادرست، نامهای استاندارد نادرست یا دادههای خراب باشد. به عنوان مثال، تصمیم گیری در مورد اینکه آیا یک اندازه گیری برای یک ابزار خاص منطقی است (ممکن است ساختارهای غیرقابل اعتماد ناشی از خطاهای برنامه ریزی وجود داشته باشد) یا حتی اینکه آیا واحدهای موجود در خود مجموعه داده به درستی انتخاب شده اند (ممکن است واحدهای نادرستی مانند Pa/hPa برای هوا وجود داشته باشد. فشار، یا K/°C برای دما) هنوز به یک عامل انسانی نیاز دارند. بنابراین، بررسی بصری هر مجموعه نمونه ضروری است. فایل NetCDF با یک نرم افزار مورد توافق عمومی مانند “Ncview” و “Panoply” مورد بررسی قرار می گیرد تا نگاهی به سری زمانی داشته باشد. این تضمین می کند که داده ها با کیفیت بالا و مطابق با استانداردهای ما هستند.
این روش همچنان شامل هماهنگی و هماهنگی است، به ویژه زمانی که یک متغیر جدید معرفی می شود، اما در حمایت از محققان برای آماده سازی داده های خود برای استفاده مجدد بسیار مفید است.
هنگامی که یک مجموعه نمونه پذیرفته شد، کل مجموعه داده را می توان آپلود کرد. مجموعه داده تایید شده به TDS منتقل میشود، فهرستبندی میشود و تقریباً بلافاصله میتواند به کاربر ارائه شود.
5.4. پورتال HD(CP) 2
پورتال وب HD(CP) 2 ، واقع در مرکز داده های آب و هوایی یکپارچه (ICDC) دانشگاه هامبورگ [ 26 ]، به عنوان نقطه ورودی مرکزی به آرشیو داده ها ایجاد شد. وظیفه اصلی پورتال، ارائه کاملاً مرتب تمام مجموعه دادههای موجود، ابردادههای مربوطه و پیوندهای مربوطه به آرشیو است. برای هر مجموعه داده، پورتال وب یک برگه داده استاندارد ارائه می دهد که در شکل 4 نشان داده شده است، به طور خودکار از ابرداده های آن تولید می شود. شامل اطلاعاتی در مورد ابزار اندازه گیری، متغیرهای اندازه گیری اصلی و برخی اطلاعات کلی مانند شروع و پایان اندازه گیری ها و شماره نسخه است. برگه داده همچنین حاوی پیوندی به مجموعه داده و ابرداده مرتبط است. فایل های ابرداده به صورت دوره ای از سرورهای داده توزیع شده با استفاده از پروتکل برداشت فراداده OAI [ 27 ] برداشت می شوند. دانلود کاربر یک مجموعه داده توسط سرورهای داده توزیع شده انجام می شود، که زیرساخت آنها مبتنی بر سخت افزار مجازی است که امکان گسترش آسان منابع سخت افزاری را فراهم می کند، به عنوان مثال، تعداد پردازنده ها، حافظه یا دیسک و ذخیره سازی پشتیبان (به بخش 4 مراجعه کنید) .). معماری توسعه پذیر همچنین ممکن است در آینده با افزایش تعداد کاربران و حجم فزاینده ای از مجموعه داده ها مواجه شود. همه کاربران به ابرداده ها دسترسی آنلاین رایگان دارند، اما در مرحله اول پروژه باید خود را به عنوان اعضای پروژه احراز هویت کنند تا خودشان داده ها را دانلود کنند. با شروع مرحله دوم، همه داده ها باید آزادانه برای کل جامعه علمی آب و هوا قابل دسترسی باشد.
فراتر از آن، پورتال اطلاعات کلی در مورد پروژه HD(CP) 2 ، توضیحات طبقه بندی های مختلف اندازه گیری، کمپین های اندازه گیری و سند HOPS را ارائه می دهد. علاوه بر این، پورتال یک نمای کلی از تمام عملگرهای فوروارد استفاده شده در HD(CP) 2 ارائه می دهد . عملگرهای رو به جلو وضعیت جو درون مدل را به اندازهگیریهای مجازی ترجمه میکنند که میتواند مستقیماً با اندازهگیریهای واقعی مقایسه شود. موجودی تمام اپراتورهای فوروارد امکان ارزیابی مقایسه ای را در بین خود فراهم می کند، به دلیل ابرداده استاندارد شده برای هر اپراتور.
با پیروی از رویکرد “استفاده آسان”، پورتال وب امکان جستجوی مجموعه داده های خاص را با استفاده از منوی انتخاب بر اساس طبقه بندی جستجوی HD(CP) 2 ارائه می دهد. درخت جستجو که در شکل 5 نشان داده شده است، برای تسهیل جستجوی کاربر برای یک مجموعه داده خاص طراحی شده است. مجموعه داده ها بر اساس نوع اندازه گیری در مشاهدات بلند مدت یا کوتاه مدت طبقه بندی می شوند. مشاهدات طولانی مدت به مشاهدات محلی، معادل اندازه گیری در سوپرسایت ها، و مشاهدات دامنه کامل، که شامل داده های ماهواره ای و شبکه است، تقسیم می شوند. مشاهدات کوتاه مدت بر اساس کمپین های مختلف، به عنوان مثال، کمپین HOPE یا دوره های مشاهده فشرده (IOPs) مرتب شده اند. در سطح بعدی، مجموعه داده ها به گروه های خاص، مانند گروه های ابزار، گروه های متغیر یا ماهواره ها تقسیم می شوند.
کاربر بدون هیچ تجربه ای در مشاهدات هواشناسی ممکن است به دنبال یک متغیر خاص باشد، در حالی که یک متخصص رصد ممکن است به دنبال یک گروه ابزار در یک مکان خاص (سوپر سایت) باشد.
به همین دلیل، تولیدکنندگان داده این فرصت را دارند که بیش از یک فهرست کلیدواژه برای یک مجموعه داده ایجاد کنند، به عنوان مثال مجموعه داده های ارتفاع سنج از supersite JOYCE باید در سطح اول به عنوان مشاهدات بلند مدت و در سطح دوم به عنوان مشاهدات محلی طبقه بندی شوند. در سطح سوم، احتمالات بیشتری وجود دارد: مجموعه داده می تواند با Supersites → JOYCE، گروه های ابزار → Lidar و گروه های متغیر → Aerosol مرتبط باشد. در نتیجه، یک مجموعه داده به سه دسته مختلف طبقه بندی می شود که احتمال یافتن و استفاده را افزایش می دهد.
6. چشم اندازهای آینده
همکاری بین ناشران داده در دنیای دیجیتالی شبکه ای اهمیت فزاینده ای دارد، به ویژه از نظر پایداری برای داده های اندازه گیری، زیرا داده های اندازه گیری قابل تکرار نیستند [ 28 ]. در آینده با CERA [ 12 ]، واقع در مرکز محاسبات آب و هوایی آلمان (DKRZ؛ Deutsches KlimaRechenZentrum)، که شریک HD(CP) 2 است، همکاری خواهیم کرد.. به منظور ادغام دادههای خود در پایگاه داده CERA، مجموعه دادههای نهایی را تعریف کرده و آنها را در گروههای داده جدید جمعآوری میکنیم (به عنوان مثال، یک مجموعه داده برای همه اندازهگیریها و محصولات یک سوپرسایت خاص). مجموعه داده های نهایی ممکن است داده های کمپین یا اندازه گیری های بلندمدت برای سال های بسته باشد. مفهوم سیستم ذخیره سازی موازی راه حلی برای تضمین پایداری است. اولین گام، نگاشت اصطلاحات فراداده مورد استفاده در HD(CP) 2 و CERA است. فرآیند یکپارچه سازی شامل تخصیص یک شناسه دیجیتال شی (DOI) برای اهداف ارجاع است. برای “داده های تجربی” بیشتر در آرشیو داده HD(CP) 2 ، یک شناسه پایدار (PID) ایجاد خواهیم کرد.
در پاییز 2016، آرشیو دادهها برای اشتراکگذاری دادهها به روی جامعه آب و هوا و همچنین سایر کتابخانهها و بایگانیهای دیجیتال برای برداشت ابرداده برای پشتیبانی از دسترسی آزاد باز میشود. در حال حاضر ما در حال کار بر روی یک رابطه نقشه برداری برای EUDAT [ 29 ] هستیم. هر جا که دادههای HD(CP) 2 ذخیره شوند، برای جامعه پژوهشی و در نتیجه برای استفاده غیرتجاری آزادانه در دسترس خواهند بود.
در نهایت، اگرچه قراردادهای CF عمدتاً برای خروجی مدل تعریف شدهاند، ما در آینده نزدیک به قراردادهای CF کمک خواهیم کرد به دلیل مقدار زیادی از متغیرهای اندازهگیری اغلب استفاده شده اما تعریف نشده.
منابع
- Overpeck، JT; Meehl، GA; استخوانی، اس. ایسترلینگ، DR چالش های داده های آب و هوایی در قرن بیست و یکم. Science 2011 ، 331 ، 700-702. [ Google Scholar ] [ CrossRef ] [ PubMed ]
- استخوانی، اس. استیونز، بی. فریرسون، DMW؛ جاکوب، سی. کاگیاما، م. پینکوس، آر. شپرد، TG; شروود، SC; Siebesma، AP; سوبل، ق. و همکاران ابرها، گردش خون و حساسیت آب و هوا. نات. Geosci. 2015 ، 8 . [ Google Scholar ] [ CrossRef ]
- پراکتر، آر. هاف پنی، پی. Voss, A. مدیریت داده های تحقیق: فرصت ها و چالش ها برای HEI. در مدیریت داده های پژوهشی ; گراهام، پی، اد. Facet Publishing: لندن، انگلستان، 2012; صص 135-150. [ Google Scholar ]
- تنوپیر، سی. آلارد، اس. داگلاس، ک. آیدین اوغلو، AU; وو، ال. بخوانید، E. مانوف، م. Frame, M. به اشتراک گذاری داده ها توسط دانشمندان: تمرین ها و ادراکات. PLoS ONE 2011 ، 6 ، e21101. [ Google Scholar ] [ CrossRef ] [ PubMed ]
- موکشل، سی. نیشولزه، جی. ویست، سی. اسلوبودا، بی. کوهلر، دبلیو. چالش ها، مشکلات و راه حل ها در مدیریت داده های مراکز تحقیقاتی مشارکتی ; eZAI (elektronische Zeitschrift für Agrarinformatik): Freising، آلمان، 2007. [ Google Scholar ]
- بوتنر، اس. Hobohm، H.-S.; مولر، L. Handbuch Forschungsdatenmanagement ; Bock + Herchen: Bad Honnef، آلمان، 2011. [ Google Scholar ]
- کویپر، تی. ون در هوون، جی. بینش حفظ دیجیتالی خروجی تحقیقات در اروپا. گزارش نظرسنجی PARSE Insight، 2009. موجود به صورت آنلاین: http://www.parse-insight.eu/downloads/PARSE-Insight_D3–4_SurveyReport_final_hq.pdf (در 8 دسامبر 2015 قابل دسترسی است).
- زیرساخت تحقیقات آئروسل، ابرها و گازهای ردیابی (ACTRIS). در دسترس آنلاین: http://www.actris.eu (در 20 مه 2016 قابل دسترسی است).
- مرکز جهانی داده برای سنجش از دور جو (WDC-RSAT). در دسترس آنلاین: http://wdc.dlr.de (در 20 مه 2016 قابل دسترسی است).
- کلودنت. در دسترس آنلاین: http://www.cloud-net.org (در 20 مه 2016 قابل دسترسی است).
- ناشر داده برای علوم زمین و محیط زیست: PANGAEA. در دسترس آنلاین: http://www.pangaea.de (در 20 مه 2016 قابل دسترسی است).
- بازیابی و آرشیو آب و هوا و محیط زیست (CERA). در دسترس آنلاین: http://cera-www.dkrz.de/WDCC/ui (در 8 دسامبر 2015 قابل دسترسی است).
- استاندارد محصول دادههای مشاهده HD(CP) 2 (HOPS). در دسترس آنلاین: http://www.hdcp2.eu/Community-Data-Format.2810.0.html (در 8 دسامبر 2015 قابل دسترسی است).
- استاینکه، اس. آیکنبرگ، اس. لوهنرت، یو. دیک، جی. کلوک، دی. دی جیرولامو، پی. Crewell, S. ارزیابی تغییرپذیری بخار آب یکپارچه در مقیاس کوچک در طول HOPE. اتمس. شیمی. فیزیک 2015 ، 15 ، 2675-2692. [ Google Scholar ] [ CrossRef ]
- فرم داده مشترک شبکه (NetCDF). در دسترس آنلاین: http://www.unidata.ucar.edu/software/netcdf/ (در 8 دسامبر 2015 قابل دسترسی است).
- کنوانسیون ها و فراداده های CF. در دسترس آنلاین: http://cfconventions.org/ (در 8 دسامبر 2015 قابل دسترسی است).
- گرینبرگ، جی. سووگر، اس. فاینشتاین، سرمایه فراداده EM در یک مخزن داده. در مجموعه مقالات کنفرانس بین المللی دوبلین هسته و کاربردهای فراداده 2013، لیسبون، پرتغال، 2 تا 6 سپتامبر 2013. صص 140-150.
- ISO/TC 19115-1:2014. اطلاعات جغرافیایی – فراداده – قسمت 1: اصول. سازمان بین المللی استاندارد: ژنو، سوئیس. در دسترس آنلاین: https://www.iso.org/obp/ui/#iso:std:iso:19115:-1:ed-1:v1:en (دسترسی در 29 آوریل 2015).
- دستورالعمل INSPIRE، مه 2007. در دسترس آنلاین: http://inspire.ec.europa.eu/ (در 29 آوریل 2015 قابل دسترسی است).
- Dublin CORE Metadata Initiative. در دسترس آنلاین: http://dublincore.org/metadata-basics/ (در تاریخ 29 آوریل 2015 قابل دسترسی است).
- DataCite Metadata Schema نسخه 3.1، ژوئن 2015. موجود به صورت آنلاین: https://schema.datacite.org/meta/kernel-3/doc/DataCite-MetadataKernel_v3.1.pdf (در 29 آوریل 2015 قابل دسترسی است).
- W3C-Extensible Markup Language (XML). در دسترس آنلاین: http://www.w3.org/XML/ (در 8 دسامبر 2015 قابل دسترسی است).
- سرور داده THREDDS. در دسترس آنلاین: http://www.unidata.ucar.edu/software/thredds/current/tds/TDS.html (در 8 دسامبر 2015 قابل دسترسی است).
- دومنیکو، بی. کارون، جی. دیویس، ای. کامبیک، آر. Nativi، S. خدمات داده های توزیع شده محیطی در زمان واقعی (THREDDS): ترکیب ابزارهای تحلیل تعاملی در NSDL. J. اطلاعات دیجیتال. 2006 ، 2 ، 4. موجود به صورت آنلاین: https://journals.tdl.org/jodi/index.php/jodi/article/view/51/54 (در 13 ژوئیه 2016 قابل دسترسی است). [ Google Scholar ]
- Fürber, C. مدیریت کیفیت داده ها با فناوری های معنایی . Springer Gabler: Wiesbaden، آلمان، 2016. [ Google Scholar ]
- مرکز داده های آب و هوایی یکپارچه (ICDC). در دسترس آنلاین: http://icdc.zmaw.de/1/projekte/hdcp2.html (دسترسی در 30 مارس 2016).
- پروتکل ابتکار بایگانی باز برای برداشت فراداده (OAI-PMH). در دسترس آنلاین: http://www.openarchives.org/OAI/2.0/openarchivesprotocol.htm (دسترسی در 30 مارس 2016).
- فریچ، بی کلیمافورشانگ. در Langzeitarchivierung von Forschungsdaten ; Neuroth, H., Strathmann, S., Oßwald, A., Scheffel, R., Klump, J., Ludwig, J., Eds. Verlag Werner Hülsbusch: Boizenburg، آلمان، 2012; صص 195-212. [ Google Scholar ]
- EUDAT B2find. در دسترس آنلاین: http://b2find.eudat.eu (در 27 ژانویه 2016 قابل دسترسی است).

شکل 1. نمای کلی مشاهدات در HD(CP) 2 . نقشه زیربنایی آلمان مکان سوپرسایت ها و ایستگاه های شبکه GNSS و Ceilometer را نشان می دهد. نمونه ای از مشاهدات کوتاه مدت: ابزار دقیق در طول کمپین HOPE در Juelich ( A ); مشاهدات بلند مدت: مشاهدات ماهواره ای ( B ); ابزار دقیق شماتیک Supersites ( C ); بارش از شبکه رادار باران C-Band سرویس هواشناسی آلمان ( D ).

شکل 2. گردش کار انتشار داده HD(CP) 2 .

شکل 3. ویرایشگر فراداده.

شکل 4. نمونه ای از برگه داده ارائه شده توسط پورتال وب HD(CP) 2 . منوی انتخاب کشویی، بر اساس درخت جستجو (به شکل 5 مراجعه کنید )، مستقیماً در زیر لوگوی پروژه ظاهر می شود.

شکل 5. درخت جستجو، به دنبال طبقه بندی ابرداده برای کلمات کلیدی جستجو.

جدول 1. ترکیب نام فایل داده HD(CP) 2 و شرح هر قسمت از نام فایل.
© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.


بدون نظر