panMetaDocs، eSciDoc، و DOIDB - زیرساختی برای مدیریت و انتشار مجموعه‌های داده مبتنی بر فایل برای سرویس‌های داده GFZ

خلاصه

مرکز تحقیقاتی GFZ آلمان برای علوم زمین آزمایشگاه ملی علوم زمین در آلمان است. به عنوان بخشی از انجمن هلمهولتز، ارائه و حفظ زیرساخت های علمی در مقیاس بزرگ بخشی ضروری از فعالیت های GFZ است. این شامل تولید حجم و تعداد قابل توجهی از داده های تحقیقاتی است که متعاقباً به منابع منبع برای انتشار داده ها تبدیل می شود. توسعه و نگهداری سیستم های داده یکی از اجزای کلیدی خدمات داده های GFZ برای پشتیبانی از تحقیقات پیشرفته است. یک چالش نه تنها در تنوع موضوعات و جوامع علمی، بلکه در انواع و جلوه‌های مختلف نحوه مدیریت داده‌ها توسط گروه‌های تحقیقاتی و دانشمندان فردی نهفته است. مخزن داده های GFZ Data Services یک زیرساخت فناوری اطلاعات انعطاف پذیر برای ذخیره سازی و انتشار داده ها فراهم می کند. از جمله ضرب شناسه های دیجیتالی شی (DOI). این به عنوان یک سیستم ماژولار از چندین مؤلفه نرم افزار مستقل ساخته شده است که از طریق رابط های برنامه نویسی کاربردی (API) ارائه شده توسط چارچوب eSciDoc به یکدیگر متصل شده اند. نرم افزارهای کاربردی اصلی عبارتند از panMetaDocs برای مدیریت داده ها و DOIDB برای ثبت و تعدیل فعالیت های انتشارات داده ها. تا جایی که امکان داشت، راه حل های نرم افزاری موجود یکپارچه یا تطبیق داده شدند. خلاصه ای از تجربیات ما در راه اندازی این سرویس ارائه شده است. داده‌ها از طریق صفحات فرود جامع و اسناد تکمیلی، مانند مقالات مجلات یا گزارش‌های داده توصیف می‌شوند، بنابراین قابلیت استفاده علمی سرویس را افزایش می‌دهند. این به عنوان یک سیستم ماژولار از چندین مؤلفه نرم افزار مستقل ساخته شده است که از طریق رابط های برنامه نویسی کاربردی (API) ارائه شده توسط چارچوب eSciDoc به یکدیگر متصل شده اند. نرم افزارهای کاربردی اصلی عبارتند از panMetaDocs برای مدیریت داده ها و DOIDB برای ثبت و تعدیل فعالیت های انتشارات داده ها. تا جایی که امکان داشت، راه حل های نرم افزاری موجود یکپارچه یا تطبیق داده شدند. خلاصه ای از تجربیات ما در راه اندازی این سرویس ارائه شده است. داده‌ها از طریق صفحات فرود جامع و اسناد تکمیلی، مانند مقالات مجلات یا گزارش‌های داده توصیف می‌شوند، بنابراین قابلیت استفاده علمی سرویس را افزایش می‌دهند. این به عنوان یک سیستم ماژولار از چندین مؤلفه نرم افزار مستقل ساخته شده است که از طریق رابط های برنامه نویسی کاربردی (API) ارائه شده توسط چارچوب eSciDoc به هم مرتبط شده اند. نرم افزارهای کاربردی اصلی عبارتند از panMetaDocs برای مدیریت داده ها و DOIDB برای ثبت و تعدیل فعالیت های انتشارات داده ها. تا جایی که امکان داشت، راه حل های نرم افزاری موجود یکپارچه یا تطبیق داده شدند. خلاصه ای از تجربیات ما در راه اندازی این سرویس ارائه شده است. داده‌ها از طریق صفحات فرود جامع و اسناد تکمیلی، مانند مقالات مجلات یا گزارش‌های داده توصیف می‌شوند، بنابراین قابلیت استفاده علمی سرویس را افزایش می‌دهند. نرم افزارهای کاربردی اصلی عبارتند از panMetaDocs برای مدیریت داده ها و DOIDB برای ثبت و تعدیل فعالیت های انتشارات داده ها. تا جایی که امکان داشت، راه حل های نرم افزاری موجود یکپارچه یا تطبیق داده شدند. خلاصه ای از تجربیات ما در راه اندازی این سرویس ارائه شده است. داده‌ها از طریق صفحات فرود جامع و اسناد تکمیلی، مانند مقالات مجلات یا گزارش‌های داده توصیف می‌شوند، بنابراین قابلیت استفاده علمی سرویس را افزایش می‌دهند. نرم افزارهای کاربردی اصلی عبارتند از panMetaDocs برای مدیریت داده ها و DOIDB برای ثبت و تعدیل فعالیت های انتشارات داده ها. تا جایی که امکان داشت، راه حل های نرم افزاری موجود یکپارچه یا تطبیق داده شدند. خلاصه ای از تجربیات ما در راه اندازی این سرویس ارائه شده است. داده‌ها از طریق صفحات فرود جامع و اسناد تکمیلی، مانند مقالات مجلات یا گزارش‌های داده توصیف می‌شوند، بنابراین قابلیت استفاده علمی سرویس را افزایش می‌دهند.

کلید واژه ها:

انتشار داده ها ; مدیریت داده ها ؛ شناسه دائمی ; مخزن نهادی

1. معرفی

دسترسی آزاد و آزاد به داده های تحقیقاتی به عنوان یک موضوع کلیدی توسط جامعه علمی، توسط آژانس های تحقیقاتی و دولت ها شناسایی شده است (به عنوان مثال، بیانیه برلین، بیانیه وزیران علوم G8، اجرای اتحادیه اروپا منشور داده های باز G8، دستور کار دیجیتالی فدرال دولت آلمان [ 1 ، 2 ، 3 ، 4 ]). در نتیجه، یک تحول مشترک پویا از دستورالعمل های ملی و بین المللی در مورد مدیریت و دسترسی آزاد به داده های تحقیقاتی وجود دارد (به عنوان مثال، بیانیه برلین، اعلامیه OECD، دستورالعمل های INSPIRE [1، 5 ، 6 ] ) .]). به موازات آن، جامعه علمی مدل‌های فنی و مفهومی را توسعه داد تا داده‌های تحقیق را قابل استناد و قابل استفاده برای دیگران کند. در این زمینه، شناسه های دیجیتالی شی (DOI) به عنوان سیستم شناسه پیشرو برای انتشارات متن و داده ظاهر شده اند [ 7 ].

ذخیره سازی در مخازن مناسب و خاص، بخش اساسی تضمین دسترسی و حفظ طولانی مدت این داده ها است. برای اینکه داده‌ها قابل استفاده مجدد باشند، باید با یک توصیف جامع همراه با متادیتاهای استاندارد شده و خاص رشته‌ای همراه باشند تا کشف داده‌ها را بهبود بخشد و استفاده مجدد و درک را تسهیل کند. ناشران، ناشران داده‌ها و دانشمندان حوزه خود را متعهد به دستورالعمل‌هایی در مورد نحوه جاسازی پیوندها به مجموعه داده‌ها در نشریات، و پیوندهای متناظر از امکانات داده به مجلات، از طریق شناسه‌های دائمی کرده‌اند. مجموعه داده‌ها در حالت ایده‌آل باید توسط شناسه‌های ثابت و منحصربه‌فرد جهانی، مانند شناسه‌های دیجیتالی شی (DOI) ارجاع داده شوند [ 7]]. این مقاله عمدتاً متوجه متصدیان داده، مدیران مخزن و دانشمندان داده است، اما ممکن است برای محققان، به‌ویژه بخش‌های مربوط به صفحات فرود و توضیحات داده‌ها نیز جالب باشد (بخش 3، بخش 4 و بخش 5 ) . پس از یک بررسی کلی، طراحی و عملکرد هر یک از اجزای نرم افزار (eSciDoc، panMetaDocs، DOIDB) را توضیح می دهیم، مروری کوتاه بر فرمت های مختلف برای انتشار داده ها، معرفی ویرایشگر ابرداده، نمونه هایی از صفحات فرود DOI، مجوزهای اجزای نرم افزار، و با بخش بحث و چشم انداز نتیجه گیری کنید.

مرکز هلمهولتز پوتسدام GFZ مرکز تحقیقاتی آلمان برای علوم زمین آزمایشگاه ملی علوم زمین در آلمان و عضو انجمن هلمهولتز، بزرگترین سازمان تحقیقاتی آلمان است. تمرکز GFZ مطالعه تاریخچه زمین و ویژگی های آن، فرآیندهای رخ داده در سطح و درون آن، و همچنین تعاملات بین ژئوسفر، هیدروسفر، جو و زیست کره است. داده های تحقیقاتی به دست آمده همه رشته های علم زمین را پوشش می دهد. آن‌ها از مجموعه داده‌های دینامیکی بزرگ مشتق‌شده از شبکه‌های لرزه‌ای، مغناطیسی یا ژئودزیکی جهانی با جمع‌آوری داده‌های بی‌درنگ یا داده‌های ایستگاه اقلیمی، تا محصولات ماهواره‌ای سنجش از راه دور، تا نتایج مدل‌های مختلف، تا تحلیل‌های ژئوشیمیایی از آزمایشگاه‌های مختلف و مشاهدات میدانی را شامل می‌شوند. . در علوم زمین، مدیریت کلی و مدیریت داده ها چالش برانگیز است. اندازه مجموعه داده ها از نسبتاً کوچک تا بسیار بزرگ متفاوت است. راه‌حل‌های نرم‌افزاری مختلفی برای پردازش داده‌ها و تعداد زیادی فرمت فایل و طرح‌واره‌های فراداده وجود دارد. اغلب به دست آوردن داده ها گران است و اغلب داده های تحقیق یک پدیده طبیعی را ثبت می کنند که فقط یک بار قابل مشاهده است. همه این داده ها داده های ارزشمندی هستند و شایسته است برای نسل های آینده دانشمندان حفظ شوند.8 ].

به عنوان بخشی از تحقیقات علمی، حجم و تعداد قابل توجهی از داده های تحقیقاتی تولید می شود و متعاقباً به منابع منبع برای انتشارات تبدیل می شود. توسعه و نگهداری سیستم های داده یک ستون اساسی از فعالیت های GFZ برای حمایت از تحقیقات پیشرفته است. مجموعه داده‌های دینامیکی بزرگ از شبکه‌های نظارتی جهانی جریان‌های داده‌ای در زمان واقعی یا نزدیک به زمان واقعی تولید می‌کنند که به مخازن داده‌ها وارد می‌شوند و از طریق پورتال‌های داده‌ای با موضوع بین‌المللی قابل دسترسی هستند. نمونه هایی در GFZ برای این کار سیستم هایی مانند GEOFON، سرویس های GNSS، INTERMAGNET و بسیاری دیگر هستند. GEOFON [ 9 ] یک شبکه جهانی پایش لرزه ای و یک مرکز داده و آرشیو بین المللی را اداره می کند که دسترسی بلادرنگ به داده های زلزله شناسی را تسهیل می کند. به عنوان بخشی از خدمات بین المللی GNSS IGS [10 ]، GFZ حدود 30 ایستگاه مرجع چند GNSS توزیع شده در سطح جهانی را اداره می کند و یک مرکز تجزیه و تحلیل برای داده های GNSS را میزبانی می کند. 18 رصدخانه مغناطیسی GFZ و شرکای همکاری بخشی از شبکه بین المللی رصدخانه مغناطیسی بلادرنگ INTERMAGNET [ 11 ] است. علاوه بر چنین داده‌هایی از شبکه‌های نظارتی، یک «دم دراز» از داده‌های تحقیقاتی بسیار مشخص و بسیار متغیر از دانشمندان یا گروه‌های تحقیقاتی فردی وجود دارد که باید سرپرستی و منتشر شوند.

GFZ Data Services نقطه خدمات مرکزی برای داده های تحقیقاتی است، به ویژه برای انتشار و بایگانی داده ها. خدمات داده GFZ برای خدمت به نیازهای مدیریت داده محققان، پس از مشاوره های گسترده با ذینفعان مربوطه، طراحی شده است. علاوه بر این، GFZ Data Services یک مخزن داده ایجاد و نگهداری می کند و انتشار مجموعه داده ها و محصولات داده را در ارتباط با ثبت DOI ارائه می دهد. ثبت DOI همچنین به عنوان یک سرویس به مخازن دیگر در GFZ، به عنوان مثال، GEOFON ارائه می شود. مجموعه داده های منتشر شده در GFZ طیف کاملی از انتشارات داده را پوشش می دهد همانطور که در Katz and Strasser (2015) [ 12] توضیح داده شده است.]: داده ها ممکن است به عنوان مواد تکمیلی برای مقالات مجلات، با یک مقاله توصیفی در یکی از “مجله های داده” جدید، یا به عنوان نهادهای مستقل منتشر شوند. برای ارائه قالبی برای توصیف گسترده مجموعه داده‌های منتشر شده مستقل، GFZ Data Services مجموعه‌ای از گزارش‌های داده را در سال 2011 راه‌اندازی کرد. این طیف وسیعی از مشتریان انتشار داده‌ها نیازمند این است که سیستم بتواند طرح‌واره‌های مختلف ابرداده را مدیریت کند و انعطاف‌پذیر و دقیق ارائه دهد. مدیریت حقوق دسترسی به سیستم و دارایی های آن.

به ویژه با توجه به افزایش انتظارات و درخواست‌ها برای دسترسی آزاد به داده‌های تحقیقاتی، حفظ و نگهداری مجموعه داده‌های تحقیقاتی و نگهداری نرم‌افزارهای سفارشی داده‌ها فراتر از طول عمر و تأمین مالی یک پروژه، وظایف کلیدی برای خدمات داده‌های GFZ هستند. برای پاسخگویی به این نیازها، مخزن خدمات داده GFZ به عنوان یک سیستم ماژولار ساخته شد تا امکان سازگاری آسان با نیازهای متغیر را فراهم کند، تا بتواند تنوع بالایی در انواع داده ها را مدیریت کند، و همچنین برای طیف گسترده ای از رشته های علم زمین شناسی موجود مناسب باشد. در GFZ تا جایی که امکان داشت، راه حل های نرم افزاری موجود و اثبات شده یکپارچه یا تطبیق داده شدند. این بسته تقریباً شامل چارچوب eSciDoc، مخزن ضروری در پایه، panMetaDocs به عنوان برنامه کاربردی برای انتشار مجموعه داده‌ها است. و DOIDB به عنوان تسهیلاتی برای ثبت DOI و ابرداده. این رویکرد ماژولار همچنین به ما اجازه می‌دهد تا بخش‌هایی از سرویس را در طول زمان بدون نیاز به مهندسی مجدد کامل سیستم تغییر دهیم (نگاه کنید بهشکل 1 برای ساختار کلی مخزن خدمات داده GFZ). سرویس‌های انتشار داده‌ها از نزدیک به PubMan، برنامه‌ای برای انتشار متنی [ 13 ] که همچنین بر اساس eSciDoc است و بنابراین بخشی از خدمات چاپ و نشر به خوبی تثبیت شده کتابخانه GFZ است، مرتبط هستند. این کتابخانه همچنین به عنوان کتابخانه مرکزی برای چهار موسسه تحقیقاتی در پوتسدام (کتابخانه Wissenschaftspark Albert Einstein Potsdam) عمل می کند.

خط مشی سرپرستی خدمات داده GFZ بر اساس جداسازی نگرانی ها بین پروژه تحقیقاتی و مؤسسه حافظه (به عنوان مثال، کتابخانه) است. در این مفهوم، پیوستار گزینش داده از تولید داده از طریق ذخیره سازی داده تا دسترسی به داده ها به چهار “حوزه مسئولیت” تقسیم می شود [ 14 ، 15 ]]. این “حوزه های مسئولیت” در مدیریت داده های تحقیقاتی به تعیین مسئولیت های بازیگران درگیر کمک می کند. آنها همچنین زمینه دانش مشترک در مورد داده‌ها را ترسیم می‌کنند و به این ترتیب، به تعیین جزئیات توصیفی فراداده‌ها کمک می‌کنند تا امکان استفاده مجدد از داده‌های تحقیق فراهم شود و در چه مرحله‌ای باید فراداده‌های متنی ضمنی در ابرداده‌های ذخیره‌شده کدگذاری شوند. . سرویس‌های داده GFZ در حوزه‌های «مداوم» و «دسترسی» کار می‌کنند و با محققان برای انتقال داده‌هایشان به دامنه «دائم» برای انتشار و بایگانی کار می‌کنند. جزئیات بیشتر در مورد نحوه پیاده‌سازی دامنه‌های سرپرستی بر اساس eSciDoc را می‌توان در کلمپ و همکاران یافت . (2015) [ 14 ].

2. اجزای نرم افزار برای انتشار داده ها

سیستم ما برای انتشار داده ها از چهار جزء نرم افزاری استفاده می کند که به صورت مدولار ترکیب شده اند. ما مقالات تحقیقاتی، مجموعه داده‌ها و ابرداده‌های مرتبط را با مؤلفه‌های نرم‌افزار مبتنی بر وب PubMan برای مقالات و panMetaDocs برای مجموعه‌های داده جمع‌آوری می‌کنیم. ذخیره سازی این اشیاء دیجیتال توسط یک میان افزار مخزن eSciDoc انجام می شود. DOIDB، مؤلفه چهارم ما، از طریق سرویس ثبت DataCite DOI در کتابخانه ملی علم و فناوری آلمان (TIB Hannover) برای برش DOI های مجموعه داده استفاده می کند و به عنوان پورتال ابرداده برای مجموعه داده های منتشر شده از طریق سرویس های داده GFZ عمل می کند. اجزای نرم افزار از طریق وب سرویس ها جفت می شوند. علاوه بر این، ابرداده ها را می توان از هر مؤلفه در پورتال های فراداده فراگیر، به عنوان مثال، B2FIND یا Earth Cube، جمع آوری کرد.16 ].

شکل 1 ساختار سیستم انتشار در GFZ را نشان می دهد. فلش ها جریان داده یا فراداده و پروتکل های مورد استفاده را نشان می دهد. eSciDoc، به عنوان یک میان افزار، رابط کاربری گرافیکی ارائه نمی دهد. این یک رابط انتقال حالت نمایشی (REST) دارد [ 17] و کل عملکرد آن از طریق نقاط پایانی وب سرویس ارائه می شود. برنامه های کاربردی PubMan و panMetaDocs رابط های کاربری گرافیکی را برای حاشیه نویسی فایل های داده با ابرداده و ذخیره داده ها و ابرداده ها در eSciDoc با استفاده از سرویس های وب eSciDoc ارائه می دهند. انتشار داده توسط GFZ، به عنوان یک عامل انتشار DataCite، برای سیستم های داده خارج از چارچوب eSciDoc نیز در دسترس است. این نشریات ممکن است از طریق DOIDB ثبت شوند. برای نظارت و تعدیل ثبت DOI از سیستم های داده GFZ، کد منبع فروشگاه فراداده DataCite را تغییر دادیم تا به عنوان یک پروکسی برای زیرساخت ثبت DataCite DOI عمل کند و نرم افزار را به عنوان DOIDB منتشر کردیم. عملکرد DOIDB در ادامه این مقاله با جزئیات بیشتری مورد بحث قرار خواهد گرفت. ابرداده می تواند توسط پورتال ها برای پیمایش مجموعه داده ها و انتشارات استفاده شود، برای نشان دادن یک نمای کلی از محتوا، و ارائه لینک به صفحات فرود. صفحات فرود داده ها و انتشارات را با جزئیات بیشتر توصیف می کنند، حاوی پیوندهایی به مطالب مرتبط هستند و فایل هایی را برای دانلود ارائه می دهند.

تمامی اجزای نرم افزار مبتنی بر راه حل های نرم افزاری رایگان و متن باز هستند و متناسب با نیازهای خاص ما اصلاح شده اند. به طور خاص، ما panMetaWorks [ 18 ] را برای استفاده از eSciDoc برای ذخیره سازی داده ها، به جای یک سیستم فایل، اصلاح کردیم و نرم افزار تازه مشتق شده را به عنوان panMetaDocs منتشر کردیم [ 19 ، 20 ]. این راه حل نرم افزاری نیز در این مقاله با جزئیات بیشتر توضیح داده خواهد شد.

گردش کار انتشار داده ها امکان داشتن یک حالت میانی را ارائه می دهد که طی آن مجموعه داده ها و ابرداده ها هنوز در حوزه عمومی منتشر نشده اند، اما در عین حال به طور کامل در دسترس هستند، به عنوان مثال، بازبینان یک مقاله مجله در مورد مجموعه داده ها. این حالت میانی همچنین برای هماهنگ کردن جزئیات مربوط به مجموعه داده ها و ابرداده ها با ایجاد کننده داده استفاده می شود.

2.1. eSciDoc- پیاده سازی eSciDoc به عنوان زیرساخت مخزن در GFZ

eSciDoc به طور مشترک توسط انجمن Max Planck و FIZ Karlsruhe-Leibniz Institute for Information Infrastructure توسعه داده شد. توسعه eSciDoc که توسط وزارت آموزش و تحقیقات فدرال آلمان (BMBF) تامین می شود، با الهام از نیاز به ایجاد چارچوبی برای محیط های تحقیقاتی مجازی برای سازمان های تحقیقاتی چند رشته ای ساخته شده است. eSciDoc یک میان افزار برای برنامه های کاربردی تحقیقاتی مبتنی بر اینترنت است [ 21 ]. این توابع معمولاً برای مونتاژ و انتشار فایل های باینری مانند ایجاد، خواندن، به روز رسانی و حذف استفاده می شود. علاوه بر این خدمات اساسی، eSciDoc طیف وسیعی از خدمات اضافی را ارائه می دهد که یکی از آنها احراز هویت و مجوز کاربران است.

در GFZ ما eSciDoc را به عنوان میان افزار ذخیره سازی نهادی برای انتشارات داده های متنی و پژوهشی ایجاد کردیم. همانطور که در مقدمه ذکر شد، این کار عمدتاً با هدف ساده‌سازی مدیریت داده‌ها با ارائه یک زیرساخت ذخیره‌سازی مشترک در GFZ انجام شد که مستقل از راه‌حل‌های مدیریت داده خاص پروژه تحقیقاتی است. نرم افزارهای خاص پروژه را فقط می توان در زمانی که یک پروژه تحقیقاتی فعال است نگهداری کرد. پس از پایان یک پروژه تحقیقاتی، نگهداری ده ها نمونه نرم افزاری خاص پروژه برای اطمینان از دسترسی مداوم به داده های ذخیره شده، غیر قابل دوام می شود. eSciDoc این چالش نگهداری و دسترسی را با جدا کردن برنامه‌های مدیریت داده از ذخیره‌سازی داده‌ها با ارائه یک رابط برنامه‌نویسی کاربردی (API) به یک زیرساخت ذخیره‌سازی داده مشترک، برطرف می‌کند.

در برنامه های خود از «اقلام» eSciDoc استفاده می کنیم، که موجودیت های اصلی مدل اطلاعاتی eSciDoc هستند. مدل محتوای eSciDoc همچنین اجازه می دهد تا داده ها در بیش از یک فرم نمایشی که توسط بیش از یک طرحواره ابرداده توصیف شده است، ذخیره شوند [ 14 ، 19 ]. موارد eSciDoc همچنین ممکن است از چندین فایل تشکیل شده باشند که باز هم می‌توانند با تعداد دلخواه رکوردهای فراداده توصیف شوند. به روز رسانی یک مورد eSciDoc به طور خودکار نسخه جدیدی از مورد را ایجاد می کند.

تمام حقوق دسترسی برای اشیاء داده ای که از طریق eSciDoc اداره می شوند، از جمله فرآیند انتشار، در eSciDoc تعریف شده اند. با تنظیم حقوق دسترسی مناسب، سیستم اجازه می دهد تا مجموعه داده ها را به عنوان خصوصی، به اشتراک گذاشته شده در گروه ها، یا منتشر شده و قابل دسترسی برای عموم اعلام کند. این برای همه برنامه‌هایی که از طریق eSciDoc به اشیاء داده دسترسی دارند، به عنوان مثال، panMetaDocs و PubMan اعمال می‌شود. فایل‌های منتشر شده می‌توانند به صورت عمومی در دسترس باشند، یا می‌توانند به احراز هویت و مجوز کاربر نیاز داشته باشند. مورد دوم ممکن است در مورد دوره های تحریم انتشار داده ها، یا برای محافظت در برابر دانلود تصادفی مجموعه داده های بسیار بزرگ اعمال شود. پروتکل های احراز هویت پشتیبانی شده عبارتند از پروتکل دسترسی به دایرکتوری سبک وزن (LDAP)، Shibboleth و OpenID [ 22 ، 23 ، 24]. سیستم در GFZ Data Services از LDAP استفاده می کند تا بتواند از اطلاعات کاربر نگهداری شده توسط تسهیلات مدیریت هویت متمرکز پشتیبانی شده در GFZ استفاده مجدد کند. از آنجایی که این امر دسترسی به سیستم را برای کارمندان GFZ محدود می‌کند، ما همچنین راه‌حل‌های خود را برای قرار دادن مجموعه‌های داده در معرض بازبین‌های خارجی و روش‌های جمع‌آوری ابرداده از دانشمندان خارجی در ادامه این مقاله شرح می‌دهیم.

2.2. panMetaDocs – داده های تحقیق را توصیف و منتشر کنید

panMetaWorks، که panMetaDocs [ 25 ] از آن مشتق شده است، یک بستر مبتنی بر وب، مشترک، ابرداده و تبادل داده برای پروژه های تحقیقاتی توزیع شده است که توسط Robert Huber در PANGEA [ 18 ] توسعه یافته است.]. هدف این بود که یک رابط کاربری گرافیکی با کاربری آسان، ارائه یک ویرایشگر فراداده غنی، و تسهیل انتشار فراداده از طریق واسط های Really Simple Syndication (RSS) و OAI-PMH ارائه شود. دسترسی به داده‌ها و ابرداده‌ها را می‌توان برای هر محقق خصوصی تنظیم کرد، در یک گروه پروژه به اشتراک گذاشت یا در اینترنت در دسترس عموم قرار داد. در شرایطی که پردازش داده‌ها بین چندین گروه توزیع می‌شود، رابط OAI-PMH panMetaWorks جمع‌آوری ابرداده‌ها را در فهرست داده‌های مرکزی موسسه یا پروژه امکان‌پذیر می‌سازد.

از آنجایی که panMetaWorks مجموعه‌ای غنی از ویژگی‌ها را ارائه کرد که برای پروژه‌های تحقیقاتی در GFZ مفید بود، تصمیم گرفتیم که panMetaWorks را با نیازهای خود تطبیق دهیم. ما اجازه استفاده مجدد از کد منبع panMetaWorks را گرفتیم و آن را برای استفاده از eSciDoc API برای ذخیره سازی داده ها و احراز هویت کاربر و تسهیل مدیریت فراداده های مختلف تغییر دادیم. نصب‌های panMetaDocs قادر به ذخیره ابرداده‌ها در قالب‌های مختلف و طرح‌واره‌های رایج مانند Dublin Core، DataCite [ 26 ]، نمایه INSPIRE ISO19139 [ 27 ] و NASA GCMD DIF [ 28] هستند.]. ذخیره ابرداده در قالب های متعدد با یک آیتم eSciDoc امکان توصیف مجموعه داده ها را در جنبه های بیشتری نسبت به مواردی که تنها توسط یک مخرج مشترک ارائه می شود، می دهد. این برای رسیدگی به طیف گسترده ای از داده های تولید شده در GFZ مورد نیاز است. علاوه بر این، سوابق فراداده را می توان در طول زمان غنی کرد زیرا شی داده از یک دامنه مسئولیت به حوزه دیگر منتقل می شود [ 14]]. با شروع از پایه کد panMetaWorks، ویرایشگر ابرداده را اصلاح کردیم و رابط کاربری را از HTML4 به HTML5 تغییر دادیم. ویرایشگر ابرداده اکنون یک برنامه جاوا اسکریپت است که از چارچوب Sencha ExtJS برای ارائه عناصر رابط کاربری گرافیکی، تجزیه زبان نشانه گذاری توسعه پذیر (XML) و تولید XML استفاده می کند. عملکرد ویرایشگر فراداده در ادامه این مقاله با جزئیات بیشتر توضیح داده خواهد شد. برای اجازه دادن به اشتراک گذاری داده ها بین شرکای پروژه، نمونه های panMetaDocs واسط های خاص خود را برای انتشار فراداده دارند تا قوانین دسترسی eSciDoc را دور بزنند که اجازه انتشار ابرداده مجموعه داده های منتشر نشده را نمی دهد.

برای اعطای دسترسی بازبینان به مجموعه داده منتشر نشده مستقل از سیستم احراز هویت eSciDoc، ما یک پیوند موقت مرموز ایجاد می کنیم که منجر به پیش نمایش صفحه فرود آینده می شود. پیش‌نمایش شامل تمام داده‌ها و ابرداده‌ها با DOI صحیح آینده است که ممکن است در طول بررسی همتا ارزیابی شوند و استناد صحیح را می‌توان از قبل به فهرست مرجع مقاله اضافه کرد. علاوه بر این، پیوند بررسی برای نشان دادن پیش نمایشی از مجموعه داده های دانشمندان در طول فرآیند انتشار مفید بود. برای جلوگیری از استفاده دانشمندان از DOI قبل از ثبت آن، صفحه پیش نمایش حاوی یادداشتی است که مجموعه داده در حال حاضر در دست بررسی است.

2.3. DOIDB—یک نماینده ضرب‌کاری DOI Proxy

GFZ در چارچوب پروژه “انتشار و استناد به داده های علمی اولیه” (STD-DOI) به یک “عامل انتشار” برای انتشار داده ها تبدیل شد [ 29 ، 30]. در این پیشرو برای DataCite، سازمان بین‌المللی که خدمات DOI را برای انتشار داده‌ها امروز اجرا می‌کند، کتابخانه ملی علم و فناوری آلمان (TIB Hannover)، انتشار و ذخیره‌سازی داده‌ها را به «عامل‌های انتشاراتی» واگذار کرد که انتشارات داده‌های خود را در DOI ثبت کردند. خدمات ثبت نام در TIB Hannover. در حالی که سایر شرکای پروژه در STD-DOI مخازن داده واحد را اداره می کردند، GFZ مجبور بود تعدادی از مخازن از قبل موجود (مثلا GEOFON) را برای استفاده از این سرویس یکپارچه کند. برای ثبت و تعدیل ثبت‌های DOI در GFZ، ما یک سرویس پروکسی ثبت DOI ایجاد کردیم که آن را DOIDB نامیدیم.

با تاسیس DataCite TIB هانوفر به یک “عامل تخصیص” DataCite تبدیل شد. سرویس ثبت DOI آن برای انتشارات داده تعدادی به روز رسانی فنی را دریافت کرد که یکی از آنها ذخیره ابرداده و سرویس DOI minting است. در اکتبر 2010، DataCite کد منبع مؤلفه جدید به نام DataCite Metadata Store (MDS) را در GitHub منتشر کرد. علاوه بر ثبت DOI، MDS دارای مؤلفه ای برای جستجوی مجموعه داده ها بر اساس ویژگی های فراداده است و مؤلفه ای را برای انتشار فهرست فراداده خود از طریق رابط OAI-PMH فراهم می کند. MDS همچنین حساب های ثبت DOI را برای مراکز داده مرتبط با استفاده از این سرویس برای برش DOI های مجموعه داده مدیریت می کند.

تغییرات در DataCite API در سطح مرکزی همچنین تغییراتی را در DOIDB ما ایجاد کرد. به جای تغییر نرم افزار اصلی در GFZ، تصمیم گرفتیم از DataCite MDS مجدد استفاده کنیم و آن را با تغییرات جزئی تطبیق دهیم [ 31 ]. مانند عملکرد قبلی خود، DOIDB جدید به عنوان یک سرویس پروکسی بین سیستم های داده GFZ و فروشگاه ابرداده DataCite عمل می کند. علاوه بر طرحواره ابرداده DataCite [ 32 ]، DOIDB دو طرحواره اضافی خاص برای علوم زمین را می پذیرد (ISO19139 [ 27 ] و NASA GCMD DIF [ 28 ]). ما کد منبع DOIDB را در GitHub منتشر کردیم [ 33 , 34 , 35] و ما از مکانیسم‌های git برای همگام شدن با پیشرفت‌های فعلی در پایه کد اصلی DataCite استفاده می‌کنیم.

3. قالب های انتشار داده ها

داده‌های تحقیقاتی با کیفیت بالا باید با ابرداده همراه باشد تا اطمینان حاصل شود که قالب‌های داده مستند و قابل درک هستند تا امکان استفاده مجدد توسط دیگران فراهم شود. با فرض کسب و پردازش علمی صحیح و دقیق یک مجموعه داده، دانشمندان، مخزن داده یا ناشر باید اطمینان حاصل کنند که مجموعه داده نه تنها با ابرداده استاندارد شده برای کشف داده ها همراه است، بلکه با توصیف کافی و مناسب برای داده ها نیز همراه است. استفاده مجدد ( به عنوان مثال ، ابرداده ساختاری [ 36 ]).

مکمل های داده به مقالات علمی بیشترین تعداد انتشارات داده را در GFZ تاکنون تشکیل می دهند. این به طور فزاینده ای توسط ناشران پذیرفته شده و حتی تبلیغ می شود که داده های تکمیلی یک مقاله را در یک مخزن داده های خاص رشته یا سازمانی ذخیره کنند، و مستقیماً به مقاله پیوست نشده باشند [7 ]]. مزیت استفاده از مخزن داده با دسترسی باز مانند آنچه در اینجا توضیح داده شده است، این است که مجموعه داده ها به صورت رایگان در دسترس هستند حتی زمانی که مجله یک مجله با دسترسی آزاد نیست. علاوه بر این، اگر مجله به ناشر دیگری منتقل شود، مکمل ها گم نمی شوند، همانطور که در گذشته اتفاق افتاده است. ما به دانشمندان توصیه می کنیم که دست نوشته های خود را به یک مجله بفرستند و مجموعه داده های تکمیلی را در مخزن داده های GFZ منتشر کنند. از لحاظ فنی، ما از panMetaDocs برای ورود داده ها و ابرداده ها به eSciDoc استفاده می کنیم. در مورد داده‌های همراه با انتشار، مجموعه داده ممکن است همزمان با مقالات علمی منتشر شود (اگر داده‌ها قبلاً منتشر نشده باشند)، هر دو بخش دارای ارجاع متقابل هستند، و مجموعه داده باید برای همتایان قابل دسترسی باشد. -فرایند بررسی در این مورد، ما پیوندهای دسترسی موقت را برای فرآیند بررسی، همانطور که در توضیح داده شده است، ارائه می دهیمبخش 2.2 ، و DOI را در مرحله بعد ثبت کنید تا با انتشار مقاله همزمان باشد.

گزارش‌های داده‌ای که در GFZ منتشر شده‌اند، ثابت کرده‌اند که قالب‌های انتشار مناسبی برای توصیف جامع مجموعه داده‌های منتشر شده، به‌ویژه برای مجموعه داده‌های منتشر شده مستقل هستند. این انتشارات داده ها در یک فرآیند بررسی داخلی بررسی می شوند و در صورت امکان در قالب استاندارد منتشر می شوند. گزارش داده ها همراه با مجموعه داده ها منتشر می شود. در این مورد، ما از PubMan و panMetaDocs به طور مستقل برای قرار دادن یک دست نوشته و داده های تحقیق در eSciDoc و انتشار هر دو موجودیت استفاده می کنیم. نسخه خطی و مجموعه داده هر دو DOIهای فردی را دریافت می کنند که از طریق ابرداده DataCite به آنها ارجاع داده می شود.

برای مجموعه داده‌های بزرگی که در مراکز داده بین‌المللی ذخیره می‌شوند، یا خیلی بزرگ هستند که از طریق صفحه فرود قابل دسترسی نیستند، نمونه‌های panMetaDocs را ارائه می‌کنیم که فقط ابرداده‌ها را جمع‌آوری می‌کنند تا برای صفحه فرود DOI استفاده شوند. در این مورد، لینک های دانلود فایل های داده ممکن است به یک سرور خارجی هدایت شوند.

با توجه به تنوع رشته های تحقیقاتی در GFZ، چارچوب مخزن مبتنی بر فایل برای ذخیره داده ها در هر قالبی به محض ارائه آنها به عنوان فایل های جداگانه باز است. با این وجود، دانشمندان تشویق می‌شوند تا فایل‌ها را در قالب‌هایی که برای نگهداری توسط کتابخانه کنگره توصیه می‌شود، واریز کنند [ 37 ]. در موارد استثنایی، فرمت های فایل رایج در جامعه مربوطه پذیرفته می شود.

4. رابط کاربری برای ارزیابی فراداده

برای پر کردن طرحواره های ابرداده با اطلاعات ارزشمند، هم از اطلاعات استاتیک تولید شده از بافت پروژه و هم اطلاعات پویا وارد شده توسط دانشمندان استفاده می شود. جداسازی در محتوای ایستا و پویا برای تولید فرم‌هایی با کاربری آسان لازم است که کاربران را با اجبار به وارد کردن مکرر اطلاعات یکسان آزار نمی‌دهد.

شکل 2 رابط کاربری گرافیکی (GUI) ویرایشگر فراداده جاوا اسکریپت [ 38] را نشان می دهد.] که برای ایجاد ابرداده استاندارد شده برای کشف داده ها، که پایه ثبت DOI است، توسعه یافته است. دانشمند ممکن است متادیتا را در فرم وارد کند، یک فایل XML را در درایو محلی خود ذخیره کند، فایل های XML را در ویرایشگر بارگذاری کند و نسخه نهایی را به سرویس داده های GFZ ارسال کند. در اینجا، عملکردهای اضافی، مانند ثبت DOI و همگام سازی با panMetaDocs و eSciDoc، پس از بررسی فراداده امکان پذیر است. ویرایشگر ابرداده یک برنامه مستقل است که می تواند بدون panMetaDocs یا eSciDoc استفاده شود. این امکان ارسال ابرداده توسط خود دانشمندان را فراهم می کند. علاوه بر این، کاربران خارجی، به عنوان مثال، شرکای پروژه، به راهی برای ارائه ابرداده بدون ورود به سیستم eSciDoc نیاز داشتند.

برای افزایش قابلیت استفاده ویرایشگر فراداده، فیلدهای ابرداده نشان داده شده در رابط کاربری گرافیکی با هدف قابل استفاده بودن و قابل فهم بودن برای دانشمندان است. این شامل عدم درخواست ورود دستی برای اطلاعاتی است که ممکن است به طور خودکار بازیابی شوند، به عنوان مثال، URL یک مجوز Creative Commons خاص، اما همچنین تغییر نام برخی از فیلدها در زبان “علمی”، به عنوان مثال، “سازندگان” DataCite “نویسندگان” نامیده می شوند. “. این انطباق فقط در رابط کاربری گرافیکی انجام شد. پایگاه داده خود شرایط مورد نیاز را طبق استانداردهای ابرداده پشتیبانی شده حفظ می کند. برای جلوگیری از خطاهای تایپی، از منوهای کشویی استفاده می شود و توضیحات مربوط به ورودی های احتمالی از طریق پنجره های بازشو ارائه می شود ( شکل 2 را ببینید.). مستندات کامل فیلدهای فراداده و استفاده از ویرایشگر فراداده برای دانلود در بخش راهنما موجود است. به عنوان یک سرویس اضافی، ویرایشگر ابرداده مجهز به یک ابزار نگاشت تعاملی است که از طریق آن می‌توان مختصات جغرافیایی را از نقشه بازیابی کرد و به‌طور خودکار در فیلدهای فوق‌داده مربوطه وارد کرد، اما همچنین به عنوان بازخورد بصری برای مختصات وارد شده به صورت دستی عمل می‌کند که بلافاصله در صفحه نمایش داده می‌شوند. نقشه. چندین ورودی جغرافیایی به عنوان جعبه یا نقطه امکان پذیر است.

5. صفحات فرود – ارائه مجموعه های داده ویژه رشته

شکل 3 یک صفحه فرود DOI را نشان می دهد که توسط تبدیل صفحه سبک XSLT از یک آیتم eSciDoc حاوی ابرداده تولید شده با panMetaDocs ایجاد شده است. از آنجایی که هر طرحواره ابرداده نقاط قوت و ضعف خود را دارد، ارائه بصری در یک مرورگر اینترنتی ترکیبی از اطلاعات ارائه شده از eSciDoc و از اطلاعات پراکنده شده در طرحواره های ابرداده مختلف است. اطلاعات مربوط به محدودیت‌های دانلود برای تحریم در eSciDoc ذخیره می‌شد، اطلاعات تماس و پوشش مکانی در طرح ISO19139 [ 27 ] و کلیدواژه‌های علمی از طرح ناسا GCMD DIF [ 28 ] می‌آیند. علاوه بر این، طرحواره فراداده DataCite [ 32] برای پیوند به انواع مختلف انتشارات استفاده شد. اطلاعات استنادی نشریات مرتبط (که فقط با DOI در فرم فراداده وارد شده است) در زمان نمایش در مرورگر با استفاده از جاوا اسکریپت از DataCite و Crossref دانلود می شود.

ارائه واضح و کاربرپسند مجموعه‌های داده چالشی اضافی برای ایجاد صفحات فرود است، زیرا داده‌های تولید شده نه تنها در قالب‌های فایل، بلکه به‌ویژه در فراداده‌های خاص حوزه تحقیق برای استفاده مجدد متفاوت است. این امر به‌ویژه برای داده‌های بسیار متنوع GFZ رشته‌های علمی مختلف مرتبط است و منجر به توسعه صفحات فرود DOI ویژه رشته شد. این امر عمدتاً با کاهش اطلاعات به عناصر مربوطه برای هر رشته به دست می آید و قابلیت استفاده و استفاده مجدد از مجموعه داده های منتشر شده را بهبود می بخشد. یک مدل گرانشی جهانی منتشر شده از طریق مرکز بین‌المللی مدل‌های زمین جهانی [ 39 ]، به عنوان مثال، نیازی به نقشه ندارد ( شکل 4)در حالی که نقشه‌هایی با جعبه‌های محدودکننده متعدد برای ارائه کمپین‌های پرواز فراطیفی با مشاهدات میدانی مرتبط در برنامه نقشه‌برداری و تحلیل محیطی آلمان ضروری هستند (EnMAP [ 40 ]، شکل 4 ). با این وجود، ابرداده استاندارد شده برای کشف داده ها همیشه جمع آوری شده و برای دانلود و مشاهده درون خطی در صفحه فرود در دسترس است ( شکل 3 ج).

مزیت اضافی داشتن انواع مختلف صفحات فرود، امکان ایجاد طرح های خاص پروژه برای پروژه های مشترک بزرگ بین GFZ و شرکای خارجی است ( شکل 4 ). با تولید اسکریپت‌هایی برای ارائه داده‌ها به روشی خاص، امکان انتخاب رندر HTML در زمان برش DOI وجود دارد.

6. مجوزها و عملکرد پشته نرم افزار

بسته به مخاطبان هدف یک اثر فکری، می‌توان آن را تحت مجوزی منتشر کرد که محدودیت‌هایی برای استفاده مجدد تعیین می‌کند یا هیچ محدودیتی برای برنامه‌های آینده تعیین نمی‌کند. مجوزهای موجود برای نرم افزار می توانند شرایط مجوز برای نرم افزارهای مشتق شده را تعیین کنند. بنابراین، هنگام ترکیب اجزای مختلف نرم‌افزار، باید دقت ویژه‌ای برای رعایت مجوزهای اعمال شده توسط هر یک از نویسندگان اصلی انجام شود. در مورد ما میان افزار eSciDoc از “مجوز توسعه و توزیع مشترک” در نسخه 1.0 استفاده می کند که توسط برنامه PubMan نیز استفاده می شود. DOIDB و panMetaDocs تحت “مجوز آپاچی” در نسخه 2.0 منتشر شده اند. ویرایشگر فراداده از “مجوز عمومی عمومی گنو” در نسخه 3.0 استفاده می کند که از چارچوب Sencha EXTJS سرچشمه می گیرد و در مورد ما محدودترین مجوز است.

برای تخمین عملکرد کل پشته نرم افزار، باید به DOIDB و میان افزار eSciDoc و برنامه های آنها به طور جداگانه نگاه کنیم. DOIDB به عنوان یک پروکسی برای زیرساخت DataCite عمل می کند و زمان لازم برای پردازش تماس های ثبت نام نشان دهنده زمان پاسخگویی زیرساخت DataCite است. در مورد ما ثبت نام های DOIDB به ترتیب 1.2 تا 1.5 ثانیه طول می کشد و تفاوت معنی داری بین ثبت مستقیم در DataCite و ثبت از طریق DOIDB ما وجود ندارد. اجزای جستجو و انتشار به صورت محلی بدون ارتباط با زیرساخت های خارجی عمل می کنند و زمان پاسخگویی معمولاً به ترتیب کسری از ثانیه است.

میان‌افزار eSciDoc ذخیره‌سازی مرکزی برای چندین برنامه است که از eSciDoc REST API برای ذخیره داده‌ها و ابرداده‌ها استفاده می‌کنند. هیچ زیرساخت خارجی برای ذخیره داده یا ابرداده وجود ندارد. در صورت بروز مشکل در عملکرد، انتقال برنامه‌هایی که از eSciDoc به عنوان پشتیبان داده استفاده می‌کنند به میزبانی متفاوت و سریع‌تر بسیار آسان است. با این حال، میان‌افزار eSciDoc قابل تکرار نیست و باید در یک محیط نسبتاً سریع راه‌اندازی شود. مجموعه ما در حال حاضر شامل تقریباً 28000 مورد eSciDoc است و عملیات خواندن برای دانلود فراداده یک مورد معمولاً حدود یک ثانیه طول می کشد. پشته نرم افزار ما اجازه می دهد تا فایل ها را تا 100 مگابایت ذخیره کند، که محدودیتی است که توسط محیط اجرای PHP panMetaDocs تعیین شده است. بزرگترین فایلی که ذخیره می کنیم 2.8 گیگابایت حجم دارد و از طریق یک برنامه جاوا آپلود شده است.

7. بحث، درس های آموخته شده، و کار آینده

زیرساخت انتشار ارائه شده در این مقاله شامل یک مرکز ذخیره‌سازی مرکزی برای داده‌ها و ابرداده‌ها (eSciDoc)، برنامه‌های کاربردی برای آپلود داده‌ها و ابرداده‌ها در مرکز ذخیره‌سازی (PubMan، panMetaDocs) و یک برنامه کاربردی برای ثبت ثبت‌های DOI و ابرداده‌های مرتبط (DOIDB) است. . این زیرساخت انتشار به شکل مدولار ساخته شده است تا امکان مبادله اجزای منفرد را بدون تأثیرات جزئی بر وضعیت عملیاتی سیستم فراهم کند. با این حال، eSciDoc به عنوان ذخیره‌سازی مرکزی نقشی محوری در سیستم ایفا می‌کند و همه برنامه‌هایی که از آن برای ذخیره‌سازی داده‌ها استفاده می‌کنند باید با eSciDoc API سازگار باشند. این مهم زمانی است که تغییراتی در API eSciDoc در طول به‌روزرسانی نسخه ایجاد می‌شود.

برای به حداقل رساندن هزینه های تعمیر و نگهداری، ما به دنبال جلوگیری از توسعه نرم افزار سفارشی و خطر قفل شدن فروشنده بودیم، اما به دنبال استفاده مجدد از اجزای رایگان و منبع باز موجود توسعه یافته توسط جامعه مدیریت دیجیتال بودیم. سیستم انتشار حاصل از اجزای نرم افزاری از قبل موجود تشکیل شده است که از قبل با اکثر نیازهای ما مطابقت داشته و نیاز به تطبیق کمی داشت.

درجه خاصی از افزونگی در نحوه ذخیره ابرداده ها در هر یک از مؤلفه ها وجود دارد، که در eSciDoc، در DOIDB و نمونه های panMetaDocs مربوطه است. با این حال، هر ذخیره ابرداده در مؤلفه‌های نرم‌افزار هدف خاصی را دنبال می‌کند: eSciDoc داده‌ها و ابرداده‌های مربوط به موارد را ذخیره می‌کند، DOIDB ابرداده‌های GFZ DOI را ذخیره می‌کند و panMetaDocs یک کپی از ابرداده نمونه مربوطه را برای دور زدن مدیریت حقوق دسترسی جهانی ذخیره می‌کند. eSciDoc به نفع دسترسی مبتنی بر پروژه به ابرداده داده های منتشر نشده است.

واگذاری احراز هویت کاربر به GFZ LDAP ما را از مدیریت حساب‌های کاربری با استفاده مجدد از اطلاعاتی که قبلاً توسط مدیریت هویت سرویس‌های فناوری اطلاعات GFZ ارائه شده بود نجات داد. نقطه ضعف استفاده از LDAP این است که مدیریت کاربر زیرساخت eSciDoc و تمام برنامه های کاربردی متصل به eSciDoc را به کاربران در GFZ مرتبط می کند در حالی که گنجاندن کاربران خارجی را دشوار می کند. در برخی موارد، دسترسی خارجی به داده‌ها مورد نیاز است، چه در همکاری‌های پروژه و چه در فرآیند بررسی همتا که شامل داده‌ها می‌شود. برای اجازه دادن به بازبینان برای دسترسی به داده ها، می توان یک پیوند موقت ایجاد کرد تا امکان دسترسی به داده های منتشر نشده را فراهم کند. با این حال، مشکل همچنان ادامه دارد و مدیریت حساب‌های کاربری خارجی در eSciDoc زمانی که LDAP مکانیسم اصلی احراز هویت است، دشوار است. در زمان اجرای eSciDoc در GFZ، اطلاعات حساب کاربری فقط از طریق LDAP در دسترس بود. برای نصب‌های جدید، توصیه می‌کنیم از فناوری‌هایی برای احراز هویت فدرال استفاده کنید، مانند OpenID و Shibboleth [23 ، 24 ].

PHP برای برنامه های کاربردی کلاینت eSciDoc انتخاب شد زیرا به نظر می رسید در مقایسه با زبان های برنامه نویسی مانند جاوا برای محققان در پروژه ها استفاده از آن آسان تر باشد. امروز احتمالاً پایتون را به دلیل محدودیت ورودی کم و فهرست غنی از کتابخانه‌های کد علمی توصیه می‌کنیم. مدیریت جریان های بزرگ داده در PHP یک مورد استفاده عجیب و غریب برای این زبان برنامه نویسی است. PHP برای تحویل سریع وب سایت ها طراحی شده است و اندازه فایل های بزرگ مشکل ساز است. در حالی که تغییر پارامترهای مدیریت حافظه در زمان اجرا PHP به حل این مشکل کمک می کند، محیط اجرای PHP حداکثر مدت زمان آپلود را محدود می کند. مشخص شد که این مشکل ساز است زیرا مدت زمان مورد نیاز برای آپلود داده ها از قبل تخمین زده نمی شود. یک امکان برای مدیریت داده های بزرگ، ذخیره ابرداده XML در داخل eSciDoc و ذخیره یک مرجع (URL) به داده های باینری در یک سرور خارجی است. این رویکرد از آپلودهای بزرگ در eSciDoc جلوگیری می کند، اما کنترل دسترسی eSciDocs به داده های باینری را نیز دور می زند.

در حالی که صفحات فرود خاص جامعه یک الزام در پروژه های فدرال هستند، حفظ حضور وب آنها در دوره های زمانی طولانی نیز به منابع اضافی برای نگهداری زیرساخت های اساسی نیاز دارد. این باید به دقت بررسی شود، اگرچه ما معتقدیم که XML Stylesheet Transformation (XSLT) می‌تواند نیازهای تعمیر و نگهداری را با ارائه مکانیزمی مستقل از پلتفرم سخت‌افزار و زبان برنامه‌نویسی برای تولید صفحات وب برای ارائه داده به حداقل برساند.

در حال حاضر، ویرایشگر فراداده panMetaDocs برای ورود پوشش‌های فضایی کمک می‌کند. این فرم همچنین می‌تواند از طریق APIهای DataCite، Crossref و ORCID برای پر کردن شناسه‌های صحیح با جستجوی تعاملی برای مجموعه داده‌های مرتبط، مقالات مرتبط و نویسندگان پشتیبانی کند. این به محققان کمک می کند تا مجموعه داده های خود را به داده ها، دست نوشته ها و نویسندگان مرتبط مرتبط کنند. علاوه بر این، تقاضا برای پسوندهای خاص حوزه تحقیق یا اصلاحات ویرایشگر ابرداده وجود دارد. این امکان وجود دارد که ابرداده را برای برنامه های داده مرتبط باز کرده و از این طریق ارتباط ماشین به ماشین را فعال کنید. نگاشتی از طرحواره ابرداده DataCite به چارچوب شرح منابع (RDF) وجود دارد و چنین نگاشتهایی برای فراداده ISO19139 [ 44 ، 45] نیز موجود است.]. ما از اصطلاحات اصطلاحنامه چند زبانه GEMET استفاده می کنیم که برای فراداده INSPIRE [ 27 ] استفاده می شود. علاوه بر این، ما کلمات کلیدی علمی را از ناسا GCMD DIF [ 28 ] به ابرداده ها اعمال می کنیم. هر دو لیست واژگان بسیار محبوب هستند و یافتن داده های مرتبط را آسان تر می کنند.

8. نتیجه گیری

بر اساس مفهوم “حوزه های مسئولیت” [ 15]، ما زیرساختی برای نگهداری و انتشار داده ها ایجاد کردیم که مقیاس پذیر و سازگار با نیازهای دائمی در حال تغییر پروژه های تحقیقاتی در یک مرکز تحقیقاتی ملی است. ماهیت ماژولار سیستم و معماری سرویس گرا آن به ما این امکان را می دهد که بخش های بزرگی از سیستم را بدون تغییر نگه داریم، در حالی که اجزای جدید را اضافه کرده و در صورت نیاز اجزای منسوخ را از رده خارج کنیم. اجزای نرم افزار تا زمانی که جایگزین آن و اجزای مشتری ما یک API مشترک دارند، ممکن است مبادله شوند. استفاده از یک میان‌افزار آگنوستیک محتوا برای مدیریت ذخیره‌سازی داده‌ها به ما امکان می‌دهد تا هر نوع فایلی را که توسط هر طرح ابرداده‌ای توصیف شده است، پردازش کنیم، از جمله با طرح‌واره‌های متعدد همزمان، در قالب‌های نمایشی متعدد، یا ذخیره‌سازی خارج از سیستم. تمامی اجزای نرم افزار مبتنی بر نرم افزار رایگان و متن باز هستند،

ارائه یک API مشترک به پروژه ها اجازه می دهد تا سیستم های داده خود را مستقل از سیستم مدیریت داده های سازمانی توسعه دهند. برای انتقال داده ها به “دامنه دائمی”، سیستم های مستقل باید بتوانند با API مشترک ارتباط برقرار کنند. داده های ذخیره شده ایمن هستند و توسط کتابخانه نگهداری می شوند، حتی اگر تعمیر و نگهداری نرم افزار خاص پروژه ممکن است یک روز ادامه پیدا نکند. از دیدگاه سازمانی، این تفکیک نگرانی ها به “حوزه های مسئولیت” [ 14]] این مزیت را دارد که تخصیص منابع برای توسعه و نگهداری سیستم و تعیین منابع تأمین مالی این منابع آسان تر می شود. در حالی که ممکن است نگهداری نرم افزار از پروژه های تکمیل شده دشوار به نظر برسد، ممکن است دیگر در سناریوی ارائه شده لازم نباشد. تمام داده‌ها و ابرداده‌ها باید به «دامنه دائمی» که توسط «موسسه حافظه» اداره می‌شود، منتقل می‌شد و در آنجا مدیریت و در دسترس باقی می‌ماند.

الگوی ارائه شده در این مقاله با مفاهیم کنونی نگهداری داده های تحقیقاتی و حفظ دیجیتال بلند مدت مطابقت دارد. معماری مدولار و خدمات گرا آن را می توان با نیازهای در حال تغییر مدیریت داده در پروژه های تحقیقاتی تطبیق داد، در حالی که در عین حال ذخیره سازی داده های هسته ای و زیرساخت دسترسی پایدار را حفظ می کند که با سرعت بسیار کمتری توسعه می یابد. بنابراین، این الگو ممکن است به عنوان طرحی برای سایر مؤسسات در نظر گرفته شود که سیستمی در سطح سازمانی برای جمع آوری داده های تحقیقاتی پیاده سازی کنند.

منابع

اعلامیه برلین در مورد دسترسی آزاد به دانش در علوم و علوم انسانی. در دسترس آنلاین: http://openaccess.mpg.de/Berlin-Declaration (در 24 فوریه 2016 قابل دسترسی است).
وزرای علوم G8 بیانیه وزرای علوم G8 در دسترس آنلاین: https://www.gov.uk/government/news/g8-science-ministers-statement (دسترسی در 10 ژوئن 2015).
کمیسیون اروپایی. اجرای اتحادیه اروپا منشور داده های باز G8. در دسترس آنلاین: http://ec.europa.eu/information_society/newsroom/cf/dae/document.cfm?doc_id=3489 (دسترسی در 10 ژوئن 2015).
وزارت امور اقتصادی و انرژی فدرال، وزارت کشور فدرال و وزارت حمل و نقل و زیرساخت دیجیتال فدرال. دستور کار دیجیتال 2014-2017 دولت فدرال آلمان. در دسترس آنلاین: http://www.digitale-agenda.de/Content/DE/_Anlagen/2014/08/2014-08-20-digitale-agenda-engl.pdf?__blob=publicationFile&v=6 (دسترسی در 10 ژوئن 2015 ).
سازمان توسعه و همکاری اقتصادی (OECD). اعلامیه دسترسی به داده های تحقیق از محل بودجه عمومی. در دسترس آنلاین: http://acts.oecd.org/Instruments/ShowInstrumentView.aspx?InstrumentID=157 (در 26 نوامبر 2015 قابل دسترسی است).
پارلمان اروپا، شورای اتحادیه اروپا. دستورالعمل 2007/2/EC پارلمان اروپا و شورای 14 مارس 2007 مبنی بر ایجاد زیرساختی برای اطلاعات مکانی در جامعه اروپا (INSPIRE). در دسترس آنلاین: http://eur-lex.europa.eu/legal-content/EN/ALL/?uri=CELEX:32007L0002 (در 28 نوامبر 2015 قابل دسترسی است).
ائتلاف در انتشار داده ها در علوم زمین و فضایی. بیانیه تعهد ناشران علوم زمین و فضا و تأسیسات داده. در دسترس آنلاین: http://www.copdess.org/statement-of-commitment/ (دسترسی در 5 ژوئیه 2015).
کلمپ، جی. Geowissenschaften. در Langzeitarchivierung von Forschungsdaten—Eine Bestandsaufnahme ; Neuroth, H., Strathmann, S., Oßwald, A., Scheffel, R., Klump, J., Ludwig, J., Eds. Verlag Werner Hülsbusch: Boizenburg، آلمان، 2012; صص 179-194. [ Google Scholar ]
برنامه GEOFON، GFZ Potsdam. در دسترس آنلاین: http://geofon.gfz-potsdam.de (دسترسی در 30 نوامبر 2015).
سرویس بین المللی GNSS IGS (خدمات بین المللی GPS سابق). در دسترس آنلاین: https://igscb.jpl.nasa.gov (دسترسی در 30 نوامبر 2015).
شبکه بین المللی رصدخانه مغناطیسی بلادرنگ در دسترس آنلاین: http://www.intermagnet.org (دسترسی در 30 نوامبر 2015).
کراتز، جی. Strasser, C. انتشار داده ها اجماع و مناقشه ; F1000Research: لندن، بریتانیا، 2014. [ Google Scholar ]
پایگاه انتشارات GFZ. در دسترس آنلاین: http://gfzpublic.gfz-potsdam.de (دسترسی در 30 نوامبر 2015).
کلمپ، جی. اولبریخت، دی. Conze, R. بررسی گذشته عمیق وب – استراتژی های مهاجرت برای محتوای وب برنامه حفاری عمیق قاره آلمان. GeoRes. J. 2015 ، 6 ، 98-105. [ Google Scholar ] [ CrossRef ]
ترلوار، ا. Groenewegen، D.; هاربو-ری، سی. پیوستار مدیریت داده – مدیریت اشیاء داده در مخازن سازمانی. D-Lib Mag. 2007 ، 13 . [ Google Scholar ] [ CrossRef ]
دواراکوندا، ر. پالانیسامی، جی. گرین، جی. Wilson, B. به اشتراک گذاری و بازیابی داده ها با استفاده از OAI-PMH. علوم زمین Inf. 2011 ، 4 ، 1-5. [ Google Scholar ] [ CrossRef ]
فیلدینگ، سبک های معماری RT و طراحی معماری های نرم افزاری مبتنی بر شبکه. دکتری پایان نامه، دانشگاه کالیفرنیا، ایروین، کالیفرنیا، ایالات متحده آمریکا، 2000. [ Google Scholar ]
Huber, R. panMetaWorks—PangaWiki. در دسترس آنلاین: http://wiki.pangaea.de/wiki/Panmetaworks (دسترسی در 9 ژوئیه 2015).
اولبریخت، دی. Klump, J. panMetaDocs – ابزاری برای جمع آوری و مدیریت اشیاء دیجیتال در یک محیط تحقیقاتی علمی. در مجموعه مقالات مجمع عمومی اتحادیه علوم زمین اروپا، وین، اتریش، 3 تا 8 آوریل 2011.
اولبریخت، دی. کلمپ، جی. Bertelmann, R. انتشار مجموعه داده ها با eSciDoc و panMetaDocs. در مجموعه مقالات مجمع عمومی اتحادیه علوم زمین اروپا، وین، اتریش، 22-27 آوریل 2012.
رزم، م. شویختنبرگ، اف. واگنر، اس. Hoppe، M. eSciDoc زیرساخت: چارچوب تحقیق الکترونیکی مبتنی بر فدورا. در مجموعه مقالات کنفرانس اروپایی کتابخانه های دیجیتال، کورفو، یونان، 27 سپتامبر تا 2 اکتبر 2009. ص 227-238.
جامعه اینترنت پروتکل دسترسی به دایرکتوری سبک وزن (LDAP): نقشه راه مشخصات فنی. در دسترس آنلاین: https://tools.ietf.org/html/rfc4510 (در 9 ژوئیه 2015 قابل دسترسی است).
بنیاد OpenID. مشخصات و اطلاعات توسعه دهنده در دسترس آنلاین: http://openid.net/developers/specs/ (در 9 ژوئیه 2015 قابل دسترسی است).
کنسرسیوم Shibboleth. Shibboleth چیست. در دسترس آنلاین: http://shibboleth.net/about/ (در 9 ژوئیه 2015 قابل دسترسی است).
مخزن کد منبع panMetaDocs. در دسترس آنلاین: http://panmetadocs.sf.net (در 29 نوامبر 2015 قابل دسترسی است).
استار، جی. Gastl, A. IsCitedBy: یک طرح ابرداده برای DataCite. D-Lib Mag. 2007 ، 17 . [ Google Scholar ] [ CrossRef ]
فراداده های تیم پیش نویس و مرکز تحقیقات مشترک کمیسیون اروپا. قوانین اجرای فراداده INSPIRE: دستورالعمل های فنی بر اساس EN ISO 19115 و EN ISO 19119 . مرکز تحقیقات مشترک کمیسیون اروپا: بروکسل، بلژیک، 2010; در دسترس آنلاین: http://inspire.ec.europa.eu/documents/Metadata/INSPIRE_MD_IR_and_ISO_v1_2_20100616.pdf (در 20 فوریه 2016 دسترسی پیدا کرد).
اداره ملی هوانوردی و فضایی – فهرست اصلی تغییر جهانی. فرمت تبادل دایرکتوری (DIF) راهنمای نویسنده. در دسترس آنلاین: http://gcmd.nasa.gov/add/difguide/ (در 28 نوامبر 2015 قابل دسترسی است).
کلمپ، جی. هوبر، آر. Diepenbroek، M. DOI برای داده‌های علوم زمین – چگونه شیوه‌های اولیه ادراکات فعلی را شکل می‌دهند. علوم زمین Inf. 2016 ، 9 ، 123-136. [ Google Scholar ] [ CrossRef ]
کلمپ، جی. برتلمن، آر. بریس، جی. دیپنبروک، ام. گروب، اچ. هاک، اچ. لاوتنشلاگر، ام. شیندلر، یو. سنس، من. Wächter, J. انتشار داده در ابتکار دسترسی آزاد. اطلاعات علمی J. 2006 ، 5 ، 79-83. [ Google Scholar ] [ CrossRef ]
کلمپ، جی. Ulbricht, D. استفاده مجدد از ذخیره ابرداده DataCite به عنوان پروکسی ثبت DOI و رجیستری IGSN. در مجموعه مقالات اتحادیه ژئوفیزیک آمریکا، سانفرانسیسکو، کالیفرنیا، ایالات متحده آمریکا، 3 تا 7 دسامبر 2012.
گروه کاری فراداده DataCite. طرحواره فراداده DataCite برای انتشار و استناد به داده های تحقیق ، نسخه 3.1. DataCite: لندن، بریتانیا، 2015. [ Google Scholar ] [ CrossRef ]
DOIDB Store GitHub Repository. در دسترس آنلاین: https://github.com/ulbricht/mds/tree/doidb (در 29 نوامبر 2015 قابل دسترسی است).
جستجوی DOIDB مخزن GitHub. در دسترس آنلاین: https://github.com/ulbricht/search/tree/doidb (در 29 نوامبر 2015 قابل دسترسی است).
مخزن DOIDB OAI-PMH GitHub. در دسترس آنلاین: https://github.com/ulbricht/oaip/tree/doidb (دسترسی در 29 نوامبر 2015).
سازمان ملی استاندارد اطلاعات. درک متادیتا ؛ NISO Press: Bethesda، MD، USA، 2004. [ Google Scholar ]
کتابخانه کنگره. بیانیه فرمت های توصیه شده در دسترس آنلاین: http://www.loc.gov/preservation/resources/rfs/ (در 24 فوریه 2016 قابل دسترسی است).
ویرایشگر متادیتا برای مخزن گیت هاب panMetaDocs. در دسترس آنلاین: https://github.com/ulbricht/pmdmeta (در 29 نوامبر 2015 قابل دسترسی است).
بارتلمز، اف. کوهلر، مرکز بین‌المللی مدل‌های زمین جهانی (ICGEM). در مجله Geodesy: The Geodesist’s Handbook 2012 ; دروز، اچ.، اد. Springer: برلین، آلمان، 2012; ص 932-934. [ Google Scholar ]
گوانتر، ال. کافمن، اچ. سگل، ک. فورستر، اس. روگاس، سی. چابریلات، س. کوستر، تی. هالشتاین، ا. راسنر، جی. چلبیک، سی. و همکاران ماموریت طیف‌سنجی تصویربرداری فضایی EnMAP برای رصد زمین. Remote Sens. 2015 , 7 , 8830–8857. [ Google Scholar ] [ CrossRef ]
لورنز، اچ. روزبرگ، ج.-ای. جوهلین، سی. بجلم، ال. المکویست، بی. برتت، تی. Conze، R.; جی، دی جی. کلونوسکا، آی. پاسکال، سی. و همکاران COSC-1 گزارش عملیاتی – مجموعه داده های عملیاتی ; خدمات داده GFZ: پوتسدام، آلمان، 2015; در دسترس آنلاین: http://doi.org/10.1594/GFZ.SDDB.ICDP.5054.2015 (دسترسی در 20 فوریه 2016).
فورسته، سی. بروینسما، اس. ابریکوسوف، او. Lemoine, J.-M.; مارتی، جی سی. فلچتنر، اف. بالمینو، جی. بارتلمز، اف. Biancale، R. EIGEN-6C4 آخرین مدل میدان گرانشی جهانی ترکیبی شامل داده‌های GOCE تا درجه و سفارش 2190 GFZ Potsdam و GRGS Toulouse . خدمات داده GFZ: پوتسدام، آلمان، 2015; در دسترس آنلاین: http://doi.org/10.5880/icgem.2015.1 (دسترسی در 20 فوریه 2016).
نویمان، سی. ویس، جی. Itzerott, S. Döberitzer Heide 2008/2009—یک کمپین پرواز مقدماتی EnMAP ; خدمات داده GFZ: پوتسدام، آلمان، 2015; در دسترس آنلاین: http://doi.org/10.5880/enmap.2015.001 (دسترسی در 20 فوریه 2016).
DataCite Ontology GitHub Repository. در دسترس آنلاین: http://github.com/datacite/ontology (دسترسی در 17 ژانویه 2016).
OWL نمایندگی ISO 19115 (اطلاعات جغرافیایی-فراداده). در دسترس آنلاین: http://def.seegrid.csiro.au/isotc211/iso19115/2003/metadata (در 24 فوریه 2016 در دسترس است).

شکل 1. تصویری از معماری سیستم مجموعه نرم افزار مدولار برای مخزن سرویس های داده GFZ. جعبه های خاکستری نشان دهنده سیستم های موجود در حوزه عمومی است.

شکل 2. استخراج از رابط کاربری گرافیکی (GUI) ویرایشگر فراداده مبتنی بر جاوا اسکریپت برای مجموعه ثبت فراداده و شناسه های شی دیجیتال (DOI)، بر اساس طرحواره ابرداده DataCite 3.1 [32] و تکمیل شده توسط فیلدهای موضوعی خاص . همانطور که برای داده های GFZ مورد نیاز است. فیلدهای فراداده اجباری و توصیه شده دارای کد رنگی هستند (حروف قرمز = فیلدهای اجباری). در صورت امکان، لیست های اسمی و توضیحات در پنجره های پاپ آپ اجرا می شد.

شکل 3. یک صفحه فرود DOI که توسط تبدیل صفحه سبک XSLT یک مورد eSciDoc ایجاد شده است (مثالی از برنامه بین المللی حفاری قاره ای [ 41 ]). اطلاعات مربوط به فایل‌های داده، مخاطبین، و محدودیت‌های دانلود ( A )، مقالات مرتبط و مجموعه داده‌های پیوندی ( B ) و لینک‌های دانلود برای ابرداده در طرح‌واره‌های ابرداده مختلف ( C ) مشخص شده است. در این مثال، فایل‌های داده تا حدی دسترسی باز هستند و مستقیماً از طریق صفحه فرود قابل دانلود هستند (اندازه فایل نشان داده شده است)، در حالی که سایر فایل‌های داده دسترسی محدودی برای یک دوره تحریم تعریف شده دارند (با علامت قرمز R). داده های نقشه © OpenStreetMap مشارکت کنندگان هستند و تحت مجوز CC-BY-SA منتشر شده اند.

شکل 4. صفحات فرود مخصوص رشته های مختلف که داده های منتشر شده از طریق سرویس های داده GFZ را توصیف می کنند. نمونه ای برای سرویس انتشار مدل های گرانشی جهانی ICGEM، مرکز بین المللی مدل های زمین جهانی [ 42 ]، ( سمت چپ ). صفحه فرود ویژه پروژه برای داده های هوابرد ابرطیفی در برنامه نقشه برداری و تحلیل محیطی آلمان (EnMAP) [ 43 ]، ( راست ). شکل 3 را برای طرح استاندارد GFZ ببینید . داده های نقشه © OpenStreetMap مشارکت کنندگان هستند و تحت مجوز CC-BY-SA منتشر شده اند.

© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons by Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.

;کاربردهای GIS مقالات

درخواست مشاوره

09120049370

8 صبح تا 12 شب