خلاصه
هدف پروژه رادار (Research Data Repository) راه اندازی و ایجاد زیرساختی است که مدیریت داده های تحقیقاتی را تسهیل می کند: این زیرساخت به محققان امکان ذخیره، مدیریت، حاشیه نویسی، استناد، سرپرستی، جستجو و یافتن داده های علمی را در یک پلت فرم دیجیتال می دهد. در هر زمان موجود است که می تواند توسط چندین رشته (تخصصی) استفاده شود. در حالی که استراتژیها و سیستمهای حفاظتی مناسب و مبتکرانه برای جوامع کلان داده (مثلاً علوم محیطی، فضا و آب و هوا) وجود دارد، نظارت برای بسیاری از رشتههای دیگر که اغلب «حوزههای تحقیقاتی دم بلند» نامیده میشوند، نامشخص است. پروژه همکاری RADAR که توسط بنیاد تحقیقات آلمان (DFG) تامین می شود، یک زیرساخت سرویس گرا برای حفظ، انتشار و قابلیت ردیابی داده های تحقیقاتی (مستقل) ایجاد می کند. جنبه کلیدی RADAR اجرای یک مدل تجاری دو مرحله ای برای حفظ و انتشار داده ها است: مشتریان ممکن است نتایج تحقیقات را تا 15 سال حفظ کنند و حقوق دسترسی با درجه بندی خوبی را به آنها اختصاص دهند، یا داده ها را با یک تخصیص DOI برای مدت نامحدود منتشر کنند. دوره زمانی. مشتریان بالقوه شامل کتابخانهها، مؤسسات تحقیقاتی، ناشران و پلتفرمهای باز هستند که خواهان یک زیرساخت دیجیتالی قابل تطبیق برای آرشیو و انتشار دادهها بر اساس نیازهای سازمانی و گردش کار خود هستند.
کلید واژه ها:
مخزن ; حفظ ؛ زیرساخت اطلاعاتی ; مدیریت داده های تحقیق ; ذخیره سازی داده ها ؛ انتشار داده ها
1. مقدمه: دیجیتالی کردن گردش کار تحقیقاتی
در اصل، مفهوم اشتراک گذاری و استفاده مجدد از داده ها جدید نیست: قبل از انقلاب دیجیتال، مقالات مجلات نمی توانستند به طور عملی شامل همه داده های اساسی باشند. بنابراین، اگر محققی بخواهد به چنین دادههای (خارجی) مانند گروه تحقیقاتی دیگری دسترسی داشته باشد، باید با آنها تماس میگرفت. موفقیت چنین درخواست داده اغلب به موضوع اعتماد، شهرت و قصد استفاده مجدد بستگی داشت. از این رو، به خودی خود، به اشتراک گذاری داده های تحقیقاتی همراه با سایر خروجی های علمی مانند مقالات مجلات و نرم افزار به اساس علم مرتبط است: ایجاد، استفاده مجدد و بحث و بررسی آشکار و ارزیابی یافته های علمی منتشر شده. با دیجیتالی شدن و اتصال جهانی ناشی از آن، روش انجام تحقیقات تغییر کرده است. تولید داده های دیجیتال به سرعت در حال رشد، همراه با پیشرفتهای جدید در زمینه تجهیزات، نرمافزار و روشهای علمی، جامعه علمی را به چالش میکشد: دانشمندان، سیاستگذاران، نهادهای تأمین مالی، روزنامهنگاران و عموم علاقهمندان به طور یکسان باید با پیشرفت علمی و دسترسی سریع به اطلاعات دیجیتال همراه باشند. تا به حال، کار زیادی برای بهبود دسترسی به به اصطلاح “داده های بزرگ” انجام شده است. کلان داده شامل مجموعه داده های گسترده ای است که از طریق پروژه های علمی بزرگ تولید شده اند، مانند تحقیقات فیزیک ذرات انجام شده در سازمان اروپایی تحقیقات هسته ای (سرن، به عنوان مثال، با استفاده از برخورد دهنده بزرگ هادرون) [ روزنامه نگاران و عموم علاقه مندان به طور یکسان باید با پیشرفت علمی و دسترسی سریع به اطلاعات دیجیتال در حال گسترش باشند. تا به حال، کار زیادی برای بهبود دسترسی به به اصطلاح “داده های بزرگ” انجام شده است. کلان داده شامل مجموعه داده های گسترده ای است که از طریق پروژه های علمی بزرگ تولید شده اند، مانند تحقیقات فیزیک ذرات انجام شده در سازمان اروپایی تحقیقات هسته ای (سرن، به عنوان مثال، با استفاده از برخورد دهنده بزرگ هادرون) [ روزنامه نگاران و عموم علاقه مندان به طور یکسان باید با پیشرفت علمی و دسترسی سریع به اطلاعات دیجیتال در حال گسترش باشند. تا به حال، کار زیادی برای بهبود دسترسی به به اصطلاح “داده های بزرگ” انجام شده است. کلان داده شامل مجموعه داده های گسترده ای است که از طریق پروژه های علمی بزرگ تولید شده اند، مانند تحقیقات فیزیک ذرات انجام شده در سازمان اروپایی تحقیقات هسته ای (سرن، به عنوان مثال، با استفاده از برخورد دهنده بزرگ هادرون) [1 ]. با این حال، هزاران مطالعه تحقیقاتی وجود دارد که مجموعه دادههای «کوچکتر» را تولید میکنند. در سال 2011، نظرسنجی از 1700 محقق در سراسر رشته توسط مجله Science انجام شد . آنها دریافتند که 48.3 درصد از پاسخ دهندگان با مجموعه داده هایی با حجم کمتر از 1 گیگابایت کار می کنند و بیش از نیمی از افراد مورد نظرسنجی فقط داده های خود را در آزمایشگاه های خود ذخیره می کنند [ 2 ]. چنین مجموعههای دادههای ناهمگونی در رشتههای مختلف علمی اتفاق میافتد که اغلب با به اصطلاح «دم بلند» علم مرتبط است. ویژگیهای مشخصه این رشتهها، مطالعات فرضیهمحور است که توسط گروههای تحقیقاتی کوچک هدایت میشوند، که مجموعه دادههای خود را تولید و تجزیه و تحلیل میکنند [ 3 ، 4]]. در این رشته طولانی از حوزه های علمی، فرهنگ داده رسمی به ندرت یافت می شود: در آنجا، استفاده از استانداردها و بهترین شیوه ها برای مدیریت داده ها به شدت به جامعه وابسته است و مجموعه داده ها اغلب فاقد ساختار تعریف شده هستند. در نتیجه، زیرساختهای مدیریت داده ایجاد شده، مانند مخازن دادههای مناسب در این زمینهها، بسیار اندک هستند.
یکی از نیازهای اساسی با دادههای کوچک و بزرگ که در سالهای گذشته پدیدار شده است، نیاز به همه دادههای علمی «باز» است – باز برای جستجو، ردیابی، استناد، دانلود و ارائه ایدهآل با مجوز مناسب برای نشان دادن پتانسیل آنها برای استفاده مجدد بیشتر در داخل و خارج از محدوده و زمینه جامعه مربوطه. با به اشتراک گذاشتن این دیدگاه، دستورات آژانس تامین مالی جدید برای مدیریت رسمی داده ها وارد عمل شده است. چنین دستوراتی اجرا شده است، به عنوان مثال، توسط بنیاد ملی علوم، که محققین را ملزم می کند تا یک طرح مدیریت داده را با پیشنهادات خود برای تامین مالی بگنجانند [ 5 ]. در آلمان، پیشرفتهای مشابه بیان شده است، به عنوان مثال، در دستورالعملهای “حفاظت از عملکرد علمی خوب” بنیاد تحقیقات آلمان [ 6]]. به این ترتیب، دادههای زیربنای مطالعات علمی به عنوان یک خروجی تحقیقاتی اولیه شناخته میشوند و از محققان خواسته میشود در مدیریت دادههای پژوهشی فعالتر شرکت کنند. این ممکن است شامل ایجاد طرحهای مدیریت دادهها در آغاز پروژههای تحقیقاتی، جستجوی جدی و جمعآوری اطلاعات علمی از منابع معتبر ادبیات و از مخازن کافی، و همچنین انتشار دادههای خود، به عنوان مثال، با سپردهگذاری آنها در یک مکان مناسب باشد. مخزن به منظور امکان استفاده مجدد از داده ها و تکمیل چرخه عمر داده [ 7 , 8 , 9]. در نتیجه، مؤسسات تحقیقاتی، دانشگاهها و کتابخانهها به جمعآوری و دسترسی به مجموعه دادههای تولید شده در مؤسسهشان علاقهمندتر میشوند که در محدوده دادههای بزرگ یا مخازن مبتنی بر رشته قرار نمیگیرند. علاوه بر این، محققان خودشان شروع به جستجوی خدمات داده می کنند. این وضعیت فرصت های جدیدی را برای ایجاد یک زیرساخت پشتیبانی و خدمات داده به ارمغان می آورد، به عنوان مثال، با ایجاد همکاری های جدید بین مراکز داده، موسسات تحقیقاتی و کتابخانه ها. همکاری ایجاد شده ممکن است منجر به زیرساخت مشترکی شود که خدمات پشتیبانی را از مشاوره برای محققان، کمک به طرحهای مدیریت داده تا ارائه فضای ذخیرهسازی واقعی برای حفظ دادهها و خدمات انتشار دادهها (از جمله تخصیص شناسههای دائمی به مجموعههای داده) ارائه میکند.
این مقاله پروژه RADAR (Research Data Repository) را ارائه می دهد. با رادار، زیرساخت داده های تحقیقاتی عمومی برای حفظ و انتشار داده ها در زمینه های فوق الذکر دم دراز علم توسعه و ایجاد خواهد شد.
2. رادار – محدوده، همکاری ها، اهداف و معماری
RADAR یک مخزن داده های دیجیتال بین رشته ای است که هم خدمات حفظ و هم انتشار را ارائه می کند، در درجه اول برای رشته هایی بدون سنت اشتراک داده، از جمله زمینه های به اصطلاح دم بلند. رادار خدمات حفظ و انتشار داده ها را برای سازمان های علمی، پژوهشی و میراث فرهنگی و مشتریان صنعتی ارائه می دهد. رادار از داده های رشته های تحقیقاتی تخصصی در همه زمینه ها مانند علوم طبیعی، زیستی، اقتصادی، اجتماعی و فرهنگی استقبال می کند. با شروع این سرویس در سال 2016، RADAR بر روی کاربران سازمانی ( به عنوان مثال، معمولاً کتابخانه های دانشگاه ها و سازمان های تحقیقاتی). بعداً این پیشنهاد با راه حل هایی برای پروژه های تحقیقاتی و ناشران علمی تکمیل خواهد شد. در زمینه چرخه حیات داده، رادار یک سیستم با سرویسی است که در “دامنه پایدار” مدل مفهومی مدیریت داده توصیف شده در “حوزه های مسئولیت” [ 7] قرار داده شده است.]. حوزه های مسئولیت برای نشان دادن وظایف و مسئولیت های بازیگران درگیر در مدیریت داده های پژوهشی استفاده می شود. به طور همزمان، دامنه ها زمینه های دانش مشترک در مورد داده ها و اطلاعات فراداده را با هدف استفاده مجدد گسترده از داده های تحقیقاتی حفظ شده و منتشر شده ترسیم می کنند. با RADAR، ما تصمیم گرفتیم معماری سرویس گرا را معرفی کنیم که امکان مدیریت داده های پژوهشی مدولار را فراهم می کند. بنابراین، چندین گزینه در مورد نحوه استفاده کاربران از رادار ارائه شده است: واضح ترین راه تکیه بر سرویس میزبانی شده است، همانطور که در مدل سرویس دو مرحله ای در بخش 3 توضیح داده شده است .. علاوه بر این، RADAR یک دسترسی API را ارائه می دهد، بنابراین کاربران می توانند بایگانی بایگانی را در سیستم ها و فرآیندهای خود ادغام کنند. گزینه سوم این است که نرم افزار رادار را به صورت محلی نصب کنید، یا فقط بخش مدیریت و رابط کاربری را مستقر کنید و داده ها را در سرویس رادار میزبانی شده از طریق API بایگانی کنید، یا همه چیز را به صورت محلی اجرا کنید. علاوه بر این، گزینه ای برای اجرای پشته نرم افزار کامل به صورت محلی و استفاده از سرویس RADAR میزبانی شده به عنوان راه حل ذخیره سازی ماکت وجود دارد.
این مخزن به عنوان بخشی از یک پروژه سه ساله با بودجه بنیاد تحقیقات آلمان از سال 2013 تا 2016 ( http://www.radar-projekt.org ) توسعه یافته است و در برنامه “خدمات کتابخانه های علمی و سیستم های اطلاعاتی ( LIS)» در مورد بازسازی خدمات ملی اطلاعات در آلمان.
2.1. همکاری
رادار به عنوان پروژه همکاری پنج موسسه تحقیقاتی از حوزه های علوم طبیعی و اطلاعاتی توسعه یافته است. زیرساخت فنی رادار توسط مؤسسه زیرساخت اطلاعاتی FIZ Karlsruhe-Leibniz و مرکز محاسبات Steinbuch (SCC)، مؤسسه فناوری کارلسروهه (KIT) ارائه شده است. مدیریت پایدار و انتشار داده های تحقیق با DOI-تخصیص توسط کتابخانه ملی علم و فناوری آلمان (TIB) ارائه شده است. Ludwig-Maximilians-Universität Munich (LMU)، دانشکده شیمی و داروسازی و موسسه بیوشیمی گیاهی لایبنیتس (IPB) دانش و مشخصات علمی را ارائه می دهند و اطمینان می دهند که خدمات رادار می تواند برای تبدیل شدن به بخشی از گردش کار علمی موسسات دانشگاهی پیاده سازی شود. و دانشگاه ها
2.2. اهداف
هدف RADAR ایجاد یک مخزن داده های تحقیقاتی بین رشته ای است که توسط جوامع تحقیقاتی پشتیبانی می شود و توسط یک مدل تجاری پایدار پشتیبانی می شود. فرآیندها و ابزارهای مدیریت داده مورد نیاز عبارتند از:
-
رهنمودهایی برای محققان برای معرفی و تسهیل مدیریت داده های تحقیق به طور کلی و ذخیره و/یا انتشار داده های تحقیقاتی خود؛
-
سرویس ایمن حفظ اطلاعات شامل دوره های ذخیره سازی کافی (5، 10 و 15 سال و همچنین ذخیره سازی دائمی) با استفاده از مکانیسم های ذخیره سازی داده های توزیع شده؛
-
(اختیاری) انتشار داده با شناسه دیجیتال شی (DOI) – انتساب به قابلیت ردیابی، دسترسی و استناد ایمن. و
-
پشتیبانی پیاده سازی فنی برای مؤسسات تحقیقاتی (مثلاً توسط API باز، امکان نام تجاری جلویی و همچنین گزینه ای برای بررسی همتای داده ها)
ناهمگونی داده های تحقیقاتی یک مسئله جدی برای بسیاری از مخازن داده های تحقیقاتی است. RADAR با تمرکز بر گردشهای کاری علمی واقعی با این مشکل مواجه است و یک رویکرد بهترین عملکرد عمومی را که با دادههای ارائهشده توسط شرکای علمی از حوزههای تحقیقاتی مختلف ارزیابی و آزمایش میشود، ایجاد میکند.
2.3. معماری
پروژه های تحقیقات الکترونیکی اغلب به ویژگی های مشارکتی جامع نیاز دارند. اینها شامل ذخیره سازی داده ها، مدیریت حقوق دسترسی و کنترل نسخه است. در سال 2004، با همکاری FIZ کارلسروهه و شرکای خارجی، پلتفرم تحقیقات الکترونیکی eSciDoc را توسعه دادند که یک راه حل مخزن انعطاف پذیر است که طیف وسیعی از عملکردها را برای همکاری علمی جهانی ارائه می دهد. در سال 2014، توسعه «نسل بعدی eSciDoc» آغاز شد [ 10 ]، که یک نسخه کاملاً اصلاح شده از eSciDoc است و در پروژه رادار استفاده میشود. eSciDoc نسل بعدی دیگر شامل فدورا نمیشود، اما (مانند RADAR) منبع باز است و تحت مجوز ASL 2.0 است.
در RADAR، ذخیرهسازی دادهها با استفاده از نرمافزار مخزن مدیریت میشود که شامل دو بخش است: بخش پشتی وظایف عمومی مانند دسترسی به ذخیرهسازی، حفظ جریان بیت یا گزارشهای منظم در مورد یکپارچگی داده را تنظیم میکند، در حالی که بخش جلویی، گردشهای کاری خاص رادار را مدیریت میکند (شکل 1 ) . این گردشهای کاری شامل خدمات دادههای مختلف است: مدیریت ابرداده، کنترل دسترسی، فرآیندهای دریافت داده، و همچنین مجوز برای استفاده مجدد و انتشار دادههای تحقیقاتی با DOI. معماری RADAR مربوطه بر اساس یک ساختار API قابل گسترش است که به آن “API Archive” گفته می شود ( شکل 1)). این ساختار امکان ادغام چندین مرکز محاسباتی را فراهم می کند که از سیستم های ذخیره سازی مختلف استفاده می کنند (به عنوان مثال، TSM، SamQFS، DMS، و HPSS). برای رسیدن به یک رابط آرشیو یکنواخت، API این سیستمها و فناوریهای ذخیرهسازی مختلف را پنهان میکند.
معماری رادار مطابق با مدل مرجع OAIS [ 11 ] توسعه یافته است. در معماری، بستههای اطلاعات بایگانی (AIP) و بستههای اطلاعات انتشار (DIP) به عنوان یک ساختار BagIt در قالب کانتینر ZIP ارائه خواهند شد. هر ظرف شامل داده ها و ابرداده ها خواهد بود. به عنوان بخشی از استراتژی واردات/صادرات، یک API برای RADAR ارائه میشود: API اجازه واردات/صادرات داده و همچنین ابرداده را میدهد. صادرات فراداده در قالب های مختلف در دسترس خواهد بود.
2.4. طرحواره فراداده
ابرداده ها برای ردیابی، دسترسی و استفاده موثر از داده های علمی ضروری هستند. در رادار، دادههای ارسالی باید با مجموعهای از پارامترهای فراداده توصیفی اساسی همراه باشد که منبع مربوطه را مستند و توصیف میکند. طرح ابرداده RADAR ( شکل 2 ) با هدف افزایش قابلیت ردیابی و قابلیت استفاده از داده های تحقیقاتی با حفظ یک خصوصیت علمی-آگنوستیک و به طور همزمان اجازه می دهد تا توصیف داده های رشته خاص را افزایش دهد. برای این منظور، این طرح شامل مجموعهای از پارامترهای عمومی است که امکان شناسایی دقیق و منسجم یک منبع برای اهداف استناد و بازیابی را فراهم میکند، در حالی که در عین حال نیازمندیهای مجموعه دادههای خاص رشتهای را برآورده میکند.
این طرح شامل نه فیلد اجباری است که نشان دهنده هسته کلی طرح است. این فیلدهای اجباری شامل الزامات اصلی برای ثبت DOI، مطابق با DataCite Metadata Schema 3.1 [ 12]. علاوه بر این، 12 پارامتر فراداده اختیاری به منظور توصیف داده های رشته خاص خدمت می کنند. پارامترها با ترکیبی از واژگان کنترلشده و ورودیهای متن آزاد پیادهسازی شدند، در نتیجه دادههای ناهمگن تولید شده توسط رشتههای متعددی را پوشش میدهند. ورودی های واژگان کنترل شده مطابق با مقررات تعیین شده در ذهن تعریف شده اند (به عنوان مثال، استانداردهای ISO برای زبان و کشور مبدا داده ها). کاربرد رشته-اگنوستیک طرحواره فراداده با داده های مختلفی از جمله مجموعه داده های آزمایشی از علوم انسانی، علوم ورزشی و شیمی کاربردی آزمایش شده است.
مشتریانی که مایلند چشم انداز یافتن، استناد و پیوند داده های فراداده خود را به تحقیقات اصلی افزایش دهند، قویاً تشویق می شوند تا پارامترهای اختیاری را علاوه بر مجموعه ویژگی های اجباری ارسال کنند. فراداده مجموعه دادههایی که در RADAR منتشر میشوند تحت مجوز Creative Commons Zero در دسترس خواهند بود [ 13 ]. این طرح دستورالعملهای استفاده توصیهشده را همراه با مثالهای مناسب در مورد چگونگی توصیف کارآمد دادههای تحقیقاتی از رشتههای مختلف، و همچنین یک سرویس پشتیبانی برای جمعآوری دادههای فراداده منتشر شده از طریق رابط OAI-PMH ارائه میکند.
3. مدل خدمات دو مرحله ای
ناهمگونی داده های تحقیقاتی چالشی مهم برای بسیاری از مخازن داده های تحقیقاتی است. سپرده گذاری داده های تحقیقاتی در رادار تضمین می کند که الزامات آژانس های تأمین مالی و اقدامات علمی خوب برآورده می شود. بنابراین، سایر محققان قادر خواهند بود داده های منتشر شده را پیدا، استفاده مجدد و استناد کنند. برای تسهیل ارسال و ادغام داده های تحقیقاتی در مخزن دیجیتال، رادار دستورالعمل های دقیق نویسنده و توضیحات گام به گام را در مورد نحوه انتخاب بین خدمات نگهداری و انتشار ارائه شده، نحوه آماده سازی و نحوه ارسال داده ها ارائه می دهد. به داده های منتشر شده یک شناسه پایدار (DOI) اختصاص داده می شود که به قابلیت استناد آنها به عنوان بخشی از سابقه انتشارات محقق کمک می کند. رادار به عنوان یک سرویس عمومی، انواع داده های دیجیتالی را که در طول مطالعات تحقیقات علمی جمع آوری می شود، می پذیرد. یک مجموعه داده سپرده شده در رادار ممکن است شامل داده های خام، داده های اولیه (داده های کاری میانی)، داده های ثانویه و فایل هایی باشد که داده ها را توصیف می کند و فرآیند تحقیق را مستند می کند. RADAR هم داده های مربوط به مقالات علمی و هم انتشارات داده های مستقل را می پذیرد، به عنوان مثال، “داده های منفی”. رادار پیش چاپ، پایان نامه دکترا یا دیگر ادبیات خاکستری را نمی پذیرد. با این حال، اگر بخشی از دادههای خام مورد استفاده برای تجزیه و تحلیل باشد، رادار قویاً سپردهگذاران داده را تشویق میکند تا اطلاعات مربوط به محتوای مرتبط را با استفاده از طرحواره ابرداده ارائه دهند. داده ها ممکن است در هر فرمت فایل ارسال شوند. توصیه هایی که منعکس کننده الزامات دسترسی طولانی مدت به محتوای دیجیتال است در دستورالعمل های نویسنده ارائه خواهد شد (به عنوان مثال، استفاده از فرمت های مبتنی بر XML برای فایل های متنی). یک سیستم تست رادار در ژوئن 2015 طراحی و اجرا شد. کاربران و ذینفعان علاقه مند می توانند خدمات رادار ارائه شده را برای کاربرد آنها در جریان کار علمی روزانه خود آزمایش و ارزیابی کنند. به این ترتیب، رادار توسط محققان حوزه های علمی مختلف مورد ارزیابی قرار خواهد گرفت. رادار یک رویکرد دو مرحلهای را با یک سرویس پایه انضباطی برای حفظ دادههای تحقیقاتی دنبال میکند.بخش 3.1 ) و یک سرویس گسترده برای انتشار داده ها ( بخش 3.2 ). مفاهیم خدمات دقیق، نقش ها و وضعیت مجموعه داده سیستم مخزن RADAR در جدول 1 نشان داده شده است .
3.1. خدمات پایه: حفظ اطلاعات
برای ارائه دهندگان داده، RADAR خدمات حفظ مستقل از قالب را برای ذخیره داده ها مطابق با دوره های ذخیره سازی طولانی مدت مشخص شده (به عنوان مثال، 10 سال، طبق توصیه های DFG) ارائه می دهد. این شامل حفظ ایمن تا 15 سال با انتشار داده نشده و الزام حداقل مجموعه ابرداده است. بهطور پیشفرض، دادهها و فرادادههای مرتبط منتشر نمیشوند، مگر اینکه ارائهدهنده داده طور دیگری مشخص کرده باشد. یک مدیریت دسترسی انعطافپذیر به دادهها و ابردادهها ارائه میشود، به طوری که ارائهدهندگان داده میتوانند در صورت تمایل، مجموعه دادههای حفظشده را با سایر کاربران RADAR به اشتراک بگذارند و دید خارجی ابرداده مرتبط را مدیریت کنند. حفظ جریان بیت، نسخههای پشتیبان منبع را برای اطمینان از حفظ آن تولید میکند.
3.2. خدمات گسترده: انتشار داده ها
برای استناد کردن، ردیابی و استفاده مجدد داده ها، رادار خدمات ترکیبی انتشار داده های تحقیقاتی و حفظ دائمی را ارائه می دهد. مجموعه داده های منتشر شده در RADAR توسط DOI شناسایی می شوند. با استفاده از DOI، مجموعه داده ها را می توان به طور مداوم و بدون ابهام ارجاع داد. این سرویس همچنین شامل یک دوره تحریم اختیاری برای انتشار دادههای ارسالی است که در صورت لزوم میتواند متعاقباً طولانی شود. فراداده توصیف کننده مجموعه داده قبلاً در طول تحریم منتشر می شود و به مجموعه داده ها یک DOI اختصاص داده می شود. این تضمین میکند که مجموعه دادهها را میتوان از قبل در هنگام واریز پیدا کرد و به آنها اشاره کرد، در حالی که دانلود فقط پس از پایان دوره تحریم امکانپذیر خواهد بود. در سرویس انتشار، ممکن است از گزینه بررسی همتا استفاده شود: در این مورد، مجموعه داده مربوطه در طول مدت فرآیند بررسی همتایان “تجمیع” می شود و یک “url-review” ایمن ارائه شده توسط RADAR دریافت می کند که ممکن است برای یک ویرایشگر یا بازبینی مسئول ارسال مقاله مربوطه ارسال شود. به این ترتیب، نسخه خطی و داده ها ممکن است به طور همزمان در طول یک فرآیند بررسی بررسی شوند.
ساختار سرویس دو مرحله ای خدمات مدیریت داده های اضافی را ارائه می دهد ( جدول 1 ). برای کمک به محققین در ارسال فراداده های توصیفی ( شکل 2) دستورالعمل های دقیق نویسنده همراه با مثال های مناسب از رشته های مختلف تحقیقاتی ارائه شده است. RADAR همچنین کنترل کیفی فنی داده های تحقیق و ابرداده مربوطه را در حین انتقال داده های بارگذاری شده به مخزن فراهم می کند. ارائه دهندگان داده ها از طریق ایمیل و حساب کاربری شما در صورت تکمیل موفقیت آمیز فرآیند نگهداری و در صورت لزوم، مطلع خواهند شد. RADAR مجموعه داده ها را با توجه به محتوای علمی آنها بررسی نمی کند. بنابراین، مسئولیت توصیف مجموعه داده ها و مستندسازی قابل فهم فرآیند تحقیق بر عهده تولیدکنندگان داده است. سازگاری مجموعه داده های حفظ شده در رادار به طور منظم بررسی و مستند می شود. مجموعه داده ها را می توان در هر زمانی پس از رسوب توسط ارائه دهندگان داده بازیابی کرد.
3.3. مدیریت داده در رادار: دسترسی و استفاده
به عنوان بخشی از سرویس RADAR، متصدیان داده ممکن است گزارشهای منظمی در مورد آمار استفاده از قبیل تعداد بارگیریها دریافت کنند. شرایط استفاده مجدد از داده ها به قوانین مربوط به حق نسخه برداری در حال اجرا و مجوز مربوطه بستگی دارد که پس از سپرده گذاری در یک مخزن به داده ها اختصاص داده شده است. برای مجموعه داده های منتشر شده در RADAR، استفاده از مجوزهای Creative Commons (CC) استاندارد شده (نسخه 4.0) توصیه می شود. با این حال، مجوزهای سفارشی یا سایر توضیحاتی که شرایط استفاده مجدد را مشخص می کند نیز ممکن است داده شود. اطلاعات مجوز در صفحات فرود به همراه سایر ابرداده های توصیفی مانند نویسنده(ها)، عنوان، سال انتشار، اطلاعات مرتبط و لینک دانلود به کاربران نمایش داده می شود.
4. مدل کسب و کار: هزینه و قیمت گذاری
خدمات ارائه شده در بخش 3 بخشی از این مدل کسب و کار خواهد بود که محیط عملیاتی پایدار را برای رادار و همچنین ابزاری برای دانشمندان برای درخواست بودجه مدیریت داده تضمین می کند.
چه کسی هزینه دسترسی عمومی به داده های تحقیقاتی را پرداخت خواهد کرد؟
خدماتی برای حفظ و انتشار خروجی های تحقیقاتی می تواند بخش قابل توجهی از یک استراتژی سازمانی و فرآیند برنامه ریزی بودجه را به خود اختصاص دهد. بودجه اولیه زیرساخت داده ممکن است با افزایش هزینه ها هماهنگ نباشد. این امر اپراتور(های) مخازن داده را وادار می کند تا گزینه های بازیابی هزینه جایگزین و جریان های درآمدی متعدد را در نظر بگیرند. این سوال در سطح جهانی توسط موسسات و رویکردهای مختلف، به عنوان مثال، در بازیابی هزینه داده انتشارات RDA/WDS Interest Group برای مراکز داده [ 14 ] و پروژه APARSEN، که مدلهای مختلف را نقشهبرداری و مقایسه میکند، مورد توجه قرار میگیرد [ 15 ].
بسیاری از مدلهای هزینه در سالهای گذشته در دسترس قرار گرفتهاند و در پروژه اروپایی 4C [ 16 ] کارهای ارزشمند زیادی برای تجزیه و تحلیل این مدلها و توسعه یک ابزار مقایسه هزینه عمومی، یعنی Curation Costs Exchange انجام شده است. یک یافته اصلی از APARSEN [ 15 ] این بود که یافتن یک مبنای مشترک برای مقایسه و تقسیم هزینه ها در سراسر مرزهای ملی و نهادی دشوار است. از آنجایی که مدلهای هزینه کاملاً مختص سازمانهایی هستند که در آن ایجاد شدهاند، از نظر فعالیتها، خدمات و گردش کار متفاوت هستند. مدلهای DANS [ 17 ] و DP4lib [ 18] ابزارهای مفیدی برای توسعه خدمات حفظ شخص ثالث به عنوان جریان درآمد اضافی برای مخازن فراهم می کند. برای رادار، رویکرد “هزینه بر اساس خدمات” را انتخاب کردیم. برگه های محاسباتی به سه مرحله مرکزی (دریافت، پردازش و دسترسی) سرویس مخزن وابسته هستند. این امر استقلال مالی پروژه را از شرکت ها یا مؤسسات شخص ثالث و در نتیجه پایداری طولانی مدت آن تضمین می کند.
بر اساس هزینه های مورد انتظار، یک مدل قیمت گذاری رادار ایجاد شد. مدل قیمت گذاری شامل برنامه های پرداخت سالانه بر اساس قراردادهای سازمانی بسته به حجم ذخیره سازی و مدت زمان مورد نیاز است. این انعطاف پذیری را برای مشتریان سازمانی فراهم می کند، زیرا قراردادها را می توان تنظیم کرد، به عنوان مثال، با حجم داده های مختلف.
یک ابزار تخمین هزینه، هم محققان و هم مؤسسات را قادر میسازد تا قبل از استفاده از هر یک از خدمات ذخیرهسازی ارائه شده، قیمتها را دریافت کنند. با استفاده از این ابزار، رادار فرصت تجزیه و تحلیل هزینه های حفظ داده ها را در مرحله برنامه ریزی پروژه و پیاده سازی این برآوردها در برنامه های مدیریت داده را فراهم می کند. علاوه بر این، محققان تشویق میشوند تا برای دریافت بودجه برای حفظ و انتشار دادههای تحقیقاتی، مظنهها را در طرحهای کمک مالی بگنجانند. با این رویکرد، رادار از نیاز فزاینده نتیجه تحقیق برای دسترسی باز پیروی می کند. مدل قیمت گذاری رادار در صفحه اصلی رادار موجود است: http://www.radar-projekt.org/display/RE/Home .
5. نتیجه گیری و چشم انداز
یک درس مهم این است که دستورات اجباری در علم هنگام تلاش برای افزایش استفاده از مخازن (دادهها) و انتشار دادههای تحقیقاتی مفید نیستند. آشکار شد که اعتماد، همراه با دانش در مورد نگهداری داده ها، و رعایت قوانین عملکرد علمی خوب در سازمان های تحقیقاتی مانند DFG (بنیاد تحقیقات آلمان)، HGF (انجمن هلمهولتز) و MPG (انجمن ماکس پلانک) کلید تشویق است. انگیزه شخصی برای انتشار داده های اولیه و سایر محصولات چرخه تحقیق. علاوه بر این، داده های علمی باید به عنوان انتشارات قابل استناد باشند و به مقاله مربوطه پیوند داده شوند. این به نویسنده این امکان را می دهد که از اعتبار برای انتشار داده ها و افزایش نرخ استناد بهره مند شود. با رادار، ما پروژه ای را برای ایجاد یک زیرساخت داده تحقیقاتی بین رشته ای ارائه می کنیم. خدمات دو مرحلهای جدید و مدل کسبوکار همراه با یک مخزن قابل اعتماد برای محققان، کتابداران، مؤسسات و ناشران کمکی به تضمین دسترسی بهتر، حفظ پایدار و انتشار دادههای پژوهشی برای جوامع علمی کنونی و آینده خواهد کرد. ما قصد داریم تا تابستان 2016 یک سیستم مخزن داده های تحقیقاتی کاربردی ارائه دهیم که شامل خدمات شرح داده شده در این مقاله باشد. مؤسسات و ناشران کمکی برای اطمینان از دسترسی بهتر، حفظ پایدار و انتشار داده های تحقیقاتی برای جوامع علمی فعلی و آینده ارائه خواهند کرد. ما قصد داریم تا تابستان 2016 یک سیستم مخزن داده های تحقیقاتی کاربردی ارائه دهیم که شامل خدمات شرح داده شده در این مقاله باشد. مؤسسات و ناشران کمکی برای اطمینان از دسترسی بهتر، حفظ پایدار و انتشار داده های تحقیقاتی برای جوامع علمی فعلی و آینده ارائه خواهند کرد. ما قصد داریم تا تابستان 2016 یک سیستم مخزن داده های تحقیقاتی کاربردی ارائه دهیم که شامل خدمات شرح داده شده در این مقاله باشد.
منابع
- وایت، جی. استازیس، ا. لیندکویست، سی. مدیریت تغییر در تحویل پروژه های پیچیده: مدیریت پیکربندی، اطلاعات دارایی و “داده های بزرگ”. بین المللی J. Proj. مدیریت 2016 ، 34 ، 339-351. [ Google Scholar ] [ CrossRef ]
- سرمقاله علوم. چالش ها و فرصت ها. Science 2011 ، 331 ، 692-693. [ Google Scholar ]
- هریس، SJ شرکت های راه دور، علوم بزرگ و جغرافیای دانش. در کتاب مطالعات علوم و فناوری پسااستعماری ; هاردینگ، اس.، اد. انتشارات دانشگاه دوک: دورهام، انگلستان، 2011; صص 61-83. [ Google Scholar ]
- Thessen، AE; پترسون، دی جی مسائل مربوط به داده ها در علوم زیستی. Zookeys 2011 ، 150 ، 15-51. [ Google Scholar ] [ CrossRef ] [ PubMed ]
- بنیاد ملی علوم (NSF). دستورالعمل های آماده سازی پروپوزال. در دسترس آنلاین: http://www.nsf.gov/pubs/policydocs/pappguide/nsf11001/gpg_2.jsp#dmp (در 23 نوامبر 2015 قابل دسترسی است).
- Deutsche Forschungsgemeinschaft DFG. حفاظت از عملکرد علمی خوب در توصیه های کمیسیون خود تنظیم حرفه ای در علم ; Wiley-VCH: Hoboken، NJ، USA، 2013; صص 74-76. [ Google Scholar ]
- ترلوار، ا. Harboe-Ree, C. مدیریت داده و پیوستار سرپرستی: چگونه تجربه موناش روابط مخزن را اطلاع رسانی می کند. در مجموعه مقالات چهاردهمین انجمن ویکتوریا برای کنفرانس و نمایشگاه اتوماسیون کتابخانه، ملبورن، VIC، استرالیا، 5 تا 7 فوریه 2008.
- کلمپ، جی. مدیریت زنجیره داده. در دسترس آنلاین: http://oa.helmholtz.de/fileadmin/user_upload/redakteur/Workshops/data_continuum_klump.pdf (در 23 نوامبر 2015 قابل دسترسی است).
- نوروت، اچ. استراتمن، اس. اوسوالد، ا. شفل، آر. کلمپ، جی. لودویگ، J. Langzeitarchivierung von Forschungsdaten-Eine Bestandsaufnahme. موجود به صورت آنلاین: http://nestor.sub.uni-goettingen.de/bestandsaufnahme/nestor_lza_forschungsdaten_bestandsaufnahme.pdf (در 23 نوامبر 2015 قابل دسترسی است).
- Razum، M. بسترهای مخزن. در دسترس آنلاین: https://www.fiz-karlsruhe.de/en/leistungen/e-research/repository-platforms.html (در 8 ژانویه 2016 قابل دسترسی است).
- کمیته مشورتی برای سیستم های داده فضایی. مدل مرجع برای یک سیستم اطلاعات بایگانی باز (OAIS). در دسترس آنلاین: public.ccsds.org/publications/archive/650x0m2.pdf (در 8 ژانویه 2016 قابل دسترسی است).
- DataCite. طرحواره فراداده DataCite برای انتشار و استناد به داده های تحقیق. در دسترس آنلاین: http://schema.datacite.org/meta/kernel-3.1/doc/DataCite-MetadataKernel_v3.1.pdf (دسترسی در 23 نوامبر 2015).
- CreativeCommons.org. CC0 1.0 جهانی (CC0 1.0) اختصاص دامنه عمومی. در دسترس آنلاین: http://creativecommons.org/publicdomain/zero/1.0/deed.en (در 23 نوامبر 2015 قابل دسترسی است).
- RDA/WDS Interest Group Publishing Data Cost Recovery for Data Centres: Income Streams for Data Repositories. در دسترس آنلاین: https://rd-alliance.org/groups/rdawds-publishing-data-cost-recovery-data-centres.html (دسترسی در 14 ژانویه 2016).
- کائور، ک. هرتریش، پی. دالمایر-تیسن، اس. اشمیت، ک. شریمپف، اس. تجلسما، اچ. لامبرت، اس. McMeekin, S. D32.1 گزارش در مورد پارامترهای هزینه برای مخازن دیجیتال. در دسترس آنلاین: http://www.alliancepermanentaccess.org/wp-content/uploads/sites/7/downloads/2014/06/APARSEN-REP-D32_1-01-1_0_incURN.pdf (در 14 ژانویه 2016 دسترسی پیدا کرد).
- همکاری پروژه 4C برای روشن کردن هزینههای مدیریت: D4.5 از هزینهها تا مدلهای تجاری. در دسترس آنلاین: http://4cproject.eu/d4-5-from-costs-to-business-models (در 14 ژانویه 2016 قابل دسترسی است).
- Palaiologk، AS; Economides، AA; Tjalsma، HD; Sesink، LB یک مدل هزینهیابی مبتنی بر فعالیت برای حفظ و انتشار طولانیمدت دادههای تحقیقات دیجیتال: مورد DANS. بین المللی جی دیجیت. Libr 2012 ، 12 ، 195-214. [ Google Scholar ] [ CrossRef ]
- پروژه DP4lib. Kostenmodell für Einen LZA-Dienst. در دسترس آنلاین: http://dp4lib.langzeitarchivierung.de/downloads/DP4lib-Kostenmodell_eines_LZA-Dienstes_v1.0.pdf (دسترسی در 14 ژانویه 2016).

شکل 1. طرح معماری RADAR-Research Data Repository-که ساختار API را نشان می دهد.

شکل 2. طرح ابرداده رادار توصیفی شامل پارامترهای اجباری ( ستون چپ ) و اختیاری ( ستون راست ).

جدول 1. مفاهیم خدمات، نقش ها و وضعیت مجموعه داده سیستم مخزن رادار.
© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons by Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.


بدون نظر