خلاصه
اهمیت داده های باز و مزایایی که می تواند ارائه دهد با امضای منشور داده های باز G8 در ژوئن 2013 در صحنه بین المللی به رسمیت شناخته شده است. نفوذ بیشتری داشته باشد. در بریتانیا، ما شاهد تامین مالی موسسه دادههای باز (ODI) با تعهدی برای حمایت از شرکتهای کوچک و متوسط (SMEs) در شناسایی مزایای استفاده از دادههای باز بودهایم، در حالی که، در HE، بحث دادههای باز در مراحل اولیه است. اگرچه توسط گروه دانشگاهی راسل به عنوان یک چالش بخش پذیرفته شده است. نیاز آشکاری برای جامعه دانشگاهی وجود دارد که بر پذیرش برنامههای کاربردی با استفاده از تکنیکهای داده باز مرتبط در مدیریت داده و ارائه خدمات تأثیر بگذارد.
کلید واژه ها:
داده های باز ؛ داده های پیوندی ؛ کشف خودکار ؛ RDF _ مشخصات داده ; نقشه برداری طرحواره ; ساختارهای داده ؛ خزنده وب ; سند مشخصات سازمان ; OPD
1. معرفی
ایجاد واژگان هماهنگ و قابلیت همکاری در چشمانداز مدیریت دادهها با نیاز به افزایش کارایی در مدیریت و گزارشدهی همراه با مزایای ارزش افزوده بیشتر برای جامعه گستردهتر از دادههای منتشر شده، به یک نیاز فزاینده تبدیل میشود. هدف از «دادههای پیوندی» در این حوزه از علم وب و اینترنت به این صورت توصیف میشود که «توانمند ساختن افراد برای به اشتراک گذاشتن دادههای ساختاریافته در وب به همان راحتی که امروزه میتوانند اسناد را به اشتراک بگذارند» [1 ] . کاربردهای جدیدتر و بحث گسترده تر در مورد تکنیک های داده های پیوندی، ارزش و کاربرد Open Data را بیشتر پیش می برد. اصطلاحی که بیشتر مورد استفاده قرار می گیرد «داده های باز پیوندی» (LOD) است [ 2] که به بهترین وجه میتواند به عنوان دادهای که با استفاده از تکنیکهای داده پیوندی ساختار یافته است و با استفاده از روشهایی منتشر میشود که آنها را برای ماشینها به همان اندازه انسان در دسترس قرار میدهد. اگر قرار است LOD مقدار بهینه خود را ایجاد کند، نه تنها باید مطابق با “پنج ستاره داده های باز” [ 3 ] منتشر شود، بلکه باید به راحتی قابل کشف ماشین باشد.
در چشم انداز با بیش از 1300 ارائه دهنده، بخش آموزش عالی بریتانیا (HE) صدها تعهد گزارش دهی دارد، که بسیاری از آنها قانونی هستند، که اغلب منجر به تکرار در جمع آوری و مدیریت داده ها می شود، و در بسیاری از موارد، استفاده از طیف وسیعی از سیستم های اطلاعاتی مختلف تولید می کند. چالش های قابلیت همکاری برای بسیاری از مؤسسات، هر گزارش جدید، به عنصر قابل توجهی از ورودی دستی در گردآوری یک مجموعه داده جدید نیاز دارد. اگرچه ابتکاراتی مانند برنامه بهبود داده ها و اطلاعات آموزش عالی (HEDIIP) [ 4]، که توسط شورای بودجه آموزش عالی انگلستان (HEFCE) تامین می شود، با هدف ترویج چشم انداز داده های جدید، هنوز نیاز به شناسایی و مدیریت استانداردهای جدید زیربنای توسعه وجود دارد. چنین ابتکاراتی با چالش ها و سؤالات تازه ای همراه است، برای مثال، کدام فناوری و استانداردها مؤثرترین و کارآمدترین رویکرد را ارائه می دهند؟ میتوان گفت که با استانداردهای مناسب، سیستمهای مبتنی بر دادههای باز مرتبط میتوانند زیرساختهای بینسازمانی و بینبخشی انعطافپذیری را ارائه دهند که ارزش بیشتری را از تجمیع دادهها و گزارشدهی ممکن میسازد.
در طول سالهای 2014-2015، دانشگاههای بریتانیا (UUK)، با همکاری موسسه دادههای باز (ODI) [ 5 ]، میزبان مجموعهای از کارگاهها با هدف بهبود درک دادههای باز در سراسر HE و ترویج کاربرد بیشتر رویکردهای دادههای باز مرتبط در دادههای سازمانی بودند. مدیریت. با حضور در تعدادی از این کارگاهها، تیم تجهیزات.داده چالشهای پیش روی، هم در ایجاد دانش کافی از سیستمها و هم درک ارزش در انتشار با استفاده از رویکرد دادههای باز را یادآور شد.
راهاندازی پورتال تجهیزات ملی بریتانیا، تجهیزات.data [ 6 ]، در آوریل 2013، کاربرد فناوری دادههای باز مرتبط را در ارائه خدمات کشف خودکار داده مبتنی بر وب معرفی کرد. برای این فرآیند ضروری است که یک سند نمایه سازمان (OPD) منتشر شود [ 7]. OPD یک سند چارچوب توصیف منبع (RDF) قابل خواندن با ماشین است که در وب سایت یک موسسه شامل نام کامل سازمان، صفحه اصلی، لوگو، مکان مجموعه داده، مجوز و اطلاعات تماس برای مجموعه داده های دسترسی آزاد تعبیه شده است. برخلاف فرآیند کشف داده در بسیاری از سیستمهای تجمیع داده فعلی، به عنوان مثال، CKAN، OPD نیاز به گرفتن دستی مکانهای داده توسط جمعکننده را از بین میبرد. توانایی کشف خودکار مکانهای داده نیز باید توسعه آتی سرویسهای تجمیع دادهها را با استفاده از سیستمهای اختصاصی تکمیل کند و روند کشف دادهها را بیشتر تقویت کند. OPD یک جزء ضروری از فرآیند کشف خودکار است که توسط پورتال تجهیزات تحقیقاتی ملی، تجهیزات.داده استفاده می شود. توسعه آن از حمایت UKRI (RCUK سابق) به عنوان رسانه ترجیحی آن برای تجهیزات ملی برخوردار است.
Equipment.data نشان داده است که یک زیرساخت داده باز مرتبط را میتوان در مقیاسی در سطح بخش پیادهسازی کرد و در این فرآیند مؤلفههای پایه را برای اشتراکگذاری گستردهتر داده ایجاد کرده است. استفاده از دادههای باز پیوندی در چشمانداز مدیریت دادهها در حال رشد است و رویکردهای جدیدی را برای جمعآوری دادهها از طیف وسیعی از قالبها (CSV، Excel، JSON، اسناد RDF) و الگوهای انتشار (APIها، کاتالوگهای داده)، دادههای تعبیهشده در صفحه وب، امکانپذیر میسازد. xls و JSON از رابط های برنامه نویسی کاربردی سیستم (API) سفارشی صادر می کنند.
2. تجهیزات.data چگونه تکامل یافت؟
توسعه تجهیزات.داده توسط EPSRC در پاسخ به نیاز به بهبود دید و استفاده از تجهیزات تحقیقاتی HE در انگلستان پس از بررسی کارایی Wakeham در HE [ 8 ] تامین شد. یک ابزار ساده و قابل تکرار به راحتی امکان کشف و تجمیع پایگاه های داده تجهیزات تحقیقاتی بریتانیا را در یک پورتال قابل جستجو فراهم می کند. توسعه تجهیزات تجهیزات مبتنی بر مشارکت بین تعدادی از دانشگاههای بریتانیا است که در درجه اول بر اساس نتایج پروژه UNIQUIP، تعریف استانداردهایی برای انتشار تجهیزات تحقیقاتی و دادههای تجهیزات [ 9 ] است.
با استفاده از فرآیند مورد استفاده توسط تجهیزات.داده برای تجمیع تجهیزات تحقیقاتی منتشر شده ( شکل 1 )، کشف خودکار داده ها فقط به چهار جزء کلیدی نیاز دارد:
-
فهرست معتبری از صفحات اصلی سازمان که میخواهید دادهها را از آنها دریافت کنید، به عنوان مثال، فهرست .ac.uk از شبکه JANET HE [ 10 ]، که توسط سرویس تجهیزات.داده استفاده میشود، یا از طریق استفاده از یک سیستم شناسه پل مانند ISNI [ 11 ] که روشی برای پیوند دادن به مجموعه داده ای از دامنه های وب انتخاب شده ارائه می دهد. وب سایت opd.data.ac.uk همچنین حاوی لیستی از OPD های HE است که صفحات اصلی وب را فهرست می کند.
-
نرم افزار کشف خودکار و تجمیع میزبانی شده توسط سازمان درخواست کننده. ابزارهایی که تجهیزات.داده را قادر می سازد تا داده ها را کشف و تجمیع کند در یک مخزن کد منتشر می شوند [ 12 ].
-
الزامی که همه سازمانهایی که دادهها را منتشر میکنند، میزبان یک ماشین فعالکننده OPD/کشف خودکار پروفایلهای دادهشان باشند، و
-
داده ها در یک نمایه استاندارد مورد نیاز مدیریت می شوند، به عنوان مثال، UNIQUIP، ORCID، نمایه فراداده خروجی های تحقیقاتی که توسط گروه کاری استانداردهای فراداده RDA [13 ] توسعه یافته است و به طور ایده آل از طریق یک سازمان استاندارد مدیریت می شود، به عنوان مثال، کنسرسیوم استانداردهای پیشرفته در اطلاعات مدیریت تحقیقات ( CASRAI) [ 14 ] یا کنسرسیوم وب جهانی (W3C) [ 15 ].
3. اهمیت OPD
OPD، از جمله پیوند تعبیهشده مرتبط در صفحه اصلی، فعالکننده کلیدی برای فرآیند کشف خودکار دادهها است، بهجای روشهای واردشده دستی فعلی کشف مجموعه دادهها که در بسیاری از انباشتههای داده استفاده میشود، بهعنوان مثال، نیاز به اعلان دادهها، مکانهای دادهها را با ماشین کشف میکند. (OAI-PMH) مکان های نقطه پایانی به یک جمع کننده داده. OPD یک توصیف رسمی، قابل خواندن و مدیریت شده توسط ماشین از سازمان ارائه می دهد و آنچه منتشر می شود و مکان/های داده ها (کاتالوگ مجموعه داده ها) را بیان می کند. این اطلاعات ضروری سازمانی را ارائه می دهد که تأیید می کند که چه کسی است، به عنوان مثال، شناسه سازمان، نام رسمی، نوع سازمان، آرم رسمی و موقعیت جغرافیایی. یک ویژگی اساسی اعتمادی است که می توان به داده های یافت شده از طریق OPD کرد.
برای اینکه پروژه تجهیزات.داده به هدف خود یعنی یک سیستم کاملاً پایدار برسد، به روشی برای به روز رسانی منابع تا حد امکان کارآمد با حداقل یا بدون دخالت انسانی نیاز داشت. برای تشویق پذیرش یک روش مشارکت پایدار، این سرویس یک سیستم رتبه بندی انطباق [ 17 ] با رتبه بندی طلا، نقره و برنز ایجاد کرد تا نشان دهد ورودی داده های هر موسسه مشارکت کننده تا چه سطحی پایدار است ( شکل 2 ).
با انتشار یک OPD سازگار با «طلا» کاملاً قابل کشف خودکار، هرگونه تغییر در دادهها، که میتواند شامل تغییر نشانواره مؤسسه برای انتقال منبع داده خود از یک سیستم به سیستم دیگر باشد، در OPD منعکس میشود. وضعیت ایده آل برای خدمات کشف داده ها این است که همه مؤسسات با استفاده از یک OPD کاملاً خودکار کشف شونده با رتبه انطباق طلا کار می کنند، بنابراین هیچ مداخله انسانی از طرف مؤسسه مشارکت کننده یا سرویس کشف در به روز رسانی اطلاعات لازم نیست زیرا به طور خودکار شناسایی می شود. توسط OPD
همانطور که استفاده گسترده از OPD افزایش می یابد، چالش ایجاد مالکیت و حاکمیت مناسب OPD در سازمان ها خواهد بود. ممکن است منطقی باشد که این بخش بازاریابی و ارتباطات باشد که معمولاً مسئول وب سایت یک سازمان (صفحه اصلی) خواهد بود و بنابراین می تواند محتوای OPD و/یا پیوند به OPD را مدیریت کند. با توجه به تمرکز بر داده های تجهیزات تحقیقاتی، تیم خدمات تجهیزات.داده عمدتاً با کارکنان دفاتر پشتیبانی تحقیقاتی و بخش های فناوری اطلاعات کار می کرد. با این حال، با ایجاد پیوندهای بیشتر به مجموعه دادههای ساختاریافته و گسترش استفاده از OPD، مالکیت میتواند به مسئولیت بخشهای بازاریابی و ارتباطات یا فناوری اطلاعات تبدیل شود. برای توانمندسازی تصمیمات پیرامون حکمرانی، این بخش به اعتماد بیشتری به این فناوری نوظهور نیاز دارد.18 ].
4. ساختار یک OPD
OPD از RDF برای توصیف سازمان به شکل قابل خواندن ماشینی استفاده می کند که به بسیاری از اصطلاحات و واژگان استاندارد به خوبی تثبیت شده ارجاع می دهد. اطلاعات Core از استانداردهای OpenOrg، Dublin Core، W3C و واژگان FOAF RDF استفاده می کند. در انجام این کار، OPD از تعریف اصطلاحات جدید که نیاز به مدیریت و پذیرش در یک استاندارد جدید یا موجود دارد، اجتناب می کند. پیشبینی میشود که هر مجموعه داده فهرستشده در یک OPD در یک نمایه/استاندارد مورد توافق منتشر شود، به عنوان مثال، مکانهای خروجی تحقیقات مطابق با استاندارد OAI-PMH.
یک OPD به دو بخش مجزا تقسیم می شود. اولی ساختار اساسی [ 19 ]، اطلاعات “هسته” است که سازمان را توصیف می کند، دومی یک جزء قابل توسعه است که مجموعه داده هایی را که سازمان منتشر می کند توصیف می کند. اساساً مؤلفه دوم «کاتالوگ» از مجموعه دادههای باز قابل کشف است که در پروفایلهای داده/برنامههای تعریف شده موجود است. مکان های داده، به عنوان مثال، URL ها، یک مخاطب برای هر مجموعه داده و مجوز قابل استفاده برای استفاده مجدد از آن را ارائه می دهد.
حداقل داده های توصیه شده در اطلاعات اصلی OPD شامل URI سازمان، والدین یا سازمان های فرعی، موقعیت جغرافیایی و اطلاعات تماس اولیه است. این سند معمولاً در قالب Turtle است که به یک سند RDF اجازه می دهد تا به طور کامل در یک فرم متن فشرده و طبیعی با اختصارات الگوهای استفاده رایج و انواع داده نوشته شود ( شکل 3 ).
روش مورد استفاده برای فعال کردن کشف خودکار OPD به پیوندی در سربرگ صفحه اصلی سازمان نیاز دارد ( شکل 4 ).
این پیوند در هدر html مکان برنامههای کشف OPD را فراهم میکند، “خزندههای وب”، برای بازجویی از OPD و جمعآوری دادهها مطابق با معیارهای تعیینشده در جستارشان. آنچه که OPD برای خزندههای وب ارائه میکند، یک کاتالوگ معتبر قابل کشف از LOD است، بهعنوان مثال، دادهها و مکانهای دادهها در «پروفایلهای داده» تعریفشده، بهعنوان مثال، مشخصات انتشار داده UNIQUIP که توسط تجهیزات.داده استفاده میشود، بنابراین کشف دادهها را بهطور قابلتوجهی کارآمدتر و اساسیتر میکند. افزودن ارزش به داده ها باعث می شود مجموعه داده های استاندارد شده به راحتی جمع شوند.
اگر تغییر در هدر صفحه اصلی html یک سازمان امکان پذیر نباشد، برنامه کشف توسعه داده شده است تا بتوان از روش .well-known [ 20 ] استفاده کرد. این روش از یک URL خاص از صفحه اصلی سازمان برای پیوند دادن به سند نمایه استفاده می کند، به عنوان مثال، اگر صفحه اصلی http://www.example.ac.uk است ، سپس http://www.example.ac.uk/.well- شناخته شده/openorg باید به OPD خدمت کند (یا به آن هدایت شود).
5. نیاز به نمایه های داده های مدیریت شده با اجماع
فراتر از تجمیع دادههای تجهیزات و ساختار URI سازمانی “Linking you” [ 21] گسترش انتشار باز و تجمیع دادهها در فرمهای ساختاریافته به مکانیسمهایی برای مدیریت و توافق با پروفایلهای داده نیاز دارد. برای دستیابی به تجمیع دادههای معنادار، این پروفایلهای داده مدیریتشده مورد نیاز خواهند بود. بدیهی است که پتانسیل بیشتری برای پیشبرد پذیرش کشف خودکار دادهها، بهرهبرداری از زیرساختهای رو به رشد کنونی HE در بریتانیا در تجمیع مجموعههای داده دیگر وجود دارد که در آن اجماع و/یا یک نمایه مورد توافق وجود دارد، بهعنوان مثال، دادههای خروجی تحقیقات از طریق OAI-PMH، که پیشرفتهای قابل توجهی را ارائه میکند. به قابلیت کشف و دسترسی به داده های تحقیق. با این حال، برای انجام این کار یک مانع دیگر وجود دارد – نیاز به توافق در مورد معنایی و ساختار سایر مجموعههای داده. بیزر و برنرز لی تصدیق کردند [ 22] که توسعه زبانهای استانداردی که «نقشهبندی طرحواره» و «تلفیقی دادهها» را با جزئیات ارائه میکنند، یعنی امکان تجمیع چنین مجموعههای دادهای یک مسئله است. با کمال تعجب، این موضوع تا حد زیادی به دلیل پیچیدگی مالکیت و حاکمیت، همچنان یک چالش است. سازمان CASRAI تصمیم گرفته است تا به مرجع هماهنگ کننده برای مدیریت چنین نقشهبرداریهای طرحوارهای تبدیل شود – آنها را به عنوان «نمایههای داده» تعریف میکند، که در صورت توافق در فرهنگ لغت آنلاین اطلاعات مدیریت تحقیقات ثبت میشوند. علاوه بر این، ایجاد آینده پروفایل های بزرگ داده، یا تجمیع برای اهداف گزارشگری، مستلزم مالکیت سازمان های مناسبی است که آماده هستند تا از طریق ایجاد اجماع جامعه تا مدیریت توسط نهادهای استاندارد، منابع حاکمیت خود را تامین کنند.
این نمایهها فیلدهایی را که برای توصیف محتوای مجموعه دادهها و/یا بخشی از یک مجموعه داده کاملتر استفاده میشوند، تعریف میکنند، به عنوان مثال، فرادادهای که امکان شناسایی ورودی در مجموعه داده را فراهم میکند. UK HE در حال اجرای آزمایشی پاسخی به این چالش از طریق خلبان CASRAI UK با بودجه Jisc است [ 23 ]. مانند نمایه داده توسعه یافته جامعه، مشخصات انتشار داده UNIQUIP CASRAI یک “فرهنگ لغت” مدیریت شده از اصطلاحات مجموعه داده را در اختیار جامعه قرار می دهد. پذیرش بلندمدت بینالمللی استانداردهایی مانند CASRAI مکانیسمهایی را برای ایجاد و کشف مجموعه دادههای ساختاریافته فراهم میکند. این مفهوم توسط بیکر و کاکس در مقاله کوتاه «دکمهها به چراغها» [ 24 ] مورد بحث قرار گرفته است.
6. بازنگری در گردش کار
زیرساخت اصلی برای کشف و به اشتراک گذاری داده ها در حال حاضر تا حد زیادی در HE انگلستان با تصویب OPD تعریف شده است. سادگی این زیرساخت امکان مقیاسپذیری آسان را فراهم میآورد، به شرطی که حاکمیت مشخصی وجود داشته باشد که توسعه مدیریتشده و استانداردهای مناسب را برای اعمال سایر پروفایلهای داده در حین ایجاد امکان میدهد.
پس از انتشار یک OPD نباید به تعمیر و نگهداری مداوم قابل توجهی به جز اصلاح مکان های داده یا اطلاعات تماس مجموعه داده نیاز داشته باشد. احتمالاً ذینفعان زیادی وجود دارند که مسئولیت حفظ مکان های داده در OPD را بر عهده دارند که سؤالات مهمی را در رابطه با نگهداری و گردش کار ایجاد می کند:
-
چه کسی مسئول پیوند صفحه اصلی OPD و میزبانی OPD است؟
-
آیا رویه های مناسب برای شناسایی مسئولیت های ذینفعان وجود دارد؟
-
آیا درک کافی از مسائل انتشار، به عنوان مثال، ریسک و مجوز وجود دارد؟
استفاده گستردهتر از OPD بهعنوان استانداردی برای کشف خودکار دادهها، تمرکز بیشتری را بر الزام ایجاد مالکیت و حاکمیت مناسب بر سند و مجموعههای داده مرتبط خواهد داشت. همانطور که قبلاً ذکر شد، ممکن است منطقی باشد که بخش بازاریابی و ارتباطات شما معمولاً مسئول وب سایت شما (صفحه اصلی) خواهد بود و بنابراین می تواند اطمینان حاصل کند که پیوند به OPD حفظ شده و در مستندات ساخت وب سایت توضیح داده شده است. در انگلستان، مدیریت یک OPD در یک سازمان می تواند به طور منطقی با مدیریت داده های تحقیقاتی سازمان “در جلوی خانه”، به عنوان مثال، کتابخانه باشد. همچنین ممکن است تعریف مدیریت و نگهداری در استراتژی برنامه ریزی مدیریت داده یا خط مشی موسسه عملی باشد.
برای کسانی که دادهها را منتشر میکنند یا به انتشار دادهها فکر میکنند، نیاز به درک گردش کار مرتبط با آن دادهها وجود دارد. چه کسی مسئول داده ها است؟ آیا آنها کاربرد اضافی و مجوزی که باید اعمال شود را درک می کنند؟ آیا آنها نیاز دارند—چرا اگر خطری وجود ندارد منتشر نکنند؟ آیا داده ها به نمایه مورد توافق نگاشت می شوند؟ اگر این کار را انجام دهد، ارزش بیشتری را در کاربرد آن در استفاده های بعدی، به عنوان مثال، در تجزیه و تحلیل، فراهم می کند. ( شکل 5 )، در زیر، گردش کار معمولی و مسیرهای ممکن برای انتشار داده های تجهیزات تحقیقاتی را نشان می دهد که امکان کشف توسط سرویس تجهیزات.داده را فراهم می کند. برای این مجموعه داده ساده، بدیهی است که تعدادی از ذینفعان، از جمله تدارکات، امور مالی، دفاتر پشتیبانی تحقیقاتی و مسئولین وب سایت سازمانی وجود دارد.
هدف بسیاری از فروشندگان سیستم این است که اطمینان حاصل کنند که سیستم آنها با استانداردهای بخش مطابقت دارد یا مطابق با استانداردهای بخش است و در صورت لزوم بخش را برای اطمینان از این امر درگیر می کنند، برای مثال الزویر از طریق گروه کاربر خالص با HE UK تعامل می کند، که فعالانه از توسعه با تمرکز بر خروجی های تحقیقاتی پشتیبانی می کند. فراداده و مشخصات تجهیزات ارائه یک سیستم دارای سطح مشابهی از پشتیبانی برای انتشار باز، به احتمال بسیار زیاد کارکنان باید فقط باید اطمینان حاصل کنند که داده ها از کیفیت مناسب برای استفاده آنها برخوردار هستند و خطرات مرتبط با انتشار در نظر گرفته می شود.
7. نتیجه گیری
OPD با موفقیت اولیه پروژه تجهیزات، ثابت کرده است که در یک حوزه موضوعی کوچک موفق است. دادهها نشان میدهد که یک سرویس تجمیع دادهها را میتوان با استفاده از یک زیرساخت ساخته شده در اطراف OPD ایجاد کرد. در زمان تهیه این مقاله، 36 سازمان در آموزش عالی انگلستان OPD را منتشر میکنند، 31 سازمان کاملاً خودکار، یعنی به درجه انطباق طلایی تجهیزات. دادهها دست یافتهاند. با توجه به این موفقیت و پایداری که برای جمعآوری دادهها ارائه میکند، مرکز ملی دانشگاهها و کسبوکارها (NCUB) دادهها را از api جمعآوری دادههای کامل OPD در توسعه یک ابزار جستجوی اطلاعات هوشمند و کارگزاری متمرکز بر صنعت وارد میکند. با این حال، اشاره شده است که تعامل این بخش با دادههای تجهیزات تا حد زیادی ناشی از یک تعهد “سیاست” بوده است. با موفقیت در پذیرش، به عنوان “الزام ورود فنی پایین” برای مشارکت و اطمینان از اینکه پشتیبانی فنی از طریق پروژه اجرا در دسترس است، ذکر شد. چنین عواملی باید همراه با اندازه گیری جذب بالقوه در توسعه هر گونه کشف داده های آینده با استفاده از زیرساخت OPD در نظر گرفته شوند.
برای اینکه بخش HE و در واقع صنعت گسترده تر به پذیرش چنین فناوری های داده باز اعتماد داشته باشند، مهارت های لازم در سازمان ها مورد نیاز است. در سال 2009 Siorpaes و Simperl [ 25] (ص 33) اشاره کرد، “امروزه تعامل با فناوری های معنایی نیازمند مهارت ها و تخصص های خاصی است که بخشی از مجموعه اصلی دانش فناوری اطلاعات نیست”. این موضوع هنوز هم در مورد تعداد انگشت شماری از دانشگاه های بریتانیا وجود دارد که ماژول های آموزش داده های باز را ارائه می دهند و ODI بر آموزش داده های باز خاص صنعت تمرکز دارد. بنابراین احتمالاً جای تعجب نیست که در حال حاضر بحث آکادمیک محدودی در مورد رویکردهای استاندارد شده برای کشف داده وجود دارد، و معرفی رویکردی برای کشف خودکار داده مانند OPD را چالش برانگیز می کند. بحث را می توان از طریق پذیرش OPD به عنوان یک گروه جامعه W3C تشویق کرد که همچنین ممکن است بحث و پذیرش گسترده تر LOD و کشف داده ها را پیش ببرد.
اگرچه اشاره نشده است، اما به طور گسترده توسط مدیران داده تصدیق می شود که ارزیابی همه کاربران بالقوه داده های منتشر شده آشکار غیرممکن است، زیرا برخی از کاربران به طیف گسترده ای از داده ها علاقه مند هستند، بنابراین داده های خارج از یک نمایه داده تعریف شده می تواند مورد توجه باشد. بنابراین تصمیم ممکن است انتشار تمام فیلدهای اطلاعاتی در یک مجموعه داده معین باشد، به عنوان مثال، هر دو به یک نمایه داده توافق شده و آنهایی که خارج از نمایه ساختار یافته اند. ما در حال حاضر سیستمهایی را میبینیم که برای جمعآوری دادهها در پروفایلهای ساختاریافته قادر به اعتبارسنجی دادهها و استخراج دادهها در نمایه مشخص شده و نادیده گرفتن فیلدهای خارج از نمایه هستیم. این درگیری و روند توسعه احتمالاً ادامه مییابد و استفاده رو به رشد از سیستمهای مبتنی بر LOD را تحسین میکند و باعث میشود تا توجه بیشتر به جریان کاری که از آنها پشتیبانی میکند، تشویق شود.
دارندگان خدماتی که تجمیع دادهها را برای اهداف گزارشدهی یا ارائه قابلیت جستجو در نظر میگیرند، نیازمند آگاهی از چالشهای مدیریت دادهها هستند که جریانهای کاری سازمانی میتوانند ارائه دهند، از جمله حفظ کیفیت داده، مالکیت و دسترسی. با این حال، دادههای کشفشده از طریق یک OPD به جمعآورندگان داده نشان میدهد که دادههای منتشر شده مطابق با یک پروفایل داده استاندارد است، یک فرد مسئول دادهها دارد و مجوز اعمال شده برای دادهها را مشخص میکند، بنابراین، سطح یکپارچگی را در فرآیند مدیریت داده نشان میدهد. . تضمین یک استاندارد بین المللی برای OPD، به عنوان مثال، تبدیل شدن به یک گروه و/یا استاندارد جامعه W3C، در کنار ثبت در فرهنگ لغت CASRAI، بدون شک اطمینان بیشتری را برای پذیرندگان آینده این فناوری ایجاد خواهد کرد.
هنوز خیلی زود است که بتوان تأثیر انتشار باز و استفاده مجدد از داده ها را به هر نحوی قابل اندازه گیری ارزیابی کرد، ویرایش دوم «فشار سنج داده باز» [ 26] .] خاطرنشان میکند: «در حالی که «چادر بزرگ» دادههای باز، جامعه دادههای باز به خوبی شبکهشده، و در دسترس بودن راهنماها، ابزارها و فنآوریهای مشترک، همگی به گسترش سریع مفهوم دادههای باز کمک کردهاند، بهترین روش واحد برای آن وجود ندارد. ارائه یک ابتکار داده باز». این چالشها توسط چالشهایی که در این مقاله مورد بحث قرار گرفت، تکرار میشوند. فرصتهای بسیار خوبی برای سازمانها وجود دارد تا از دادههایی که قبلاً ایجاد و مدیریت میکنند، ارزش بیشتری کسب کنند، دادههای تجهیزات از قبل پتانسیل جمعآوری و استفاده مجدد از دادههای تجهیزات تحقیقاتی منتشر شده در سازمان را نشان میدهند. برای بهرهبرداری کاملتر از این فرصتها، نیاز به آگاهی و کاربرد بیشتر مفاهیم دادههای باز، مانند کیفیت، صدور مجوز و اساساً قابل کشف است، جایی که نقش بسیار واضحی برای OPD وجود دارد.
منابع
- نحوه انتشار داده های پیوندی در وب در دسترس آنلاین: http://wifo5–03.informatik.uni-mannheim.de/bizer/pub/LinkedDataTutorial/ (دسترسی در 5 ژوئیه 2016).
- میچل، ای. بلوکهای ساختمان دادههای باز مرتبط در کتابخانهها. 2013. در دسترس آنلاین: https://journals.ala.org/ltr/article/view/4692/5584 (در تاریخ 5 ژوئیه 2016 قابل دسترسی است).
- برنرز لی، تی. پنج شروع داده های باز. در دسترس آنلاین: http://www.w3.org/DesignIssues/LinkedData.html (در 5 ژوئیه 2016 در دسترس است).
- برنامه بهبود داده ها و اطلاعات آموزش عالی (HEDIIP). “چشم انداز جدید”. در دسترس آنلاین: http://www.hediip.ac.uk/about-hediip/ (دسترسی در 5 ژوئیه 2016).
- موسسه داده های باز در دسترس آنلاین: http://opendatainstitute.org/ (دسترسی در 5 ژوئیه 2016).
- تجهیزات.داده. پورتال ملی تجهیزات تحقیقاتی بریتانیا در دسترس آنلاین: http://equipment.data.ac.uk/ (دسترسی در 5 ژوئیه 2016).
- سند نمایه سازمان (OPD). در دسترس آنلاین: http://opd.data.ac.uk (در 5 ژوئیه 2016 قابل دسترسی است).
- بررسی Wakeham، W. Wakeham-پایداری مالی و کارایی در هزینه تمام شده اقتصادی تحقیقات در مؤسسات آموزش عالی انگلستان. 2010. در دسترس آنلاین: http://www.rcuk.ac.uk/research/efficiency/efficiency2011/ (در تاریخ 5 ژوئیه 2016 قابل دسترسی است).
- پروژه UNIQUIP. در دسترس آنلاین: http://www.uniquip.ecs.soton.ac.uk/ (دسترسی در 5 ژوئیه 2016).
- شبکه JANET. در دسترس آنلاین: https://www.jisc.ac.uk/janet (در 5 ژوئیه 2016 قابل دسترسی است).
- MacEwan، A.; انگلیب، ع. گاتنبی، جی. شناسه استاندارد بین المللی نام (ISNI): آینده در حال تحول کنترل نام مرجع. کاتال. طبقه بندی. Q. 2012 ، 51 ، 55-71. [ Google Scholar ] [ CrossRef ]
- Github, Equipment.Data Autodiscovery Programming. در دسترس آنلاین: https://github.com/data-ac-uk/equipment (در 5 ژوئیه 2016 قابل دسترسی است).
- اتحاد داده های پژوهشی (RDA)، گروه کاری فهرست استانداردهای فراداده. در دسترس آنلاین: https://rd-alliance.org/groups/metadata-standards-directory-working-group.html (دسترسی در 5 ژوئیه 2016).
- استانداردهای پیشرفت کنسرسیوم در اطلاعات مدیریت تحقیقات (CASRAI). در دسترس آنلاین: http://casrai.org/about (دسترسی در 5 ژوئیه 2016).
- کنسرسیوم وب جهانی (W3C). در دسترس آنلاین: http://www.w3.org/ (دسترسی در 5 ژوئیه 2016).
- کاکس، ای. میلستد، ا. گاتریج، سی. کشف خودکار دادههای باز پیوندی – نیاز به استانداردها. در مجموعه مقالات پنجمین جلسه عمومی اتحاد داده های پژوهشی، سن دیگو، کالیفرنیا، ایالات متحده آمریکا، 8 تا 11 مارس 2015.
- انطباق با کشف داده های تجهیزات. در دسترس آنلاین: http://equipment.data.ac.uk/compliance (در 5 ژوئیه 2016 قابل دسترسی است).
- سند نمایه سازمان گروه جامعه W3C. در دسترس آنلاین: https://www.w3.org/community/opd/ (در 5 ژوئیه 2016 قابل دسترسی است).
- مستندات: ساختار پایه. در دسترس آنلاین: http://opd.data.ac.uk/docs/core (در 5 ژوئیه 2016 قابل دسترسی است).
- ناتینگهام، ام. Hammer-Lahav، E. تعریف شناسه های منبع یکنواخت شناخته شده (URI). 2010. موجود به صورت آنلاین: http://tools.ietf.org/html/rfc5785?chocaid=397 (در 5 ژوئیه 2016 در دسترس است).
- مجموعه ابزار Linking You. در دسترس آنلاین: http://lncn.eu/toolkit (در 5 ژوئیه 2016 قابل دسترسی است).
- بیزر، سی. هیث، تی. برنرز لی، تی. داده های پیوندی – داستان تاکنون. 2009. موجود به صورت آنلاین: http://www.igi-global.com/gateway/article/37496 (در 5 ژوئیه 2016 قابل دسترسی است).
- جیسک پروژه آزمایشی CASRAI انگلستان. در دسترس آنلاین: http://www.jisc.ac.uk/whatwedo/programmes/di_researchmanagement/researchinformation/casraipilot.aspx (در 5 ژوئیه 2016 قابل دسترسی است).
- Archive Newsletters Equipment.Data. در دسترس آنلاین: http://equipment.data.ac.uk/newsletters/issue4/beacons (در 5 ژوئیه 2016 قابل دسترسی است).
- Siorpaes، K. سیمپرل، ای. هوش انسانی در فرآیند ایجاد محتوای معنایی. وب جهانی وحشی 2010 ، 13 ، 33-59. [ Google Scholar ] [ CrossRef ]
- بنیاد وب. فشارسنج داده های باز ، ویرایش دوم. بنیاد وب: واشنگتن، دی سی، ایالات متحده آمریکا، 2015. [ Google Scholar ]

شکل 1. مدل ساده برای کشف داده ها با استفاده از OPD. منبع: چکیده از پوستر ارسال شده به 5th Plenary اتحاد پژوهشی، سن دیگو [ 16 ]. حق چاپ: آدریان جی ام کاکس، دانشگاه ساوتهمپتون، 2015.

شکل 2. رتبه بندی مطابقت اعمال شده برای کشف داده ها.

شکل 3. ساختار اصلی OPD.

شکل 4. لینک هدر html صفحه اصلی.

شکل 5. گردش کار داده های تجهیزات – انتشار داده های تجهیزات در HE.
© 2016 توسط نویسندگان؛ دارنده مجوز MDPI، بازل، سوئیس. این مقاله یک مقاله با دسترسی آزاد است که تحت شرایط و ضوابط مجوز Creative Commons Attribution (CC-BY) (http://creativecommons.org/licenses/by/4.0/) توزیع شده است.


بدون نظر