مفهوم انبار دادهها به اواخر دههی ۱۹۸۰ زمانی که محققان IBM، "بری دولین" و" پل مورفی"، "کسب و کار انبار دادهها" را توسعه دادند، باز می گردد.
در اصل، مفهوم انبار دادهها با هدف ارائه یک مدل معماری، برای جریان دادهها از سیستمهای عملیاتی به محیط پشتیبان تصمیمگیری در نظر گرفته شده بود.
این مفهوم تلاش می کرد تا به مسائل مختلف در ارتباط با این جریان و عمدتاً هزینههای بالای مربوط به آن رسیدگی نماید.
در صورت فقدان معماری انبار دادهها، در محیطهای پشتیبان تصمیمگیری چندگانه، مقدار زیادی از افزونگی لازم بود.
در شرکتهای بزرگتر، با توجه به متعدد بودن محیطهای پشتیبان تصمیمگیری معمولا کار بر روی آنها به طور مستقل انجام میشد.
اگر چه هر محیطی به کاربران مختلفی خدمت میکرد، با این وجود، اغلب آنها انبار دادههای مشابهی را نیاز دارا بودند. معمولا فرآیند جمعآوری، پاکسازی و یکپارچهسازی دادهها از منابع مختلف در همه محیطها بخشی تکراری بود.
علاوه بر این، سیستم عاملها مکررا تست میشدند تا مطابق با نیازهای پشتیبان تصمیمگیری به وجود آمدند.
اغلب نیازهای جدید، اجرای جمعآوری، پاکسازی و یکپارچهسازی دادههای جدید را در"Data Marts" که توسط کاربران طراحی و کنترل میشدند، ضروری میساخت.
انبار داده به یک بانک اطلاعاتی وسیع گفته میشود که از طریق آن مدیران به تمامی دادههای سازمان از گذشته تا حال برای تهیه گزارش و تجزیه وتحلیل دسترسی دارند، در نتیجه انبار داده نقشی پر رنگ در اتخاذ تصمیمات استراتژیک مدیران ایفا میکند.
ممکن است دادهها قبل از قرارگیری بر روی انبار داده در یک فضای عملیاتی کوچکتر (Operational Data Store) قرار گیرند تا پردازش بر روی آنها انجام گیرد.
انبار داده بر سه لایه staging، Integration و Presentation استوار است، به این ترتیب که دادههای خامی که از منابع اطلاعاتی مختلف به دست آمدهاند در لایه Staging قرار میگیرد.
در لایه بعدی یا Integration دادهها از نظر یکنواختی (نرمالسازی، حذف افزونگی و ...) مورد بررسی قرار میگیرند.
و در لایه آخر یا Presentation دادهها برای موارد مختلفی همچون گزارشگیری در دسترس کاربران قرار میگیرد.
انواع سیستمها
Data Mart
Data Mart یک فرم ساده از یک انبار دادهها است که در مورد یک موضوع واحد از قبیل فروش، امور مالی یا بازاریابی متمرکز است. Data Mart اغلب توسط یک بخش از سازمان ساخته و کنترل میشود. با توجه به تمرکز Data Mart بر روی یک موضوع، معمولا دادههای تعداد محدودی از منابع را ترسیم میکند. این منابع می توانند سیستمهای عملیاتی داخلی، یک انبار داده مرکزی، و یا دادههای خارجی باشند.
پردازش تحلیلی آنلاین (OLAP)
با حجم نسبتا کمی از مبادلات توصیف میشوند. اغلب شامل پرس و جوهای بسیار پیچیده و تجمیعها هستند. برای سیستمهای OLAP، زمان پاسخ، یک شاخص اندازهگیری است. برنامههای OLAP به طور گستردهای توسط تکنیکهای دادهکاوی استفاده میشوند. معمولا تأخیر سیستمهای OLAP در حد چند ساعت است، در مقایسه با Data Mart ها که تأخیری نزدیک به یک روز دارند. (برای کسب اطلاعات بیشتر، مطلب OLAP را مطالعه نمایید)
پردازش تراکنش آنلاین (OLTP)
با حجم زیادی از تراکنشهای خطی کوتاه (از قبیل حذف (DELETE)، به روز رسانی (UPDATE) و افزودن (INSERT)) توصیف میشود. سیستمهای OLTP بر روی پردازش پرس و جوهای بسیار سریع و حفظ تمامیت دادهها در محیطهای Multi Access تأکید دارد. اندازهگیری تعداد تراکنشها در هر ثانیه برای سیستمهای OLTP مؤثر است. پایگاههای داده OLTP حاوی اطلاعات دقیق و جاری است. طرحی که برای ذخیره پایگاه دادههای تراکنشی استفاده میشود مدل موجودیتی(entity Model) ( عموما ۳NF) است.
تجزیه و تحلیل پیشبینی شده
تجزیه و تحلیل پیشبینی شده در مورد پیداکردن و تعیین کمیت الگوهای پنهان در دادهها با استفاده از مدلهای پیچیده ریاضی است که میتواند برای پیشبینی نتایج آینده استفاده شود. تجزیه و تحلیل پیشبینی شده متفاوت از OLAP است، چرا که OLAP بر روی تجزیه و تحلیل دادههای تاریخی و واکنش طبیعی آنها تمرکز دارد، در حالی که تجزیه و تحلیل پیشبینی شده تمرکزش بر آینده است. این سیستمها نیز برای مدیریت ارتباط با مشتری (CRM: Customer Relationship Management) مورد استفاده قرار میگیرند.
مزایا
یک انبار داده یک کپی از اطلاعات سیستمهای عملیاتی را در بر دارد. این پیچیدگی معماری این فرصت را فراهم میکند که:
-با تجمیع دادهها از منابع متعدد درون یک پایگاه داده برای ارائه دادهها میتوان تنها از یک موتور پرس و جو استفاده کرد.
-مشکلات قفل شدن پایگاه داده سیستمهای عملیاتی با جداسازی اجراهای بزرگ، طولانی و تجزیه و تحلیل پرسوجوها از پایگاه دادههای عملیاتی را کاهش داد.
-حفظ تاریخچه داده، حتی اگر سیستمهای عملیاتی این داده ها را نگهداری نکنند، محقق می گردد.
-با ادغام دادههای سیستمهای عملیاتی متعدد، توانایی ارائه دید متمرکز از تمامی دادههای شرکت را خواهیم داشت. این مزیت همیشه ارزشمند است، به ویژه برای سازمانهایی که با این ادغام رشد میکنند (مانند هولدینگها).
-بهبود کیفیت دادهها، با ارائه کد سازگار و توضیحات، نشانهگذاری یا حتی رفع مشکل دادههای اشتباه فراهم می شود.
-اطلاعات سازمان به طور مداوم ارائه می گردد.
-یک مدل داده مشترک برای همه اطلاعات مفید صرف نظر ار منابع داده نمود می یابد.
-بازسازی دادهها به طوری که باعث سادهسازی برقراری ارتباط کاربران با دادهها شود.
-بازسازی دادهها به طوری که باعث بهتر شدن عملکرد پرسوجوها شود، حتی برای پرسوجوهای تحلیلی پیچیده مورد استفاده قرار می گیرد.
-ارزش دادن به برنامههای عملیاتی کسبوکار، به ویژه سیستمهای مدیریت ارتباط با مشتری(CRM) انجام می گردد.
-نوشتن پرسوجوهای پشتیبان تصمیمگیری ساده می شود.
انواع موارد استفاده از انبار دادهها در سازمان با توجه به سطح پیچیدگی آنها
انبار دادههای عملیاتی آفلاین
انبار دادهها در این مرحله از تکامل در چرخه زمان، از سیستمهای عملیاتی و دادههایی که در گزارشات یکپارچه ذخیره شدهاند، به طور منظم (معمولا روزانه، هفتگی و یا ماهانه) به روز رسانی میشوند.
انبار دادههای آفلاین
انبار دادهها در این مرحله، با استفاده از دادههای موجود در سیستمهای عملیاتی به صورت منظم به روز شده و دادههای آنها در یک ساختار دادهای ذخیره میشود که این ساختار تهیه گزارش را تسهیل میبخشد.
انبار دادههای آنلاین
انبار دادههای یکپارچهی آنلاین، دادههای به روز را ارائه میدهند. در این مرحله، انبار دادهها ، به ازای اجرای هر تراکنش روی منابع اطلاعاتی، به روز میشوند.
انبار دادههای یکپارچه
این انبار دادهها، دادهها را از بخشهای مختلف کسب و کار جمعآوری میکنند، بنابراین کاربران میتوانند اطلاعات موجود در سیستمهای مختلف را در یک انبار داده جستجو نمایند.
منبع: پایگاه دانش BPM رایورز