انجمن‌های فارسی اوبونتو

لطفاً به انجمن‌ها وارد شده و یا جهت ورود ثبت‌نام نمائید

لطفاً جهت ورود نام کاربری و رمز عبورتان را وارد نمائید


توزیع گنو/لینوکس اوبونتو ۲۰ ساله شد 🎉

نویسنده موضوع: هادوپ، یک موفقیت اپن سورس  (دفعات بازدید: 2567 بار)

0 کاربر و 1 مهمان درحال مشاهده موضوع.

آفلاین سید مسعود امامیان

  • Hero Member
  • *
  • ارسال: 951
هادوپ، یک موفقیت اپن سورس
« : 11 تیر 1391، 09:40 ب‌ظ »
منبع :‌

http://www.shabakeh-mag.com/article.aspx?id=1007012
اين مطلب يكي از مقالات بخش ويژه نشريه ماهنامه شبكه در شماره 133 با عنوان جنبش NoSQL مي‌باشد. جهت دريافت اين بخش ويژه به بخش پرونده‌هاي ويژه سايت مراجعه نمائيد.

همان‌طور که قبلاً نیز ذکر شده است، علاقه‌مندی به هادوپ، از نیاز به قابلیت مقیاس‌پذیری بالا (داده‌هایی در محدوده پتابایت) با هزینه‌کم و همچنین مدیریت ساده داده‌های بی‌ساختار و عظیمی مانند داده‌های شبکه‌های اجتماعی، ایمیل، اسناد مختلف و همچنین داده‌های با ساختار غیر‌ثابت مانند جریان کلیک‌ها، داده‌های وبلاگ‌ها و حسگرها و همچنین ناکارآمدی پایگاه‌های داده‌ سنتی رابطه‌ای در مدیریت چنین داده‌هایی ناشی شده است. اما هادوپ چنان محصول شایسته‌ای است که شرکت‌هایی نظیر اوراکل،EMC، آی‌بی‌ام  و حتی دل به فکر عرضه نسخه‌ای اختصاصی از آن به مشتریان خود افتاده‌اند. در این میان اما مایکروسافت نیز قصد دارد تا به هادوپ روی آورد. پروژه‌ای که استفاده از آن در محصولات مایکروسافت از دو جنبه بسیار اهمیت دارد: جنبه نخست، متقاعد‌شدن مایکروسافت به استفاده از یک پروژه اپن‌سورس و همچنین عرضه عمومی کدهای توسعه داده شده در این زمینه است که از یک دشمن دیرینه تفکر اپن‌سورس بسیار بعید و شگفت‌انگیز به‌نظر می‌رسید. جنبه دوم این‌که تا سه سال پیش، مایکروسافت هادوپ را یک کار تحقیقاتی شیک اما نه چندان عملی می‌دانست. روزها گذشته‌اند و همه چیز عوض شده است، پس چرا انتظار دارید که مایکروسافت عوض نشده باشد؟ یک ضرب‌المثل مبتنی بر GPL می‌گوید: «از محبت، خارها گل می‌شود!»

مایکروسافت به اپن‌سورس رو می‌آورد
سه سال گذشت تا مایکروسافت فهمید که  باید به نگرانی درباره هادوپ پایان داده و آن را دوست بدارد. هادوپ، پروژه اپن‌سورسی که برای ذخیره‌سازی و مدیریت حجم عظیمی از داده‌ها با استفاده از تعداد زیادی از سرورهای ارزان قیمت ساخته شده است، در حال تصاحب همه‌جا از جمله شبکه‌های اجتماعی، یاهو، ebay و غیره است و به واسطه حرکت‌هایی که آی‌بی‌ام، EMC و اوراکل در پیش گرفته‌اند به رده Enterprise یا سازمانی نیز راه خواهد یافت.


مایکروسافت بسیار پیشتر از این‌ها، یکی از شرکت‌های پیشرو در زمینه هادوپ را در تابستان 2008 تصاحب کرده بود، اما رابطه خوبی با خود پلتفرم هادوپ نداشت و همچنان به مخالفت با اپن‌سورس اصرار می‌ورزید. تا این‌که در اکتبر سال ۲۰۱۱ میلادی و در یک چرخش ناگهانی و بسیار تعجب برانگیز، مایکروسافت اعلام کرد که هادوپ (که در اصل برای کار روی لینوکس ساخته شده است) را با پایگاه داده‌ای معروف خود یعنی SQL Server و ویندوز اَژِر (Azure ) که پلتفرم مایکروسافت برای ارائه خدمات کلاود است، یکپارچه خواهد ساخت. این شگفتی زمانی تکمیل شد که دوگ‌للند (Doug Leland)، رئیس گروه مدیریت محصول SQL Server اعلام کرد که شرکت متبوعش قصد دارد کارهای انجام شده در این زمینه را به جامعه اپن‌سورس عرضه کند. این حرکات نشان از آن دارد که مایکروسافت گرچه در گذشته هادوپ را مهم نمی‌دانست اما اکنون در رابطه با آن بسیار جدی است.



اپن‌سورس سرطان بود...
مایکروسافت در زمینه دشمنی و مقابله با جنبش اپن‌سورس، به خصوص در دهه ۱۹۹۰ و سال‌های آغازین قرن جدید بسیار مشهور است. در سال 2001، استیو بالمر، لینوکس (بزرگترین و اصلی‌ترین پروژه جنبش اپن‌سورس) را سرطان نامید و تا سال‌ها بر این ادعا به‌صورت عملی اصرار می‌ورزید. اما پس از گذر زمان و رشد اپن‌سورس و لینوکس، مایکروسافت دریافت که با این رویه قادر به ادامه حیات خود در بلند مدت نیست. نتیجه این مشاهدات در کوتاه مدت نوعی شیزوفرنی اپن‌سورسی بود! برخی قسمت‌های شرکت می‌توانستند از خدمات جنبش اپن‌سورس استفاده کنند در حالی که بقیه قسمت‌ها از انجام چنین کاری منع شده بودند. برخی محصولات مایکروسافت با کدهای اپن‌سورس به خوبی کار می‌کردند اما خود از کد اپن‌سورس بهره نمی‌بردند! این رفتار پیچیده و عجیب از طرف مایکروسافت با خرید یک شرکت فعال در زمینه جست‌وجوی معنایی که از نخستین علاقه‌مندان هادوپ بود، یعنی شرکت Powerset تکمیل شد و باعث نگرانی بسیاری از دوستداران اپن‌سورس شد. پروژه هادوپ که در آن زمان توسط یک برنامه نویس مستقل به‌نام دوگ کاتینگ (Doug Cutting‌) ایجاد شده بود، نخستین‌بار توسط یاهو در بنیاد آپاچی مورد حمایت و پشتیبانی قرار گرفت. پس از آن‌، Powerset‌ شرکتی بود که پایگاه داده NoSQL جدیدی با نام HBase تولید کرد که براساس هادوپ کار می‌کرد. به همین دلیل، موتور جست‌وجوی معنایی این شرکت نوپا که بر‌اساس زبان طبیعی کار می‌کرد نه کلمات کلیدی جدا از هم، به شدت با پلتفرم اپن‌سورس هادوپ یکپارچه شده بود. با گذشت سه ماه از تصاحب این شرکت، مایکروسافت به دو نفر از کدنویسان مشهور آن؛ مایکل استک (Michael Stack) و جیم‌کلرمن (Jim Kellerman) که در توسعه کد HBase فعالیت داشتند اجازه داد تا به کار خود، یعنی انتشار کدهای توسعه داده شده در داخل شرکت، ادامه دهند و Powerset که اکنون به درون بینگ منتقل شده بود، اجازه یافت تا همچنان روی هادوپ فعالیت‌های خود را اجرا کند. همین حرکت باعث شد تا بینگ یکی از نخستین محصولات مایکروسافت باشد که از کد اپن‌سورس استفاده می‌کند و به مدد همین امر، نتایج جست‌وجوی مناسبی را نیز به نمایش بگذارد. با این حال، انتقال این موتور جست‌وجو به یک پلتفرم انحصاری باعث شد تا استک این شرکت را ترک‌کرده و به کار روی HBase برای جست‌وجو در StumbleUpon بپردازد.

یکپارچه سازی هادوپ با SQL Server 2012، ویندوز سرور و  اژر
با این‌که رئیس محصولات SQL Server در مایکروسافت از صحبت درباره گذشته مایکروسافت و هادوپ سرباز زده است، اما به روشنی تأکید کرده که تیم‌های SQL Server و ویندوز اَژِر در بلند مدت نسبت به عرضه کد خود به جامعه اپن‌سورس اقدام خواهند کرد. وی در این زمینه گفته است: «پذیرش هادوپ و عرضه توزیعی در سطح Enterprise از این پلتفرم که با ویندوز سازگاری داشته و به سادگی قابل مدیریت باشد، به طور جدی از طرف مشتریان ما درخواست شده است. به همین دلیل، ما چنین تصمیم‌هایی گرفته‌ایم.»

"در اکتبر سال ۲۰۱۱ میلادی و در یک چرخش ناگهانی و بسیار تعجب برانگیز، مایکروسافت اعلام کرد که هادوپ را با پایگاه داده‌ای معروف خود یعنی SQL Server و ویندوز اَژِر (Azure ) که پلتفرم مایکروسافت برای ارائه خدمات کلاود است، یکپارچه خواهد ساخت."


در این میان اما شرکتی با نام Horton works که به‌تازگی توسط یاهو و با استفاده از مهندسان هادوپ خود یاهو تشکیل شده بود، مایکروسافت را در تطبیق هادوپ با ویندوز یاری خواهد کرد. بر‌اساس برنامه‌ریزی‌های انجام شده‌، قرار است در سال 2012 یک نسخه Technology Preview از هادوپ برای اژر آماده شده و چندی بعد نیز یک نمونه کاربردی ساده برای SQL Server عرضه شود.  با توجه به این‌که پایگاه داده‌ای سنتی رابطه‌ای مانند SQL Server داده‌ها را به‌صورت جدول‌ و در قالب سطر و ستون ذخیره می‌کند اما هادوپ یک پلتفرم برای ذخیره‌سازی داده‌های بی ساختار در حجمی بسیار عظیم است، به نظر می‌رسد در ظاهر ارتباطی بین این دو برای یکپارچه‌سازی وجود ندارد. به همین دلیل هدف مایکروسافت از گرایش به سمت هادوپ در اصل، اجرای آن در ویندوز سرور و در کنار SQL Server است تا با استفاده از یک سری Connector‌، داده‌ها را در میان این دو مبادله کند.  در نوامبر سال 2011، مایکروسافت نسخه تقریباً نهایی (Release Candidate) پایگاه داده‌ای SQL Server 2012 را که گفته شده بود تلاش‌هایی برای یکپارچه‌سازی آن با هادوپ صورت گرفته است، عرضه کرد. این پایگاه داده از این آدرس قابل دانلود‌ است:


http://www.microsoft.com/download/en/details.aspx?id=28145
همان‌طور که می‌دانید، نسخه‌های RC آخرین نسخه آزمایشی از هر محصول است که مایکروسافت اقدام به انتشار آن می‌کند و به گفته مایکروسافت، نسخه SQL Server 2012 RC با کیفیت محصول نهایی عرضه شده است. این پایگاه داده حاوی ابزارهای مهاجرتی خوبی نظیر Upgrade Advisor، Distributed Replay و SQL Server Migration Assistant خواهد بود و هدف اصلی از عرضه آن، هوشمندی تجاری و دسترسی بالا بوده است. بر اساس گفته‌های دوگ‌للند، بخشی از امور یکپارچه‌سازی هادوپ با محصولات مایکروسافت نوشتن درایور ODBC برای Hive ، موتور پرس‌و‌جوی هادوپ است که امکان اجرای Real-time و مستقیم پرس‌و‌جوها را از درون برنامه‌های هوشمندی تجاری ویندوزی فراهم می‌آورد.


پیشتر نیز مایکروسافت از ابزاری با نامHadoop-to-SQL Server Connector خبر داده بود که بر اساس Sqoop (سرنام SQL to Hadoop‌ محصولی برای تبادل داده‌ها میان پلتفرم هادوپ و پایگاه‌های داده‌ای سنتی رابطه‌ای) توسعه داده شده بود. این محصول هم اکنون به‌صورت رسمی عرضه شده است و از پایگاه داده SQL Server 2008 نیز پشتیبانی می‌کند و امکان ورود داده‌های متنی، فایل‌های ترتیبی و همچنین جدول‌های Hive به SQL Server را فراهم می‌سازد. این کانکتور همچنین امکان اجرای پرس‌وجوهای Map Reduce یا Hive را روی داده‌های ذخیره‌شده در HDFS هادوپ فراهم‌کرده و امکان تحویل نتایج به‌صورت جدول‌های SQL Server و ذخیره آن‌ها برای تحلیل بیشتر را فراهم می‌سازد.  مایکروسافت در حال آماده‌سازی دو محصول جدید نیز در زمینه هوشمندی تجاری برای SQL Server 2012 است که یکی از آن‌ها با نام Microsoft Data Explorer شناخته می‌شود. این محصول، مجموعه‌ای از ابزارهایی است که برای کاربر امکان واکشی داده‌ها از صفحات گسترده، پایگاه‌های داده‌ای SQL، فایل‌های مختلف و همچنین Windows Azure Marketplace را فراهم آورده و با تولید گزارش‌های مناسب برای اشتراک‌گذاری در سطح سازمان، امکان ذخیره دوباره آن‌ها را در Marketplace اژر فراهم خواهد کرد. این گزارش‌ها امکان تبدیل به فرمت‌های Excel یا Power Point را نیز خواهند داشت. ابزار مهم دیگر، محصولی با نام Power View است که قبلاً با عنوان رمز Project Crescent شناخته می‌شد و یک ابزار هوشمندی کسب‌وکار ad-hoc تحت وب است که در پایگاه داده SQL Server 2012 گنجانده شده و در Marketplace اژر هم عرضه خواهد شد.  اما هدف مایکروسافت از یکپارچه‌سازی هادوپ در ویندوز اژر متفاوت با SQL Server بوده و در اصل فراهم‌سازی آن به‌عنوان یک سرویس برای توسعه‌دهندگان این پلتفرم، بدون نیاز به نصب آن در مراکز داده‌شان است. اما نکته منفی موجود در این زمینه این است که در پلتفرم توزیع یافته‌ای چون هادوپ، سربار سیستم عامل می‌تواند یکی از چالش‌های اصلی باشد. در این شرایط، با توجه به این‌که ویندوز حجم بسیار زیادی سربار را به کار می‌برد، یکی از بزرگ‌ترین چالش‌ها را در مقابل لینوکس شاهد خواهد بود و باید دید که مایکروسافت چگونه با این مسئله کنار خواهد آمد!

رها کردن Dryad، رقیب ناکام هادوپ
دقیقاً یک ماه پس از اعلام تلاش برای یکپارچه‌سازی هادوپ با ویندوز اژر و SQL Server، این شرکت برنامه‌های خود در زمینه Dryad- پروژه استفاده از LINQ در ویندوز HPC یا High Performance Computing - را در قالب یک پست بلاگ خاتمه یافته اعلام کرد. مایکروسافت بیش از پنج سال است که روی Dryad کار می‌کند و این پروژه، قرار بود تا وظایف اجرای عملیات روی داده‌های بزرگ را در محیط سرورهای کلاستری مایکروسافت یعنی Windows HPC عهده‌دار باشد. پروژه Dryad، نمونه اختصاصی مایکروسافت برای پیاده سازی محصولی شبیه به هادوپ و رقیبی مبتنی بر فناوری Map/Reduce گوگل برای انجام امور ذخیره‌سازی در پردازش ابری و داده‌های عظیم بود.


این پروژه برای نخستین‌بار در سال 2006 به‌عنوان یک پروژه تحقیقاتی مایکروسافت از طرف بیل گیتس رونمایی شد و در سال‌های اخیر تلاش‌های بسیاری برای تبدیل آن به یک راهکار عملی صورت گرفت. مایکروسافت ادعا می‌کرد که تلاش دارد تا ابزارهای برنامه‌نویسی پردازش موازی HPC و LINQ را ترکیب کرده و یک لایه واسط ایجاد کند تا کاربران از طریق آن بتوانند به منابع کامپیوتر (چه روی یک سیستم چند هسته‌ای منفرد یا ابری از سرورها) دسترسی داشته باشند.

"هدف مایکروسافت از یکپارچه‌سازی هادوپ در ویندوز‌اژر متفاوت با SQL Server و در اصل فراهم‌سازی آن به‌عنوان یک سرویس برای توسعه‌دهندگان این پلتفرم، بدون نیاز به نصب در مراکز داده‌شان است."


در برهه‌ای از زمان، مقامات رسمی مایکروسافت اظهار داشتند که LINQ در HPC کلید تبدیل یک ابر پردازشی به یک اَبَر رایانه است. با این اوصاف، انتظار می‌رفت تا LINQ to HPC در سرویس پک دوم مجموعه Microsoft HPC Pack 2008 R2 عرضه شود اما مایکروسافت آن را به‌عنوان بخشی از سرویس پک 3 این مجموعه عرضه کرد که هم اکنون به صورت RC موجود است. با این حال، مایکروسافت از عدم اختصاص زمان و انرژی به این کار خبر داده است و قصد دارد تا از راه حل جایگزین اپن‌سورس، یعنی هادوپ استفاده کند.  در حقیقت، تلاش برای توسعه این فناوری، حرکتی برای عرضه یک رقیب منبع بسته و انحصاری برای هادوپ بود که با مشاهده سرعت عملکرد و ارزش کاری هادوپ و همچنین اقبال هرچه بیشتر شرکت‌های مختلف به آن، امکان رقابت از این محصول مایکروسافت به‌طور عملی سلب شده است.



بسیاری، تمایل مایکروسافت به استفاده از هادوپ را پیروی از شرکت‌هایی مانند EMC و  آی‌بی‌ام می‌دانند که قصد دارند تا پایان سال 2012، توزیع‌های جدیدی از هادوپ را برای مشتریان Enterprise عرضه کنند. در ضمن بیانیه اوراکل در رابطه با عرضه یک توزیع دیگر از هادوپ و پشتیبانی از آن درOracle Big Data Appliance نیز در این تصمیم مایکروسافت بی‌تأثیر نبوده است. در مقابل این پشتیبانی روزافزون، یک پلتفرم تنها و انحصاری مانند Dryad تقریباً شانسی برای ادامه حیات نخواهد داشت. این نکته را می‌توان در گفته‌های مدیر ارشد برنامه‌ریزی در گروه HPC مایکروسافت نیز مشاهده کرد: «هادوپ شایستگی خود را به‌عنوان یک پلتفرم مناسب برای تحلیل داده‌های عظیم بی‌ساختار با هزینه بسیار کم ثابت‌کرده است. همچنین، این پلتفرم، از جامعه‌ای از کاربران و توسعه‌دهندگان بسیار پر جنب و جوش و ارزنده بهره می‌برد که در زمینه توسعه کد و اعمال خلاقیت در هادوپ بسیار مشتاقانه فعالیت می‌کنند.» رئیس بخش مدیریت محصول در تیم SQL Server نیز گفته است: «ما هم اکنون تغییرات شگرفی را در چشم انداز داده‌ها شاهد هستیم و تجارت‌هایی با انواع بیشتری از داده‌ها،  اَشکال بیشتر و حجم‌های بیشتر، بیش از پیش در حال توسعه هستند. برای پاسخگویی به این تغییرات ما نیازمند یک پلتفرم جدید هستیم.»


هم‌اکنون، جهت‌گیری مایکروسافت در زمینه داده‌های عظیم روشن شده است، اما هنوز مشخص نیست که آیا این شرکت از سخت‌افزارهای طرف سوم، همانند ابزارهایی که با نام SQL Server Parallel Data Warehouse یا PDW که توسط اچ‌پی عرضه می‌شود نیز در این زمینه پشتیبانی خواهد کرد یا نه؟ به نظر می‌رسد که مایکروسافت در این زمینه برنامه‌هایی داشته باشد، چرا که همکاری با اچ‌پی برای رقابت با ابزار ماجولار محاسبات داده‌ای EMC که با نام Greenplum شناخته می‌شود و همچنین ابزار Big Data Appliance عرضه شده از طرف اوراکل، می‌تواند سود سرشار و شرایط مناسبی را برای مایکروسافت به ارمغان بیاورد.  به طور حتم، گرایش به استفاده از هادوپ در پلتفرم‌های مایکروسافت همچنان امری عجیب و انقلابی در رفتار مایکروسافت به شمار می‌آید و نتیجه‌ای جز محصولات و خدماتی بهتر و رقابتی تر نیز در بر نخواهد داشت؛ البته اگر مایکروسافت به وعده‌های خود در


زمینه انجام امور به‌صورت شفاف و عرضه کدها به جامعه اپن‌سورس پای‌بند باشد. همان‌طورکه تاکنون نیز مشخص شده، جامعه اپن‌سورس از این اقدام مایکروسافت استقبال کرده و شاید هادوپ، آشتی‌دهنده جنبش و تفکر اپن‌سورس با دشمن دیرینه‌اش باشد؛ یک همزیستی مسالمت‌آمیز که گذار به آن اجتناب ناپذیر بوده و در نهایت، به ارائه خدمات بهتر به کاربران منتهی شود.

"شاید هادوپ، آشتی‌دهنده جنبش و تفکر اپن‌سورس با دشمن دیرینه‌اش باشد؛ یک همزیستی مسالمت‌آمیز که گذار به آن اجتناب ناپذیر بوده و در نهایت، به ارائه خدمات بهتر به کاربران منتهی شود."


با دیدن این اتفاق و خواندن خبر مربوط به چرخش رویکرد مایکروسافت در مقابل اپن‌سورس، می‌توان دریافت ‌که روش‌های کسب و کار شرکت‌های بزرگ در حال بهینه‌شدن بوده و پیش‌بینی روزهای خوب در دنیای پیش‌روی جنبش اپن‌سورس در آینده، آرام آرام در حال تحقق است. کسی چه می‌داند؟ شاید روزی مایکروسافت ویندوزی اپن‌سورس عرضه کرد و مناقشه لینوکس و ویندوز، از آن به بعد در رابطه با بهتر بودن کدهایشان ادامه پیدا کرد! هر چند این موضوع بعید است، اما محال نیست!
به عمل کار برآید     به سخندانی نیست . . .