گاهی خودمان را بزرگ تر از آنچه هستیم نشان می دهیم. در هر موقعیتی این ریسک را انجام نمی دهیم بلکه سعی می کنیم در جایی به سمت بزرگنمایی توانایی هایمان برویم که احتمالا کسی آزمونی برای توانایی های ما نداشته باشد. این نوشته در مورد ابر آروان و آزمون توانایی های این شرکت است
چیزی که از ابر آروان به یاد دارم همواره به رخ کشیدن توانایی های این شرکت بوده است. خصوصا در رویداد سوار بر ابرها بسیار تاکید داشتند که یکی از بزرگتری ارائه دهندگان خدمات ابری هستند. اما این ادعا تا زمانی برای من قابل باور بود که مورد حمله واقعی قرار بگیرند. حمله ای که در اواخر سال 1399 اتفاق افتاد.
در این نوشته سعی کردم نگاهی بی طرفانه به اتفاقاتی که رخ داده داشته باشم. هر چند شاید نظر رسانه های کمی به این مسئله جلب شد اما به نظر من یکی از مهم ترین اتفاقات در حوزه فناوری کشور در سال گذشته بوده است.
داستان حمله
آنطور که آروان می گوید حمله از روز 24 اسفند ماه آغاز شده است. هکر ها ابتدا با یک یا چند تست کوچک به دنبال آسیب پذیری ها بودند و سپس با مطمئن شدن از وجود آسیب پذیری در روز 25 اسفند ماه حمله اصلی خود را آغاز کردند. جالب است که در همین حین آروان متوجه حمله می شود و سعی می کند با فرستادن چند کارشناس به محل فیزیکی نگهداری سرور مشکل را رفع کند اما در گزارش اینطور بیان شده است که : کارشناسانی که به دیتاسنتر AT1-THR-IR اعزام شده بودند به دلیل خستگی، در اعمال تغییرات در شبکه ی این دیتاسنتر دچار اشتباه شدند و فقط بخشی از تغییرات را اعمال کردند.
پس از اینکه کارشناسان آروان در ایجاد تغییرات در مدیریت سرور ها کوتاهی کردند هکر ها با استفاده از همین آسیب پذیری ها شروع به حمله مجدد کردند. البته ذکر این نکته هم ضروری است که به احتمال زیاد اگر تغییرات در سیستم مدیریت سرور ها نیز ایجاد می شد باز هم حمله به سرور ها صورت می گرفت. حمله هکر ها باعث از بین رفتن داده های کاربران می شود و آروان که توان مقابله با حمله را ندارد فقط به خاموش کردن سرور اکتفا می کند. از دسترس خارج کردن یک سرور معمولا آخرین گزینه ای است که شرکت های مدیریت مراکز داده آن را انتخاب می کنند. خاموش کردن سرور دقیقا به این معنی است که دیگر توان مقابله با حمله به صورت نرم افزاری وجود ندارد و ما سعی می کنیم با از دسترس خارج کردن سرور جلوی حمله هکر ها را بگیریم.
حمله اتفاق می افتد و هکر ها می توانند حدود 100 ترابایت از یک پتابایت داده موجود در سرور ها را حذف کنند. البته حذف داده ادعایی است که آروان مطرح می کند و مشخص نیست که هکر ها به داده ها دسترسی داشته اند یا نه. آنطور که آروان می گوید از داده ها سه نسخه پشتیبان مختلف وجود دارد و حدود 97 درصد داده ها پس از حمله حداقل دارای یک نسخه سالم بوده اند و فقط حدود 3 درصد از داده ها از بین رفتند.
شروع بحران
شاید تصور کنید که هکر ها فقط 3 درصد از داده ها را از بین بردند و تمام! اما اینطور نیست بلکه آروان از پلتفرم ذخیره سازی CEPH استفاده می کند. این سیستم داده ها را بر روی کلاستری از رایانه ها ( چندین رایانه متصل به هم) ذخیره می کند. اتفاقی که رخ داده به این معنی بوده است که احتمالا به سه درصد از دیتای کل مشتریان آسیب رسیده. هکر ها به خوبی می دانستند که آروان از چه نسخه ای از CEPH استفاده می کند و ضعف ها و مشکلات امنیتی آن چیست.
مشکل اصلی آروان آنجا شروع می شود که قصد دارد داده های کاربران را بازگرداند. از دست رفتن سه درصد از اطلاعات می تواند موجب از دست رفتن داده های کل کلاستر شود. در صورتی که کلاستر از بین می رفت حدود 1 پتابات داده از بین رفته بود. این حجم از داده خصوصا برای کسب و کار های ایرانی بسیار مهم است. فرض کنید که به عنوان یک کسب و کار کوچک و در حال رشد داده های خود را بر روی این سرور ذخیره کرده باشید و ناگهان علاوه بر خاموشی چند روزه سرور و اختلال در کسب و کار شما همه داده های شما از بین برود. علاوه بر تاثیر منفی بالایی که بر رشد کسب و کار شما دارد می تواند مشکلات عدیده ای را هم برای کاربران کسب و کار شما ایجاد کند. در هر صورت آروان موفق شد در طول هفته ابتدایی نوروز کلاستر خود را بازیابی کند و داده های بسیاری از کاربران را بازگرداند. اما آنطور که آروان در گزارش خود نوشته امکان احیای 6.4 درصد از ابرک ها یا همان VM ها وجود نداشته است.
دستپاچه های طلب کار
به گزارش خود آروان روز جمعه کلاستر بازیابی شده است اما با توجه به اینکه تعداد زیادی از مشتریان اقدام به پشتیبان گیری از داده های خود کردند و کلاستر آسیب دیده نیاز به فضای بیشتر داشته است نود هایی با حدود 400 ترابایت فضا به کلاستر اضافه شدند. هر چند که خودم هم متوجه نشدم چرا در این زمان این کار را انجام دادند اما چیزی که مشخص است از کار افتادن دوباره کلاستر به دلیل اضافه کردن همین حجم است. اضافه کردن نود جدید باعث می شود که CEPH شروع به Rebalance نود ها کند. این کار نیاز به حجم بالایی از حافظه RAM دارد که همزمان با استفاده کاربران باعث می شود MDS Node از کار افتاده و کاربران نتوانند از سیستم استفاده کنند. تا جایی که من اطلاع دارد در نسخه های جدید تر CEPH تا حد زیادی این مشکل برطرف شده است اما مثل اینکه آروانی ها از نسخه های قدیمی تر استفاده می کردند.
جالب است که اگر به موضوع به صورت بیطرفانه نگاه کنید متوجه می شوید که تا به اینجا مقصر کاربران نبوده اند بلکه تمام مشکلات مربوط به خود ابر آروان و تیم های فنی آن بوده است اما در صفحه 7 گزارش آروان جمله زیر به صورت بولد خودنمایی می کند
به رغم تاکید به “پشتیبان گیری اطلاعات حیاتی از سوی مشتری” در متن “شروط فنی استفاده از خدمات زیرساخت رایانش ابری آروان” بسیاری از کاربران با آروان تماس گرفتند و اعلام کردند که نسخه پشتیبانی در دست ندارند
متن گزارش حمله به ابر آروان
تفکر من این است که آروان طوری شرایط خود را بیان کرده است که اگر تمام سرور ها را در اثر اشتباهات تیم فنی خود از دست داد باز هم کاربران نتوانند آروان را محکوم کنند. این رفتار ها می گوید من پول خدمات را دریافت می کنم اما هیچ تضیمنی مبنی بر اینکه داده های شما از دست برود ارائه نمی دهم. قبول دارم که آروان حاضر است ضرر مشتریان خود را جبران کند اما گاهی اوقات از دست رفتن اطلاعات چیزی نیست که بتوان آن را با پول خرید. در هر صورت اگر از ضعف هایی مانند غلط املایی در این گزارش بگذریم به وضوح می توان دید که آروان تیمی جهت ارتباط موثر با مخاطب خود ندارد.
مقصر اصلی CEPH نیست؟
شاید تصور کنید که وجود عیب در CEPH توانسته باشد آروانی ها را با این مشکل روبرو کند اما به نظر من چند نکته قابل تامل در این رابطه وجود دارد:
- مشخص است که حمله هکر ها ساختار ساده ای داشته و زیاد پیچیده نبوده است. شرکتی که این چنین ادعای امنیت ابری را مطرح کرده خود از روش هایی با امنیت بسیار پایین برای دسترسی به مدیریت سرویس ها استفاده می کند. شاید ابرآروان نیازمند یادآوری این نکته نیز باشد که امنیت ابری فقط جلوگیری از حملات منع سرویس(DDos) نیست و فاکتور های مهم دیگری هم دارد.
- اگر مستندات (Documents) یک سرویس را به طور کامل مطالعه نکردیم از آن استفاده نکنیم. مشخص است افرادی که در تیم فنی آروان حضور دارند تسلط کافی بر پلتفرم CEPH نداشتند. خود حمله و رفع آن شاید کمتر از سه روز وقت آروانی ها را گرفت اما مسلط نبودن بر پلتفرم CEPH و استفاده اشتباه از آن باعث شد ه حدود یک هفته درگیر این مسئله باشند.
- آروان در پایان گزارش خود ادعا کرده است یک Region در شهر تهران اجرا خواهد کرد و هر چهار دیتاسنتر بزرگ تهران را به هم متصل می کند. سوالی که مطرح می شود این است که چرا پیش از رسیدن به این نقطه این کار را انجام ندادند؟ احتمالا بهترین دلیلی که برای آن پیدا خواهید کرد هزینه بر بودن این فرایند است.
- مشکل بزرگتر از روش های آروان است. مثلا آروان ادعا می کند که باگ بانتی دارد، در حالی که اگر به سیستم باگ بانتی آروان نگاه کنید متوجه می شوید جوایز آن مبالغ بسیار کمی هستند. پیدا کردن باگ ها و مشکلات امنیتی که اگر رفع نشوند می توانند به آروان ضرر های چند میلیارد تومانی وارد کنند قطعا ارزش هزینه های چند صد میلیونی را دارند اما اگر اکنون که جوایز باگ بانتی دو برابر هم شده است به آن نگاهی بیاندازید حداکثرجایزه حدود 40 میلیون تومان است و جوایز داده شده به افراد مختلف برای کشف باگ میانگین یک میلیون تومان است.
این اتفاق هر چه که بوده است گذشته و در حال حاضر بسیاری از افراد با ابرک از دست رفته خود مشکل دارند. با توجه به چیزی که ابر آروان اعلام کرده است احتمالا حدود 450 ابرک دیگر امکان بازیابی نخواهند داشت. این روز ها داده ها به مهم ترین ابزار هر کسب کاری تبدیل شده اند و ابر آروان با ایجاد یک افتضاح تمام عیار توانست اعتماد عمومی خود را سلب کند. به هر قسمت از این اتفاقات که نگاه می کنم این جمله بیشتر در ذهنم تکرار می شود که:
هیچ گاه از خدمات ابری ایرانی استفاده نکنید حتی اگر پول خرید سرویس های خارجی را ندارید!