مدت زمان ماشین کاری و مقادیر مرجع در اسپارک
مدت زمان ماشین کاری و مقادیر مرجع در اسپارک
مدت زمان ماشین کاری و مقادیر مرجع در اسپارک
Apache Spark یک چارچوب محاسباتی خوشه ای با منبع باز است.
Apache Spark به عنوان پایه معماری آن مجموعه داده های توزیع شده انعطاف پذیر (RDD)،
یک مجموعه چندگانه از اقلام قابل خواندن است که در میان یک دسته از ماشین ها
توزیع شده است، که در یک روش تحمل آماری نگهداری می شود.
در Spark 1.x، RDD اولین وظیفه برنامه نویسی برنامه (API) بود،
اما از Spark 2.x استفاده از API Dataset تشویق شده است
تکنولوژی RDD همچنان API API Dataset است.
جرقه و RDD های آن در سال 2012 در واکنش به محدودیت های پارادایم محاسبات
خوشه MapReduce ایجاد شده است که یک ساختار داده خطی خاص را در برنامه های
توزیع شده ایجاد می کند: برنامه های MapReduce خواندن داده های ورودی از
روی دیسک، ترسیم عملکرد در داده ها، کاهش نتایج نقشه و نتایج ذخیره سازی
شده روی دیسک. RDDs Spark به عنوان یک مجموعه کار برای برنامه های توزیع شده
که یک فرم (عمدا) محدود از حافظه اشتراکی توزیع شده را ارائه می دهد.
جایی که ذخیره سازی توزیع شده مورد نیاز نمی باشد و سیستم فایل محلی می تواند
به جای آن استفاده شود. در چنین سناریویی، جرقه بر روی یک ماشین مجزا
اجرا می شود و یک هسته مجاز در هر هسته CPU .
مدت زمان ماشین کاری و مقادیر مرجع در اسپارک
جرک اجرای هر دو الگوریتم تکرار را تسهیل می کند که داده های چندگانه آنها را
در یک حلقه قرار می دهد و تجزیه و تحلیل داده های تعاملی / اکتشافی، یعنی
پرس و جو از داده های متداول پایگاه داده، را مشاهده می کنند. تأخیر چنین
برنامه های کاربردی ممکن است در مقایسه با اجرای MapReduce چندین
مرتبه کاهش یابد.
(همانطور که در Apache Hadoop پراکنده بود .در میان کلاس
الگوریتم های تکراری، الگوریتم های آموزش برای سیستم های یادگیری ماشین
است که انگیزه اولیه برای توسعه اسپارک آپاچی را شکل دادند .