عوامل موثر فرآیندی در اسپارک
عوامل موثر فرآیندی در اسپارک
عوامل موثر فرآیندی در اسپارک
جرقه جریان با استفاده از قابلیت زمانبندی سریع Spark Core برای انجام تجزیه
و تحلیل جریان است. این داده ها را در سطوح کوچک به دست می آورد و تحولات RDD
را در آن دسته های مینی داده ها انجام می دهد. این طراحی همان مجموعه ای
از کد کاربردی که برای تجزیه و تحلیل دسته ای ساخته شده است را می توان
در جریان تجزیه و تحلیل استفاده کرد، بنابراین تسهیل اجرای آسان معماری لامبدا
را فراهم می کند. با این حال، این سهولت با مجازات تأخیر زمانی برابر با مدت مینی
بیت است. دیگر موتورهای جریان داده که رویداد را به صورت رویدادی پردازش می کنند
و نه در دسته های کوچک شامل طوفان و اجزای جریان Flink هستند.
جرقه جریان
دارای پشتیبانی ساخته شده است برای مصرف از کافکا، Flume، توییتر،
ZeroMQ، Kinesis، و سوکت TCP / IP در Spark 2.x، یک تکنولوژی جداگانه
بر اساس Datasets، Structured Stream نامیده می شود که رابط کاربری
سطح بالایی نیز برای پشتیبانی از جریان فراهم شده است.
Spark MLlib یک چارچوب یادگیری ماشین توزیع شده در بالای Spark Core است که
به علت بخش بزرگی از معماری Spark بر اساس حافظه توزیع شده تا 9 برابر
سریعتر از اجرای دیسک مبتنی بر Apache Mahout (با توجه به معیارهای)
انجام شده توسط توسعه دهندگان MLlib در برابر پیاده سازی کمترین
مربعات متناوب (ALS)، و قبل از اینکه Mahout خودش یک رابط Spark را به دست آورد،
خطوط یادگیری ماشین های اسپارک
مقیاس بهتر از Vowpal Wabbit بسیاری از ماشین های یادگیری رایج و
الگوریتم های آماری اجرا شده اند و با MLlib حمل می شوند که ساده ترین
خطوط یادگیری ماشین را در بر می گیرد، از جمله:
• آمار خلاصه، همبستگی، نمونه گیری طبقه بندی شده، آزمون فرضیه، تولید داده های تصادفی
• طبقه بندی و رگرسیون: ماشین های بردار پشتیبانی، رگرسيون لجستيک،
رگرسيون خطي، درختان تصميم، طبقه بندي ساده Bayes
• تکنیک های فیلترینگ همکاری شامل حداقل مربعات متناوب (ALS)
• روش تجزیه و تحلیل خوشه ای شامل k-means و تخصیص نهایی Dirichle (LDA)
• تکنیک های کاهش ابعاد مانند تجزیه ارزش منحصر به فرد (SVD) و تجزیه و تحلیل مولفه اصلی (PCA)
قابلیت استخراج و تحول
• الگوریتم های بهینه سازی مانند شیب تصادفی، BFGS با محدودیت حافظه (L-BFGS)
عوامل موثر فرآیندی در اسپارک