ডেভসংকেত

পাইস্পার্ক চিটশিট

PySpark হল Apache Spark-এর Python API, এটি ওপেন সোর্স, distributed computing framework এবং রিয়েল-টাইম, large-scale data processing এর কাজে ব্যবহৃত হয়

কন্ট্রিবিউটর

  • MoshiulRabbi

শেয়ার করুন

SparkSession সেটআপ/চালু করা

  • SparkSession এ Pyspark initialize করুন

    from pyspark.sql import SparkSessionspark = SparkSession.builder.appName('randomName').getOrCreate()

Data Modify রিলেটেড কমান্ড সমুহ

  • Data ফিল্টার করা

    df.filter(df['age']>24).show()
  • Duplicate Data ড্রপ করা

    df.dropDuplicates()
  • null Data সরানো

    df.na.drop().show()
  • null value replace করা

    df.na.fill(50).show()
  • নির্দিষ্ট কলাম show করা

    df.select('columnName').show()

Convert ও Output রিলেটেড কমান্ড সমুহ

  • DataFrame কে RDD তে রূপান্তর করা

    rdd1 = df.rdd
  • df এর কনটেন্ট Pandas Dataframe এ করে দেখা

    df.toPandas()
  • ফাইল Write ও Save করা

    RDD.write.option('header',True).csv('/home/Data')
  • Text ফাইল Save করা

    textRdd.saveAsTextFile('/home/Data')

ডাটাফ্রেম তৈরী ও লোড করা

  • ডাটাফ্রেম তৈরী করা

    from pyspark.sql.types import*spark.createDataFrame([(1, 'a'), (2, 'b')], ['num', 'letter'])
  • CSV file লোড করা

    df = spark.read.load('/home/Dataset/Case.csv', format = 'csv', sep = ',', inferScheme = True, header = True)
  • Txt file লোড করা

    df = spark.read.text('people.txt')
  • JSON file লোড করা

    df = spark.read.json('customer.json')

Data Inspect রিলেটেড কমান্ড সমুহ

  • কলামের নাম ও ডাটা টাইপ দেখা

    df.dtypes
  • df এর কনটেন্ট show করা

    df.show()
  • df এর প্রথম ১০টি row দেখা

    df.head(10)
  • df এর প্রথম row দেখা

    df.first()
  • Row এর সংখ্যা দেখা

    df.count()
  • df এর Schema দেখা

    df.printSchema()
  • df এর logical ও physical plan দেখা

    df.explain()

SparkSession Close করা

  • তৈরিকৃত Session Close করা

    spark.stop()

ডেভসংকেত সম্পর্কে

ডেভসংকেত এর লক্ষ্য হচ্ছে বাংলাতে একটা বড় চিটশিটের ভান্ডার গড়ে তোলা। এটা সম্পূর্ণ স্বাধীন এবং ওপেন সোর্স গিটহাব অর্গানাইজেশন।

স্পন্সর