apache-spark

Есть ли способ фильтровать одним выражением строки, содержащие слово "word1" или другое " word2" что-то вроде : val res = lines.filter(line => line.contains("word1" or "word2")) Потому что это выражение не работает. Заранее благодарю вас ...

Мне нужно сравнить CSV-файлы, а затем удалить все повторяющиеся строки. Итак, мое состояние похоже на то, что у меня есть одна папка, и я должен поместить каждый отфильтрованный результат в эту папку, и когда появится какой-то новый файл, я должен сравнить существующие файлы в папке с новым и, наконец, я долж...

Я загружаю свой CSV с помощью DataFrame, а затем преобразую его в DataSet, но он показывает вот так Несколько маркеров в этой строке: - Невозможно найти кодер для типа, хранящегося в наборе данных. Примитивные типы (Int, String и т. д.) и типы продуктов (классы case) поддерживаются путем импорта и...

Я понимаю обычную проблему "задача не сериализуема", которая возникает при доступе к полю или методу, который находится вне области замыкания. Чтобы исправить это, я обычно определяю локальную копию этих полей / методов, что позволяет избежать необходимости сериализации всего класса: class MyClass(val myF...

У меня есть dataframe df df.show() id|data|somedata 1 |k |v 2 |s |d 3 |f |k . . . Я попытался удалить строки из df, которые id существуют в lisst=List (4,9,200), поэтому я использовал drop следующим образом val df1=df.drop(col("id").isin(lisst:_*)) Но не работает и я пр...

Мне нужно реализовать столбец auto increment в моей таблице spark sql, как я могу это сделать. Будьте добры, проводите меня. я использую pyspark 2.0 Спасибо Кальян ...

СПАРК таблицы данных имеет Способ withColumn, чтобы добавить новый столбец одновременно. Для добавления нескольких столбцов требуется цепочка withColumn s. Является ли это лучшей практикой для этого? Я чувствую, что использование mapPartitions имеет больше преимуществ. Допустим, у меня есть цепочка из трех ...

Мы находимся на начальных этапах преобразования текущей архитектуры данных крупного предприятия, и в настоящее время я создаю платформу Spark Streaming ETL, в которой мы бы подключили все наши источники к назначениям (источником/назначениями могут быть темы Кафки, Flume, HDFS и т. д.) через преобразования. Эт...

в чем разница между Apache Spark и Apache Storm? Каковы подходящие варианты использования для каждого из них?...

получение странного поведения при вызове функции вне закрытия: когда функция находится в объекте все работает когда функция находится в классе вам : задача не сериализуемая: java.io. NotSerializableException: testing проблема в том, что мне нужен мой код в классе, а не объект. Есть идеи, почему это ...