Databricks Certified Data Engineer Professional Exam (Databricks-Certified-Data-Engineer-Professional日本語版) Sample Questions:
1. データアーキテクトは、2つの構造化ストリーミングジョブが単一のブロンズDeltaテーブルに同時に書き込みを行うシステムを設計しました。各ジョブはApache Kafkaソースの異なるトピックをサブスクライブしますが、同じスキーマでデータを書き込みます。ディレクトリ構造をシンプルに保つため、データエンジニアは両方のストリームで共有されるチェックポイントディレクトリをネストすることにしました。
提案されたディレクトリ構造を以下に示します。
このチェックポイント ディレクトリ構造が特定のシナリオに対して有効であるかどうか、またその理由を説明している記述はどれですか。
A) いいえ。Delta Lake はトランザクション ログ内のストリーミング チェックポイントを管理します。
B) いいえ。各ストリームには独自のチェックポイント ディレクトリが必要です。
C) いいえ。Delta Lake テーブルに書き込むことができるのは 1 つのストリームだけです。
D) はい。Delta Lake は無制限の同時書き込みをサポートします。
E) はい。両方のストリームで単一のチェックポイント ディレクトリを共有できます。
2. デルタ レイクとレイクハウスについて正しいのは次のうちどれですか?
A) Parquet はデータを行ごとに圧縮するため、文字列は文字が複数回繰り返される場合にのみ圧縮されます。
B) 主キー制約と外部キー制約を利用すると、ディメンション テーブルに重複する値が入力されないようにすることができます。
C) Lakehouse 内のビューは、常にソース テーブルの最新バージョンの有効なキャッシュを維持します。
D) Delta Lake は、クエリ フィルターに基づいてデータのスキップに活用される各テーブルの最初の 32 列の統計を自動的に収集します。
E) Z オーダーは Delta Lake テーブルに格納されている数値にのみ適用できます。
3. データエンジニアは、クラウドストレージからDelta LakeテーブルにJSONファイルを取り込むストリーミングデータパイプラインを構築しています。このパイプラインでは、ファイルを段階的に処理し、スキーマの進化を自動的に処理し、1回限りの処理を保証し、手動によるインフラストラクチャ管理を最小限に抑える必要があります。
データ エンジニアはこれらの要件をどのように満たすべきでしょうか?
A) Lakeflow Spart 宣言型パイプラインを Auto Loader で使用し、スキーマ推論を有効にする
"cloudFiles.schemaEvolutionMode" = "addNewColumns"
B) 静的 DataFrame 読み取りで Lakeflow Spark 宣言型パイプラインを使用し、spark.conf.set ("spark.databricks.delta.schema.autoMerge.enabled", "true") を使用してスキーマをマージします。
C) 従来の Spark Structured Streaming を Auto Loader とともに使用し、チェックポイントの場所を手動で設定し、"mergeSchema" = "true" でスキーマ推論を有効にします。
D) 毎日のジョブでバッチ モードで Auto Loader を使用して Delta テーブルを上書きします。
4. Lakehouse内のcustomer_churn_paramsというテーブルは、機械学習チームによる顧客離脱予測に使用されています。このテーブルには、複数の上流ソースから得られた顧客情報が含まれています。現在、データエンジニアリングチームは、上流データソースから得られた最新の有効な値でこのテーブルを毎晩上書きすることで、データを更新しています。
MLチームが使用しているチャーン予測モデルは、本番環境では比較的安定しています。チームは過去24時間以内に変更されたレコードのみに基づいて予測を行うことに注力しています。
変更されたレコードの識別を簡素化するアプローチはどれでしょうか?
A) 上書きロジックを変更して、呼び出しによって入力されたフィールドを含める
データが書き込まれるときに spark.sql.functions.current_timestamp() が呼び出されます。このフィールドを使用して、特定の日付に書き込まれたレコードを識別します。
B) 新しい予測を行う前に、一意の顧客を識別するキーで、以前のモデル予測と現在の customer_churn_params との差を計算します。以前の予測に含まれていない顧客についてのみ予測を行います。
C) 現在の上書きロジックをマージ ステートメントに置き換えて、変更されたレコードのみを変更します。変更データ フィードによって識別された変更されたレコードについて予測を行うロジックを記述します。
D) 完全な出力モードを使用してバッチ ジョブを構造化ストリーミング ジョブに変換します。customer_churn_params テーブルから読み取り、解約モデルに対して増分予測を行うように構造化ストリーミング ジョブを構成します。
E) customer_churn_params テーブルのすべての行に解約モデルを適用しますが、予測が変更されていない行を無視して予測テーブルにアップサートを実行するロジックを実装します。
5. スピルは、様々な広範な変換の実行の結果として発生します。しかし、スピルを診断するには、重要な指標を積極的に探す必要があります。
パーティションがディスクに書き込まれていることを示す主なインジケーターのうち 2 つは、Spark UI のどこにありますか?
A) ドライバーとエグゼキューターのログファイル
B) Executor の詳細画面と Executor のログファイル
C) ステージの詳細画面とエグゼキュータのログファイル
D) クエリの詳細画面とジョブの詳細画面
E) ステージの詳細画面とクエリの詳細画面
Solutions:
| Question # 1 Answer: B | Question # 2 Answer: D | Question # 3 Answer: A | Question # 4 Answer: C | Question # 5 Answer: C |
We're so confident of our products that we provide no hassle product exchange.


By Goddard

