推薦システムにおけるSnowparkの活用

こんにちは！クラシルバックエンドエンジニアの高松 @takarotooooooです。
今回はクラシルの推薦システムにおけるSnowparkの活用事例を経緯とともに紹介しようと思います。

Snowparkとは

DataFrame式のプログラミングを可能にする開発者向けツールで、現在はJava, Python, Scalaで利用することができます。
Snowparkを利用することで、SQLでは対応できなかったタスクがSnowflakeからデータの移動なしで実現できるようにデザインされています。

www.snowflake.com

なぜSnowparkを利用するに至ったか

初期の推薦ロジックは視聴履歴を利用し、「このコンテンツを見ている人にはこのコンテンツを推薦する」といった、所謂ルールベースによる推薦を行なっていました。
「ユーザーさん毎の推薦アイテムリストを作成する」というSQLが存在し、Snowflakeのtaskが実行するとユーザーさん毎の推薦アイテムリストが抽出され、後続のtaskがそのリストを外部関数に対してリクエストすると言った具合です。

しかしながら、日々ルールベースロジックを更新していく中でルールは複雑になり、更新・デバッグの難易度が上がってきたことと、将来的に機械学習の導入を見据えるとSQLから何かしらのプログラミング言語に移行する必要性を感じてきました。

どのような構成にするかを考える上で、要件は下記で考えました。

構築済みのニアリアルタイムなパイプラインは引き続き活かせること
データの移動は極力なしにすること
機械学習を導入した際に学習、推論も同じ構成で実現可能であること
webアプリケーションエンジニアも理解・開発できるようにRubyまたはPythonで実装できること

この結果Snowpark for Pythonを利用してみることにしました。

導入時にしたこと

大きく二つのことを行いました。

SQLで書かれた既存のルールベースロジックと同じ結果を出力するプログラムをPythonで実装する
PythonのコードをSnowflakeのtaskから実行する方法を検討する

まずは既存のルールベースロジックをSnowpark for PythonのクライアントAPIを利用して再現できることを目指しました。

２つ目に「構築済みのニアリアルタイムなデータパイプラインは引き続き活かせること」を要件としていたので、コードで書き換えたルールベースロジックをSnowflakeのtaskから実行できる方法を検討しました。
こちらは結果として、Pythonで書かれたルールベースロジックをstored procedureとして登録し、taskから呼び出すことでデータパイプラインの構成は変えず、SQL -> Pythonへの書き換えを達成しました。

docs.snowflake.com

機械学習の導入

しばらくルールベースロジックの開発を続けた後、機械学習導入の検討を始めました。
機械学習の導入における要件は下記で考えました。

引き続き構築済みのニアリアルタイムなデータパイプラインは引き続き活かせること
ルールベースロジックと機械学習ロジックのABテストを実現できること
学習もSnowflakeのtaskによって実現できること

既存のデータパイプライン構成は引き続き変えず、ルールベースロジックとの比較を行うためにtaskから実行されるstored procedureは引き続き利用することにしました。 stored procedureで登録した処理内部にABテストの仕組みも導入し、既存のルールベースロジックと機械学習ロジックが振り分けられるようにしました。

機械学習の導入にはルールベースとは別に学習の仕組みが必要になるので、学習を実行するstored procedureを作成しモデルを学習させ、学習済みモデルをimportする形で推論のstored procedureを更新することで、次回から再学習されたモデルが推論で利用されるようにしました。

まとめ

Snowparkを利用することで、現行のデータパイプラインを極力変更せずに推薦システムにおいて機械学習の導入をデータの入力（収集、加工）から学習、推論を通して出力までE2EでSnowflake内で完結させることができました。
つまり最初のご紹介の通り、Snowparkを利用することで、SQLでは実現できないタスクをデータの移動なく実現することができたわけです。

今後も推薦システムに限らず、いろいろな場面で活用していきたいなと思っています。

https://careers.dely.jp/careers.dely.jp