はじめに

こんにちは！クラシルで検索チームのPdMを担当してる四柳です。
検索チームは日本以外の国籍の方が所属してるのが一つ特徴で検索に深く知見を持ったメンバーがチームに在籍しています。
メンバーと話していて僕自身初めて知った検索ロジックの評価基準"GSB Score"について今回紹介しようと思います。

GSB Scoreについて

GSBそれぞれの意味はGはGood, SはSame, BはBadになります。
ではどういう時にGSBそれぞれが評価されるのか？についてAが既存のロジック、Bが検証したいロジックとして以下表にまとめました。

パターン	GSB
AよりもBが優れている	G(Good)
AとBは同じ	S(Same)
BよりもAが優れている	B(Bad)

次により具体的な比較方法について説明します。
既存、検証ロジックそれぞれカレーというQueryを投げた結果が以下です。

既存ロジック	検証ロジック

既存、検証で得た結果に記された番号同士を比較してGSB評価を行います。
評価後のイメージが以下です。

既存ロジック	検証ロジック

次にスコア付けになります。
前提として番号が小さいコンテンツほど検索ロジックとしては評価が高いコンテンツになるので1番目の比重が大きくなっています。

query: カレー
既存ロジックのスコア: 1 + 0.6(-1- 1 + 1) + 0.3(1 - 1) = 0.4
検証ロジックのスコア: 1 + 0.6(1 + 1 -1) + 0.3(1 + 1) = 2.2

番号	比重	既存ロジック	検証ロジック
1	1	+1	+ 1
2	0.6	-1	+ 1
3	0.6	-1	+ 1
4	0.6	+1	- 1
5	0.3	+1	+ 1
6	0.3	-1	+ 1

これをまとめると以下になります。

Query	既存ロジック	検証ロジック	GSB
カレー	0.4	2.2	G

今回はカレーの1Queryでのスコア付けになりますがこれをカレーとは異なる別のQueryで行いその全体での結果、検証ロジックの方が優れているケースが既存ロジックより多い場合GSB Scoreを用いての評価としては検証ロジックが優れていることを示します。

以下はカレー以外のQueryも含めた場合の例です。
この場合検証ロジックの方がG評価が多いので既存より検証ロジックが優れていることを意味します。

Query	既存ロジック	検証ロジック	GSB
カレー	0.4	2.2	G
本格そば	0.6	1.2	G
うどん	1.2	1.0	B
0歳離乳食	1.0	1.0	S
暑い時に食べたいさっぱりご飯	0.2	2.2	G

検証ロジックの評価をGSB Scoreのみで行うの?

ここまでの説明だけだと評価はGSBだけで行うの？と不安視があるように思えます。
この不安の原因の一つとしてはユーザのログをもとに定量で評価をしていないところにあるかなと思います。
定量と定性の両軸でロジックを検証することを重要視しており、定量の場合はコンテンツタップ率などを指標としておきます。
その一方で推薦したいコンテンツの正しい答えであったり期待値というのはチーム内で把握しています。
この期待値通りに表示されているか？を軸にGSB Scoreを用いて評価します。
定量と定性の両方で検証ロジックの方が優れている場合は全ユーザへのdeployになるイメージです。

運用初期フェーズで起きるイメージ

導入初期フェーズで発生するイメージのことです。
定量指標では検証が負けてるが、定性(GSB Score)では検証が勝ってる場合です。
言い換えるとチーム内の良い検索とユーザが求める良い検索がずれている可能性があるのかなと思ってます。
この場合はなんでこういう結果になるのか？について深くユーザを理解するために分析などの行動を行いその結果GSB Scoreを評価するときの軸をupdateする必要があるかもしれません。