こんにちは.開発部のsakura ( @818uuu )です.
普段はレシピ動画サービス クラシルの検索を担当しています.
今回はクラシルの検索品質評価ガイドラインを作成したお話を書きます.
はじめに
みなさんは何かを検索した時に「思った結果とちょっと違うな……」と感じた経験があると思います.そういう検索の精度や品質管理はどのように保ち,また,改善されているのでしょうか.
Googleだと General Guidelines という検索品質評価ガイドラインがあり,それに基づき多くの評価者が検索品質の評価を行っています.
今回クラシルでもその試みに取り組んでみようと思いクラシルの検索品質評価ガイドラインを作成しました.
まだ検索品質評価ガイドラインすべてを公表できるほど整ってはいないのですが,作成方法を一部公開します.
検索品質評価ガイドラインの作成方法
1. General Guidelinesを真似る
まずはGoogleの General Guidelines という検索品質評価ガイドラインを真似てざっくりガイドラインのテンプレートを作成しました.
2. 品質評価項目の作成
次に検索の品質を評価する項目を作成しました.
General Guidelines には品質評価項目が数十個ありますが,今回はほぼ踏襲はしませんでした.なぜなら,Googleとクラシルは検索の性質や検索の校正,評価する軸などが大きく異なるからです.
そこで,クラシルの検索に合わせて一から評価項目を作成し(ミニマムではありますが)今回は4つの項目を作成しました.
その中の一つを紹介すると「そのレシピが定番に近いか」という項目を作りました.
例えば(どちらも素敵なレシピですが),『[変わり種!ミニもずくハンバーグ]』と『[簡単デミグラスソースのハンバーグ]』だと後者のほうがより一般的に定番のハンバーグと感じると思いますし,定番さというのはレシピを選ぶ一つのポイントになると考えたからです.
レシピを選ぶポイントはつまりクラシルの検索結果で選ぶポイントにもつながってきます.
また,1つの項目につき5段階評価(-2,-1,-0,1,2点)をつけれるように設定しました. これで1検索キーワードにつき4項目*5段階をつけるので最低-8点〜最高8点の17段階の評価をつけれるようになりました.
3. 評価テストの実施
評価項目を作成し終えた後に,それで果たして数値がうまく付くのかをテストする必要があります.
今回は1人なので評価テストにかかる時間も考慮して評価する検索キーワードの標本調査を行い評価テストを実施しました.
評価テストを実施した結果,評価項目・評価方法ともに概ねよさそうだということを確認できました.
ミニマムではありますがこれで検索品質評価ガイドラインを作成することができました.
最後に
クラシルの検索品質評価ガイドラインを作成してみると難しいことだらけでした.
しかし,本当に難しいのはこれを適切に運用しそれを検索の改善にいかすことだと思います.
検索品質評価自体取り組んでいるところは少ないかもしれませんがなにか知見を共有できれば幸いです.
delyではエンジニアを募集しています.よろしくお願いします.