どんなに高性能でも、AIは学習した情報を伝達するだけの機械に過ぎません。冗談や仮定、皮肉などを理解できないため、ときに面白おかしく、または深刻な誤答をしてしまうことがあります。チャットボットが思わぬAIスキャンダルを起こさないようにし、あなたのコンテンツを正確に理解させるためにも、AIに「どの内容をスキップするべきか」を伝えることができます。
AIの信頼性を確保するには、学習する情報を管理することが重要です。すべてのコンテンツがチャットボットに適しているとは限りません。flowhunt-skip クラスを使えば、FlowHuntがインデックス化しないコンテンツを指定できます。このクラスが付与されたHTML要素は、処理時に無視されます。
skipパラメータを使うべきタイミング
このクラスを使う主な理由は2つありますが、不要または不適切だと思うコンテンツなら、どんなものでも自由に使ってかまいません。
重複コンテンツのスキップ: 類似した内容が繰り返しインデックス化されると、AIは内容の区別や分類が難しくなります。重複情報をスキップすることで、テキスト処理にかかるコストも長期的に削減できます。
リスクや不適切な情報のスキップ: AIが誤った、有害な、または文脈に合わない回答をしそうな情報は除外しましょう。ブランドのトーンでジョークや強い言葉を多用している場合は特に注意が必要です。ほかのコンテンツには最適でも、ユーザーは皮肉なボットを好まないかもしれません。
flowhunt-skipパラメータの使い方
FlowHuntはあなたのウェブサイトをクロールし、チャットボットに文脈を与えます。FlowHuntがインデックス化した内容は、チャットボットがいつでも利用する可能性があります。
インデックス化したくないコンテンツのHTML要素に flowhunt-skip クラスを追加しましょう。このクラスが付いた要素は無視され、チャットボットに一切渡りません。
クラスの使用例:
<div class="flowhunt-skip">
<h2>重複コンテンツ</h2>
<p>この内容は重複しています。FlowHuntには再度インデックス化してほしくありません。</p>
</div>
段落単位や要素の一部だけをスキップすることも可能です:
<div>
<h2>私のコンテンツ</h2>
<p>この段落はインデックス化されます。</p>
<p class="flowhunt-skip">この情報はチャットボットに使わせたくありません。</p>
<p>この段落はインデックス化されます。</p>
</div>
インデックス化の仕組み
クロール処理はバックグラウンドで、設定したスケジュール通りに実行されます。HTMLページのみをダウンロードし、画像やメディアはリンクとして保存されます。リダイレクトも追跡され、カノニカルURLも評価されます。
クロールが完了すると、HTMLコンテンツはプレーンなマークダウンテキストに変換されます。この過程で一部の情報は削除されることもあります。最終的なマークダウンテキストがチャットボットに文脈情報として提供され、必要なときにAIが参照できます。
AIはどの情報を選ぶのか
マークダウンテキストはチャンクに分割され、ベクトル化されてベクターデータベースに保存されます。このデータベースは単語の意味に値を割り当て、AIはピッタリ一致しなくても関連語を理解できるようになります。
単語は割り当てられた値に基づきグリッド上に配置され、コンピュータはどの単語が意味的に近いかを把握できます。

注: これは非常に単純化したモデルです。実際にはAIは数千の単語、フレーズ、文全体でこれを行っています。
ベクターデータベースから情報を検索することを「セマンティックサーチ」と呼びます。AIがベクターデータベース内の単語の意味を検索・評価し、それを使って回答を生成する能力です。
ユーザーがクエリを投稿すると、ボットはその単語をベクトルに変換し、あなたのコンテンツから近いものをデータベース内で探します。一致または類似したコンテンツを見つけると、その情報を元に回答を作成します。
セマンティックサーチが重要な理由
あなたがオンラインペットショップを運営していると想像してください。顧客から次のような問い合わせがきたとします。
「子猫用のごはんは売っていますか?」
実際には「junior」という単語の商品名で販売していますが、「kitten」ではありません。それでもボットは「junior cat food(子猫用キャットフード)」が「food for kittens(子猫用のごはん)」と同じ(または非常に近い)ことを理解し、正確に顧客を商品へ案内できます。
ベクターデータベースでセマンティックサーチがなければ、チャットボットは単純に「food for kittens」を扱っていないと答え、将来の顧客を失うことになりかねません。FlowHuntなら、こうした心配も不要です。