"FlowHuntのスキップインデックス機能とは何ですか？"

"スキップインデックス機能では、特定のコンテンツをAIチャットボットで利用しないよう除外できます。HTML要素にflowhunt-skipクラスを追加すると、不適切または重複するコンテンツがインデックス化されず、チャットボットの応答にも使われません。"

"AIチャットボットをトレーニングする際、特定コンテンツをスキップする理由は？"

"繰り返しや不適切、または誤解を招く可能性のあるコンテンツを除外することで、AIチャットボットはより関連性が高く安全かつ正確な応答を提供できます。また、パフォーマンス向上や不要な処理コストの削減にもつながります。"

"flowhunt-skipクラスの使い方は？"

"インデックス化したくないHTML要素にflowhunt-skipクラスを追加してください。FlowHuntはクロール時にこれらの要素を無視し、チャットボットのナレッジベースに含めません。"

"FlowHuntはインデックス化したコンテンツをどのように処理・保存しますか？"

"FlowHuntはサイトをクロールし、HTMLをマークダウンへ変換、テキストをチャンクに分割してベクターデータベースに保存します。これによりセマンティックサーチが可能となり、AIが関連する言葉を理解し、ユーザーの質問に適切な回答を届けます。"

"セマンティックサーチとは何で、なぜ重要なのですか？"

"セマンティックサーチは、ベクターデータベースを使って単なる一致ではなく言葉の意味や関係性を理解する仕組みです。ユーザーが異なる表現を使っても、チャットボットはより賢く文脈に合った応答を返せるようになります。"

インデックス化をスキップするコンテンツ

FlowHuntのスキップインデックス機能で、繰り返しや不適切なコンテンツをAIチャットボットのナレッジベースから除外し、関連性と安全性の高いやり取りを実現します。

AI Chatbot Indexing Semantic Search

どんなに高性能でも、AIは学習した情報を伝達するだけの機械に過ぎません。冗談や仮定、皮肉などを理解できないため、ときに面白おかしく、または深刻な誤答をしてしまうことがあります。チャットボットが思わぬAIスキャンダルを起こさないようにし、あなたのコンテンツを正確に理解させるためにも、AIに「どの内容をスキップするべきか」を伝えることができます。

AIの信頼性を確保するには、学習する情報を管理することが重要です。すべてのコンテンツがチャットボットに適しているとは限りません。flowhunt-skip クラスを使えば、FlowHuntがインデックス化しないコンテンツを指定できます。このクラスが付与されたHTML要素は、処理時に無視されます。

skipパラメータを使うべきタイミング

このクラスを使う主な理由は2つありますが、不要または不適切だと思うコンテンツなら、どんなものでも自由に使ってかまいません。

重複コンテンツのスキップ: 類似した内容が繰り返しインデックス化されると、AIは内容の区別や分類が難しくなります。重複情報をスキップすることで、テキスト処理にかかるコストも長期的に削減できます。
リスクや不適切な情報のスキップ: AIが誤った、有害な、または文脈に合わない回答をしそうな情報は除外しましょう。ブランドのトーンでジョークや強い言葉を多用している場合は特に注意が必要です。ほかのコンテンツには最適でも、ユーザーは皮肉なボットを好まないかもしれません。

flowhunt-skipパラメータの使い方

FlowHuntはあなたのウェブサイトをクロールし、チャットボットに文脈を与えます。FlowHuntがインデックス化した内容は、チャットボットがいつでも利用する可能性があります。

インデックス化したくないコンテンツのHTML要素に flowhunt-skip クラスを追加しましょう。このクラスが付いた要素は無視され、チャットボットに一切渡りません。

クラスの使用例:

<div class="flowhunt-skip">
  <h2>重複コンテンツ</h2>
  <p>この内容は重複しています。FlowHuntには再度インデックス化してほしくありません。</p>
</div>

段落単位や要素の一部だけをスキップすることも可能です:

<div>
  <h2>私のコンテンツ</h2>
  <p>この段落はインデックス化されます。</p>
  <p class="flowhunt-skip">この情報はチャットボットに使わせたくありません。</p>
  <p>この段落はインデックス化されます。</p>
</div>

インデックス化の仕組み

クロール処理はバックグラウンドで、設定したスケジュール通りに実行されます。HTMLページのみをダウンロードし、画像やメディアはリンクとして保存されます。リダイレクトも追跡され、カノニカルURLも評価されます。

クロールが完了すると、HTMLコンテンツはプレーンなマークダウンテキストに変換されます。この過程で一部の情報は削除されることもあります。最終的なマークダウンテキストがチャットボットに文脈情報として提供され、必要なときにAIが参照できます。

AIはどの情報を選ぶのか

マークダウンテキストはチャンクに分割され、ベクトル化されてベクターデータベースに保存されます。このデータベースは単語の意味に値を割り当て、AIはピッタリ一致しなくても関連語を理解できるようになります。

単語は割り当てられた値に基づきグリッド上に配置され、コンピュータはどの単語が意味的に近いかを把握できます。

テキストをチャンク化し、ベクトル化してベクターデータベースに保存

注: これは非常に単純化したモデルです。実際にはAIは数千の単語、フレーズ、文全体でこれを行っています。

ベクターデータベースから情報を検索することを「セマンティックサーチ」と呼びます。AIがベクターデータベース内の単語の意味を検索・評価し、それを使って回答を生成する能力です。

ユーザーがクエリを投稿すると、ボットはその単語をベクトルに変換し、あなたのコンテンツから近いものをデータベース内で探します。一致または類似したコンテンツを見つけると、その情報を元に回答を作成します。

セマンティックサーチが重要な理由

あなたがオンラインペットショップを運営していると想像してください。顧客から次のような問い合わせがきたとします。

「子猫用のごはんは売っていますか？」

実際には「junior」という単語の商品名で販売していますが、「kitten」ではありません。それでもボットは「junior cat food（子猫用キャットフード）」が「food for kittens（子猫用のごはん）」と同じ（または非常に近い）ことを理解し、正確に顧客を商品へ案内できます。

ベクターデータベースでセマンティックサーチがなければ、チャットボットは単純に「food for kittens」を扱っていないと答え、将来の顧客を失うことになりかねません。FlowHuntなら、こうした心配も不要です。

よくある質問

FlowHuntのスキップインデックス機能とは何ですか？: スキップインデックス機能では、特定のコンテンツをAIチャットボットで利用しないよう除外できます。HTML要素にflowhunt-skipクラスを追加すると、不適切または重複するコンテンツがインデックス化されず、チャットボットの応答にも使われません。
AIチャットボットをトレーニングする際、特定コンテンツをスキップする理由は？: 繰り返しや不適切、または誤解を招く可能性のあるコンテンツを除外することで、AIチャットボットはより関連性が高く安全かつ正確な応答を提供できます。また、パフォーマンス向上や不要な処理コストの削減にもつながります。
flowhunt-skipクラスの使い方は？: インデックス化したくないHTML要素にflowhunt-skipクラスを追加してください。FlowHuntはクロール時にこれらの要素を無視し、チャットボットのナレッジベースに含めません。
FlowHuntはインデックス化したコンテンツをどのように処理・保存しますか？: FlowHuntはサイトをクロールし、HTMLをマークダウンへ変換、テキストをチャンクに分割してベクターデータベースに保存します。これによりセマンティックサーチが可能となり、AIが関連する言葉を理解し、ユーザーの質問に適切な回答を届けます。
セマンティックサーチとは何で、なぜ重要なのですか？: セマンティックサーチは、ベクターデータベースを使って単なる一致ではなく言葉の意味や関係性を理解する仕組みです。ユーザーが異なる表現を使っても、チャットボットはより賢く文脈に合った応答を返せるようになります。