データカバレッジと semantic tag
Signal Foundry の会社母集団、主要データのカバレッジ、semantic tag の使い方と限界を確認します。
このページの内容9項目
このページは、Signal Foundry がどの会社母集団を見ていて、どのデータがどれくらい埋まっていて、semantic tag をどう使うのかを確認する場所です。
日常の会社検索では、このページを毎回読む必要はありません。低ヒット、0 件、テーマ検索の精度確認、データ品質レビューのときに戻ります。
先に結論
- カバレッジの主母数は
有効会社です。hidden / closed / 会社以外の entity は主要 KPI から外します。 - 全社カバレッジと、上場企業や Webサイトあり会社などの優先母集団カバレッジは分けて読みます。
- semantic tag は会社カードを速く探すための検索補助です。タグ単体を会社の公式属性として扱いません。
- テーマ検索は
company searchから始め、必要なら地域、業種、市場区分、採用、建設許可などの対応済み条件を明示します。 - 財務しきい値を決定的に扱う場合は、自然文
qに残さずcompany_query.v1を生成してsf query --file company-query.json --jsonで実行します。 weak、unsupported、needs_human、warnings[]がある結果を 0 件成功として扱いません。
まず見る command
通常の利用では、Company Search / Company Card の返却に含まれる coverage と warning を読みます。
sf company profile jpx_7203 --json sf company search "生成AIに関連する上場企業" --json sf company search "情報・通信業の上場企業で生成AIに関連" --json
見る key:
source_coveragemeta.source_coveragemeta.coverage_warningsdefinition.warnings[]warnings[]gaps[]companies[].reasoncompanies[].why_includedcompanies[].quality_rank
全体集計を見る data health は内部 release gate です。公開 CLI では通常 workflow として使わず、個別 query の妥当性は実際の company response の coverage、rank、reason、evidence で確認します。
母集団の定義
カバレッジを見るときは、まず分母を固定します。
| 分母 | 意味 | 使いどころ |
|---|---|---|
有効会社 | entity_kind = company かつ registry_status = active の会社 | 主要 coverage KPI |
検索インデックス内 | 実際に会社検索や一覧に投影済みの有効会社 | API / CLI の検索準備状態 |
EDINET/TDnet観測あり | 開示系の観測がある会社 | 上場企業、財務、開示テーマの coverage |
Webサイトあり | 公式サイトや会社HPが分かっている会社 | Web由来の追加調査、技術情報、事例探索 |
求人あり | 求人ソースから採用活動が見えている会社 | 採用シグナル、AI求人、営業タイミング |
建設業許可あり | 建設業許可ソースに紐付いた会社 | 建設・工事・許可業種の探索 |
「全社で低い」ことが、そのまま「プロダクトとして弱い」とは限りません。例えば財務や開示は上場・開示会社の母集団で見るべきです。逆に、会社名や法人番号のような基礎データは有効会社全体で高い coverage が必要です。
現在の代表 snapshot
以下は 2026-05-31 の Studio coverage snapshot からの代表値です。固定の保証値ではなく、現在地を理解するための目安です。
| 指標 | 件数 | 分母 | Coverage | 読み方 |
|---|---|---|---|---|
| 有効会社 | 4,434,329 | - | - | hidden / closed / 会社以外を除いた主母数 |
| 検索投影済み会社 | 4,433,928 | 4,434,329 | 99.991% | 会社検索・一覧に投影済み |
| 法人番号 | 4,434,329 | 4,434,329 | 100% | 有効会社に対する法人番号 |
| 正式社名 | 4,433,928 | 4,434,329 | 99.991% | 最低限の会社名 |
| 都道府県 | 4,424,631 | 4,434,329 | 99.781% | 粗い地域情報 |
| Webサイト | 110,096 | 4,434,329 | 2.483% | 企業サイト調査の入口 |
| 従業員数 | 1,474,144 | 4,434,329 | 33.244% | 全社では低め。優先母集団も見る |
| gBizINFO観測 | 4,419,862 | 4,434,329 | 99.674% | 法人基本情報の広い coverage |
| 日本年金機構観測 | 1,349,576 | 4,434,329 | 30.435% | 社会保険系の会社 signal |
| EDINET観測 | 3,599 | 4,434,329 | 0.081% | 全社分母では低い。上場・開示会社向け |
| TDnet観測 | 3,839 | 4,434,329 | 0.087% | 全社分母では低い。上場・開示会社向け |
従業員数は、優先母集団で見ると意味が変わります。
| 母集団 | 分母 | 従業員数あり | Coverage |
|---|---|---|---|
| 有効会社 | 4,434,329 | 1,474,144 | 33.244% |
| EDINET/TDnet観測あり | 3,839 | 3,745 | 97.551% |
| gBizINFO企業URLあり | 35,598 | 35,580 | 99.949% |
| Webサイトあり | 110,096 | 94,219 | 85.579% |
semantic tag とは
semantic tag は、会社カードに付く検索補助のラベルです。自然文やテーマ語を、毎回重い横断検索で解釈するのではなく、事前に作った company card と tag を使って候補を速く返すために使います。
代表例:
| Tag | 使い方 |
|---|---|
has_website | Webサイトがある会社を優先する |
has_jobs | 求人がある会社を探す |
ai_jobs | AI関連求人がある会社を探す |
construction_license | 建設業許可がある会社を探す |
genai_interest | 生成AIへの言及や関心が見える会社を探す |
case_or_customer_signal | 導入事例・顧客会社・案件 signal がある会社を探す |
sales_ready | 営業候補として使いやすい signal がある会社を探す |
website_technology_detected | 企業サイトから技術情報が取れている会社を探す |
contactable | 連絡先や到達可能性の signal がある会社を探す |
data_dense | 複数ソースが揃っている会社を優先する |
semantic tag は、会社の法的属性や公式プロフィールではありません。なぜ候補に入ったかを説明するための reason、why_included、evidence、source_coverage と合わせて読みます。
semantic tag の現在地
2026-05-31 の Studio inventory では、company card semantic tag は次の状態です。
| 指標 | 値 |
|---|---|
| company cards 推定 | 5,766,090 |
| distinct tag 推定 | 3,073 |
| GIN index | あり |
| fast path index | 6 |
| representative smoke | 12 / 12 ready |
この数字は運用 snapshot です。プロダクト表示や営業資料では、生成日時と分母を合わせて示してください。
テーマ検索での使い方
テーマ起点では、短い語を company search に渡します。
sf company search "iPaaS" --json sf company search "AI営業支援に関連する上場企業" --json sf company search "生成AIに触れているグロース市場の情報通信業" --json
絞り込みは query か対応 flag に明示します。
sf company search "東京都の会社でAI営業支援に関連" --json sf company search "情報・通信業でAI営業支援に関連" --json sf company search "グロース市場で生成AIに関連" --json
確認する key:
companies[].company.display_namecompanies[].reasoncompanies[].why_includedcompanies[].quality_rankcompanies[].query_matchmeta.source_coveragewarnings[]gaps[]
テーマが絞り込みで消える、社名一致だけの会社が上位に出る、といった挙動は検索品質のバグとして扱います。
読み違えやすいこと
| 状態 | 読み方 |
|---|---|
0 件 | 該当企業が存在しない証明ではない。条件、coverage、unsupported を確認する |
weak | 候補作成はできても、保存や断定の前に確認が必要 |
pending | Gold や refresh の反映待ち。結果は根拠 context として扱う |
unsupported | その条件は現在の公開 surface で扱えない |
needs_human | 自動確定すると誤る可能性がある |
| tag あり | 候補化の signal。公式属性ではない |
| evidence あり | 判断材料。すべての条件を完全に証明するとは限らない |
| 財務しきい値 | company_query.v1 と Company Query で実行し、自然文 q のまま Gold-backed と説明しない |
次に読むページ
- 出所と根拠: データの出所
- テーマ検索の実行順: 基本コマンド
- 低ヒット時の復旧: 低ヒット検索の見直し方
- 市場調査: 市場調査