OPEN DATA CURATION

オープンデータ・キュレーション

台湾オープンデータ × Twinkle Hub の意味レイヤーガイド

台湾政府のオープンデータプラットフォームには、5万件近いデータセットがあります。この数字は、使おうとする誰にとっても圧倒的です。どれが重要なのか、どれがいつまで更新されているのか、どの2つの表を突き合わせられるのか分からず、ましてや自分が気にかけている問いとどう関係するのかは見当もつきません。

Taiwan.md は台湾について900本以上の記事を書いてきました。その一本一本の背後には「この話はどのデータで検証すべきか」という判断があります。このページはその判断の層を開いて見せるものです。私たちがデータ基盤をどう評価しているのか、ひとつの問いを分析するときにどのデータセットをどう組み合わせるのか、そしてそれぞれのデータ領域がこの島のどんな物語とつながっているのか。

0
政府データセット
0
判決文全文
0
国家試験問題
0
栄養分析行
0
調達記録

この下に広がる網は本物です。左側は20のデータ領域と5つの垂直コーパス(リアルタイムでクロール)、右側はすでに書かれた Taiwan.md の記事。一本一本の線が、このページのキュレーション判断そのものです。ドラッグしたりホバーしたりしながら、複雑なデータが明快な物語へつながっていく様子を見てください。

データ領域 垂直コーパス Taiwan.md 記事 Taiwan.md 意味レイヤー 🧬

エコシステムの地図:三つの層、それぞれの持ち場

AI(あるいは人間)が「台湾についての問い」に本当に答えるには、三つの層の協働が必要です。データの家、クエリの道、そして意味の層。

🏛️
データの家(SSOT)

data.gov.tw と各機関のシステム

政府データオープンプラットフォームは、各データセットの恒久的なアイデンティティです。データセット番号、ライセンス、所管機関、元データのダウンロード。すべての引用は、最終的にここへ帰るべきです。

約5万件のデータセット
🔌
クエリの道(MCP ゲートウェイ)

Twinkle Hub

台湾初の MCP Hub。100以上の政府ポータルに散らばるデータを、単一のクエリエンドポイントに包み込みます。セマンティック検索、構造化された行クエリ、5つの垂直領域ツール。AI が一度の呼び出しでデータを手にでき、ポータルをまたぐ人力の泥沼を省けます。

21のツール・20の領域
🧬
意味の層(キュレーション)

Taiwan.md

データは自分では語りません。どのデータセットを指すべきか、それがどの論点を検証するのか、どの歴史とつながるのか——それがキュレーションの仕事です。Taiwan.md の記事は2026年6月から順次「公開データ」セクションを備え、物語と一次データを縫い合わせています。

900本超の記事・15のデータセットポインタ稼働中

三つの軸での評価:実測で何が見えたか

以下は、Taiwan.md がいちユーザーとして、自前の検証ツールで行った一次評価です(2026年5月と6月の2回の実測)。三つの軸に沿って開いて見せます。広告ではなく、健康診断です。

🗃️

データの完全性

カバレッジは本物、しかも単なるミラーを超えている
  • data.gov.tw の全量の約96.6%を収録(49,343件のデータセット、2026-06-05時点の棚卸し)。さらに13.5万件の政府電子調達記録と立法院データも追加収録
  • 20の領域分類それぞれに「典型的な問い」と「アンカー例」が付き、各データセットには品質階層(プラチナから銅まで)・更新頻度・フォーマット・結合可能なキーを明記
  • 独自キュレーションのデータセットが政府ポータルの穴を埋めている:全国不動産実取引価格登録(売買/完成前販売/賃貸)は内政部地政司のシステムに直結
  • 5つの垂直コーパスは単純なミラーを超えている:特許全文、国家試験問題バンク、判決文、医薬品許可証と食品栄養(規模は次節参照)
正直な弱点
  • 検索ランキングが県市スライスに偏る:「出生率」で検索すると南投・桃園・高雄という3つの県市レベルのデータセットが返り、全国スケールの1件は人の目で拾うしかない——まさにキュレーションが存在する理由
  • 領域ごとのデータセット総数は照会できず、棚卸しは公式の公称値に頼るしかない
  • 一部の古いデータセットはいまだ正規化されていない ODS 形式で、構造化された行クエリができない
🫀

安定性

alpha の素顔:走るのも速く、変わるのも速い
  • クエリ遅延は実測でキャッシュヒット時100ms未満。毎回のレスポンスに trace_id とコスト欄が付き、透明性が高い
  • ツール説明にバージョン番号が埋め込まれており(v1.11.2 集計クエリ、v1.18 判決文)、イテレーションのリズムが見える
  • 判決文コーパスは現在 alpha の範囲を明記している(2024-05〜2026-03の約124万件)——境界をはっきり示すほうが、完全なふりをするより誠実
正直な弱点
  • 2か月で2回の API インターフェース変更:2026-05-11から06-10の間に、接続方式が session ハンドシェイクへ変わり、ツールは40個から21個へ再編され、決定論的ツール群はまるごと廃止された
  • alpha 期間ですでにレート制限(HTTP 429)が発生しているが、制限ウィンドウは未公表
  • 私たちの対策:薄いラッパー層でインターフェース変更を隔離し、記事からの参照はすべて静的ポインタとして書き、実行時に API へ依存しない——alpha サービスへの接続はすべてこうあるべき

アクセスの簡素化

これがいちばんの強み
  • 1つの MCP エンドポイントが100以上の政府ポータルを置き換える:検索・メタデータ取得・行クエリ・集約の4段構成で、フィールドスキーマが一貫している
  • 構造化された行クエリは SQL 条件と集計に対応し、正規化済みのデータセットはそのままデータベースとして使える
  • 同じ住所・年・行政区の問いに、かつては3〜5のポータルをまたいで15〜30分の人手照合が必要だった。いまは一度の呼び出しで1秒未満
  • ワンクリックのインストールパッケージで Claude、Cursor など10種以上の AI クライアントが直接つながる——「AI が台湾のデータを読める」ことの摩擦が一桁減った
正直な弱点
  • API キー(bearer token)が必要。現在は alpha につき無料、将来はツール単位の課金——無料の経路が永遠に残るのかは、オープンデータのエコシステムが問い続けるべき問題
  • サービス自体はクローズドソース:データは開かれているが、通り道は今のところそうではない。data.gov.tw の元データダウンロードは、どんなゲートウェイをも迂回できる最後の保険であり続ける

5つの垂直コーパス:ミラーを超えた部分

データセットを検索インターフェースで包むだけなら珍しくありません。以下の5つの垂直領域はセマンティック検索と構造化抽出まで踏み込んでおり、Twinkle Hub が「data.gov.tw のミラー」を超えている部分です。

特許

TIPO 発明特許公開案件の全文
全文語意檢索

特許コーパスを自然言語で照会でき、完全な技術記述と請求項を取得できます。台湾の産業記事を書くとき、「この会社は本当にこの技術を持っているのか」を、初めてセマンティック検索で検証できるようになりました。

国家試験

64,815部の試験問題・32万問(2012–2025)

考選部の歴代試験問題と設問単位の検索。台湾の国家試験文化(公務員ブーム、予備校街)は、まだデータで語られたことのない物語です。

判決文

約124万件(2024-05〜2026-03、alpha)

判決文コーパスを平易な言葉で検索できます。司法・労使・賃貸トラブル系の記事における「実務で裁判所はどう判断しているのか」に、検証可能な入口ができました。

医薬品と健康

71,836件の医薬品許可証・96,803の ICD-10 中国語コード

医薬品許可証、添付文書の構造化フィールド、健康食品認証、相互作用の一次スクリーニング。健康保険・医療記事のファクト層です。

食品栄養

226,825行の栄養分析

衛生福利部の食品栄養成分データベース。食材ごとに20余りの栄養素が載り、栄養素別のランキングも一食分の合計計算もできます。夜市・食文化記事の数字の土台です。

規模バーは対数スケールです。判決文コーパスは医薬品許可証の17倍あり、線形で描くと残りの4本は見えないほど潰れてしまいます。

分析レシピ:ひとつの問いを読み解くために、どのデータをどう組むか

ここがこのページの核心です。各カードはひとつの実在する分析の問い:どのデータセットを使い、どのキーで組み合わせ、どの方法で見るのか。そして、どの記事がすでにこの分析を物語として書き上げたのか。

居住正義:政府が建てた安い住宅は、最後に誰を太らせたのか?

組み合わせ方: 行政区と団地名で揃えます。国民住宅の分譲記録は「政府が当時いくらで売ったか」を、実取引価格登録は「同じ住所が今いくらか」を、社会住宅統計は「売るのをやめて貸すことにした後の量」を与えてくれます。

最適な分析方法: 同じ団地で時系列を作り、政策の節目で区切って対照します。1985年の分譲、2002年の壁の撤去、2016年の「貸すだけで売らない」、2026年の桃園での販売再開。値上がり倍率を年数で割れば、それが「資産のエスカレーター」の傾きです。

エネルギー転換:原発がゼロになり、また再稼働へ。数字の上では何が起きたのか?

組み合わせ方: 発電実績の表からは年間発電量と設備利用率が、号機一覧からは各号機の退役時点が得られます。2つの表を年度で揃え、その上に国民投票と政策の節目を重ねます。

最適な分析方法: 設備利用率の年次カーブを1本描き、3回の国民投票(2018、2021、2025)に印を付けます。カーブはどうゼロへ向かったのか、投票後1年以内に動いた数字がひとつでもあったのか——「政治の決定」と「物理の現実」の時差がおのずと浮かび上がります。

健康保険の財政:誰が使い、誰が払い、この制度はあと何年持つのか?

組み合わせ方: 年齢層別の加入者数から「払う人」と「使う人」の構造比を算出します。議事録は保険料率決定のタイムラインを、弱者補助統計は「能力に応じて払う」の執行面を与えてくれます。

最適な分析方法: 年齢構造比を四半期ごとの系列にし、保険料率決定の節目を重ねます。構造は悪化し、料率は動かない。その間の穴を何で埋めるのか(公費繰入、点数単価、一部負担)。議事録の中の「調整せず維持」の一回一回に、対応する代価の項目があります。

民主主義の品質:ひとつの選挙の母集団はどれだけ大きく、取り締まりはどれだけ強いのか?

組み合わせ方: 選挙人数は各回の選挙の母集団を、選挙罷免法の裁判統計は買収と選挙介入の歴年の有罪確定数を与えます。どちらも県市別に切り分けられ、選挙結果と揃えられます。

最適な分析方法: 選挙ごとに「母集団 × 有罪率」の対照を作り、回をまたいで取り締まり強度の変化を比べます。2026年のこの回には AI 偽情報という新しい取り締まり重点が加わりました。従来の2項目(買収、選挙介入)のベースラインを先に立ててこそ、新しい脅威の量に参照系が生まれます。

ストリート経済:23万の屋台の生産額は、どうやって算出されたのか?

組み合わせ方: 行政院主計総処の5年ごとのセンサスは全国の露店商の母集団(屋台数、従業者、売上)を、県市の管理対象リストは「政府に正式に認められた夜市」の名簿を与えてくれます。

最適な分析方法: 期をまたいだセンサス比較が鍵です。屋台数と売上の5年間の変化を、モバイル決済の浸透や観光客数と対照します。次のセンサスが公表されたら、23.3万の屋台を引用しているすべての記事はここへ戻って数字を照合すべきです。

すでに書かれた物語 夜市の経済学 · 夜市文化

交通安全:1,400万台のバイクと毎年3,000人の命の関係は?

組み合わせ方: 車両登録台数が分母(リスク曝露量)を、事故死傷が分子を与えます。県市レベルの長期系列(桃園の24年分)をまず方法のテンプレートにし、その後ほかの県市へ広げます。

最適な分析方法: 死亡者の絶対数だけを見てはいけません——10万台あたりの死傷率で正規化し、バイクと自動車を分けて計算します。「歩行者地獄」論争に必要なのは、まさにこの分母です。

20のデータ領域 × Taiwan.md の物語マップ

左は Twinkle Hub の領域分類(リアルタイムでクロール)、右は私たちのキュレーション対応:その領域のデータが、この島のどの記事とつながっているか。「物語はこれから」と記した領域は、旗艦データセットと分析パスのキュレーションは完了し、記事はまだ書かれていません。それは私たちの開発マップであり、書いてみたい誰かへの招待状でもあります。

不動產與地政

realestate_land

土地、建物、房屋、都市計畫、地價、建照使照、不動產交易、租金

典型的な問い: 某地段近一年實價中位數;某學區內近期使用執照核發數;都市更新案件清單

經濟、產業、公司商業

economy_business

營業/公司/工廠登記、產業統計、進出口貿易、景氣/物價指數、金融市場、上市櫃公司、公平交易

典型的な問い: 某統編公司歷史登記變更;本月某產業景氣燈號;某產業上市公司營收

政府採購與補助

procurement_subsidy

招標/決標公告、補助案件、獎助、政府支出予個人

典型的な問い: 某廠商近五年得標金額;某機關本月補助清單

物語はこれから 誰が台湾を落札したのか:13.5万件の落札記録に見る政府アウトソーシングの地図

分析の方法: 統一番号で落札記録を商業登記につなぎます。ある業者が歴年、どの機関からいくら落札してきたのか。金額・機関・年の3軸でヒートマップにすれば、公共支出の地理と人脈がおのずと浮かび上がります。

政府預決算與會計

public_finance

中央/地方總預算、會計月報、附屬單位預算、債務、國庫、主計統計

典型的な問い: 某機關歷年預算趨勢;中央政府公共債務餘額

物語はこれから 国家の負債表:中央政府はいくら借りていて、どんな速度で返しているのか

分析の方法: 債務残高を月次系列にし、GDP と公共債務法の起債上限に照らします。さらに歴年の特別予算(防疫・前瞻インフラ・強靱化)を一件ずつ重ねれば、「例外的な支出」が常態へ変わっていく様子が見えてきます。

稅務與稅收

tax_revenue

綜合所得稅、營業稅、地價/房屋/牌照稅、稅捐稽徵、申報核定統計

典型的な問い: 某縣市本月稅收結構;某稅目歷年實徵淨額

物語はこれから あなたの県市はどの税で生きているのか:地方財政の体質検査

分析の方法: 各県市の実徴収純額を税目別に分解します。誰が地価税と家屋税に頼り(都市部)、誰が中央統籌分配税款(交付金)に頼っているのか(非都市部)。人口・住宅価格データと行政区コードで揃えれば、財政自主性のランキングはおのずと算出できます。

交通運輸、道路與停車

transport

車禍事故、公車/客運/捷運/鐵路/航班、停車場、即時路況、油價、車籍、道路設施

典型的な問い: 某路口近一年事故數;即時公車到站;本市公有停車場剩餘車位

治安、警消與災防

public_safety

刑案、警政、消防/救護、災害示警、地震/颱風/淹水、海巡、110/119

典型的な問い: 本市本月詐騙手法統計;即時災害示警;消防救護案件

つながる記事 台風

司法、法務、矯正與裁罰

judicial_legal

法院判決、檢察偵查/起訴、矯正/監所/受刑人、訴願、政府機關裁罰名單

典型的な問い: 某公司被金管會裁罰歷史;某地檢偵查終結概況

立法院/國會

legislature

立法院議案、法律提案、表決、公報、質詢、發言、IVOD 影音索引、立委個人資料、選區、會議記錄。

典型的な問い: 某委員第N屆提了哪些法案;某黨團對 X 議案的表決傾向;某議題在公報的歷次發言

つながる記事 ひまわり学生運動

醫療、衛生、食品與藥物

health_food

醫事機構、健保特約、藥局、藥品/食品許可、疫情、長照、母嬰親善、食安

典型的な問い: 住家附近健保藥局;某藥品/醫材許可資訊;近期傳染病通報

環境、氣象、生態與水文

environment

空品 AQI、河川水質、雨量、水庫、廢棄物回收、林班、生態保育、噪音、碳排

典型的な問い: 今日本區 AQI;某河川水質歷史;本市資源回收成果

教育與科研

education_research

各級學校、教師/學生統計、補習班、圖書館、科研計畫、專利、學位論文

典型的な問い: 某學區學校清單;某學校歷年學生數;某機構研究專利

農林漁牧

agriculture_fisheries

農產交易、畜牧場、漁港/漁船、農藥/肥料、農會、養殖、畜產統計

典型的な問い: 某果菜市場今日交易行情;某縣畜牧場分布

勞動與就業

labor_employment

違反勞動法令、薪資、職缺、職業訓練、勞退/勞保、職災

典型的な問い: 某雇主違反勞動法令紀錄;某產業薪資中位數

物語はこれから 保険加入賃金の天井:労働部の3つの表から見える、台湾人の本当の給料

分析の方法: 労働保険・就業保険・労災保険の3系統の加入賃金を、業種と事業所規模でクロス集計します。注意すべきは45,800元の加入上限が生む右側の打ち切り。先に処理しないと高賃金業種の平均は系統的に過小評価され、「平均賃金」論争の半分はここから来ています。

社會福利、戶政、人口、選舉與公務人事

social_population

人口/戶籍/出生/死亡/結婚/離婚、低收入戶、身心障礙、原住民/新住民、選舉投票、公務員人事

典型的な問い: 某選區歷次得票結構;某縣身心障礙人口;本市本月人口變動

文化、觀光與體育

culture_tourism_sport

景點、博物館、古蹟、寺廟、活動行事曆、體育場館、運動賽事

典型的な問い: 本週某縣市活動;某博物館館藏

外交、領事與兩岸

foreign_affairs

外交部公告、領事/簽證/護照、駐外館處、兩岸貿易/政策/案件、僑務、國際合作、新南向、邦交國

典型的な問い: 某國家近年我國進出口金額;近期外交部聲明 / 兩岸政策談話;簽證 / 護照申辦規定;駐外館處清單與聯絡資訊

政府公告與檔案

gov_publication

機關新聞稿、公報、最新消息、電子公布欄、公文範本、檔案目錄、施政方針、資訊公開申請、公共政策參與

典型的な問い: 本週某機關新聞稿;行政院公報全文檢索;某類公文 / 表單範本;政府資訊公開申請統計

物語はこれから 公報の中の台湾:政府は毎月、自ら何を公告しているのか

分析の方法: 公報全文から法規改正キーワードの時系列を作り、legislature 領域の立法院記録と対照します。行政の公告と立法の軌跡のあいだの時間差こそ、ひとつの政策が本当に効力を持つまでの速度です。

地理底圖(橫向層)

geo_basemap

行政區界、村里界、門牌、坐標、路網、河系、土地利用

典型的な問い: 作為其他資料集的 join 來源;空間查詢

能源、水電瓦斯與電信(橫向層)

utilities_telecom

電力供需、加油站、自來水、瓦斯、再生能源、電信與寬頻、無線網路

典型的な問い: 即時電力負載;某行政區自來水水質;某地加油站清單

結合の方法論:2つの表を突き合わせるためのキー

単一のデータセットは点にすぎず、組み合わせられて初めて網になります。以下は、私たちの実測で最も役に立った結合の手がかりです。

更新頻度=分析の解像度:15のショーケースデータセットのスペクトラム

各点はこのページで引用しているデータセットのひとつで、ホバーすると名前が見えます。分析を設計する前に、自分のデータがスペクトラムのどちら側に落ちるかをまず確かめてください。

每1月 ×4
每3月 ×2
每1年 ×3
每4年 ×1
每5年 ×1
不定期 ×4
← 毎月更新:イベントスタディが可能 5年に1度:期をまたぐ比較のみ →

行政区コード

最も汎用的な結合キーです。県市と郷鎮市区の標準コードによって、人口・住宅価格・事故・税収を同じ地図に揃えられます。同名の区(2つの信義区)もコードで曖昧さを解消できます。

統一番号

会社の身分証です。商業登記、調達の落札、特許出願、処分リストのすべてに統一番号が付いています——1つの会社の完全な足跡を追うなら、これに頼ります。

経緯度と観測所コード

環境データ(大気質、水質、気象)は観測所に、地理データは座標に紐づきます。行政区コードとの相互変換が空間分析の第一歩です。

品質階層

プラチナから銅までの階層は「このデータセットはそのまま使えるか」のクイック判定です。プラチナ級の多くは正規化済みで、構造化された行クエリが可能。未検査のもの(独自キュレーションの実取引価格登録など)は自分で検証する必要があります。

更新頻度すなわち分析の解像度

毎月更新のデータはイベントスタディができ、毎年のものはトレンドしか見えず、5年ごとのもの(露店商センサス)は期をまたぐ比較しかできません。まず頻度を見てから分析を設計する。逆にしてはいけません。

二層ポインタ原則

Taiwan.md の記事がデータセットを引用するとき、リンクは常に data.gov.tw か所管機関の恒久ページを指し、クエリ層(Twinkle Hub)は並列の付加価値ルートに置きます。データの家とクエリの道を分けておけば、どちらの層が変わってもリンクは切れません。

ツールカタログ:21ツールの完全リスト

以下は MCP エンドポイントから直接クロールしたものです(ページの再ビルドごとに更新)。グルーピングは私たちが加えました。

データセット4点セット + 領域インデックス ×5

  • search_datasets Search Taiwan government open datasets (台灣政府開放資料 / data.gov.tw /
  • get_dataset 取得資料集完整 metadata 與樣本資料列。
  • query_rows 讀取已 normalise 資料集的實際列;支援聚合查詢(v1.11.2+)。
  • materialize_dataset 強制下載並轉換指定資料集(若已 cache 則為 no-op)。
  • list_domains 列出全部 19 個 domain 標籤的定義(key、中文名、scope、典型問題、anchor 範例)。

特許 ×2

  • search_patents 以自然語言查詢 TIPO 發明專利公開案 corpus (data.gov.tw dataset 15992,
  • get_patent_body 取得單一專利的完整 description body (技術領域 / 先前技術 / 實施方式)

国家試験 ×3

  • search_exam 以自然語言檢索台灣國家考試試卷 (dataset 170565,考選部,OGDL).
  • search_exam_questions 以自然語言 + (可選) 關鍵字過濾, 檢索國家考試題目級別.
  • get_exam_paper 取得單一國考試卷的全部題目 + 標準答案 (測驗題).

判決文 ×2

  • search_judicial 以白話 + (可選)關鍵字 / 結構化過濾,檢索台灣判決書 corpus.
  • get_judicial_full 取單一判決書完整 metadata + JFULL + T3 抽出欄位 (若已處理).

医薬品と医療コード ×6

  • lookup_icd10 ICD-10-CM 中文版查詢 (衛福部健保署翻譯 v2023, data.gov.tw 177507).
  • search_drug 衛福部食藥署 全部藥品許可證 search (data.gov.tw 9122, 71,836 件).
  • get_drug_details 取單一藥品許可證的全 28 欄詳細 (data.gov.tw 9122).
  • search_health_supplements TFDA 健康食品許可證 (data.gov.tw 6951, 562 件).
  • search_drug_label 搜 twinkle-ai/tw-drug-labels-vision (CC-BY-4.0, ~72k 藥品仿單) 結構化欄位.
  • check_drug_interaction 初步篩查多藥品之間的交互作用 — naive substring scan over each

食品栄養 ×3

  • query_food_nutrition 衛福部 台灣食品營養成分資料 (data.gov.tw 8543, 226,825 行).
  • search_foods_by_nutrient 依單一營養素排行食物 (per 100g) — 衛福部食品營養成分 dataset 8543.
  • analyze_meal_nutrition 給定一頓餐 (食物名 → 克數), 算總營養成分.

すでにデータ層につながった記事

2026年6月から、記事の末尾に「公開データ」セクションを加え始めました。各記事の論点を検証(あるいは反証)できるデータセットを列挙し、「なぜこれを指すのか」を一言添えています。第一陣の6本:

Twinkle Hub は alpha 段階にあり、このページの評価はその進化に合わせて更新されます。Taiwan.md と Twinkle Hub のあいだに現在、商業的な関係は一切ありません。このページはヘビーユーザーによる一次健康診断であり、同時にひとつの招待状でもあります。データの層と意味の層が手を組んで初めて、台湾は完全に理解されるのです。

このページのツールと領域リストのクロール日時 2026-06-10 · hub.twinkleai.tw · data.gov.tw 🧬