OPEN DATA CURATION
OpenData 策展
台灣開放資料 × Twinkle Hub 的意義層導覽
台灣政府的開放資料平台上有將近五萬個資料集。這個數字對任何想用它的人都是壓垮性的:你不知道哪個重要、哪個更新到什麼時候、哪兩張表可以對在一起,更不知道它們跟你關心的問題有什麼關係。
Taiwan.md 寫了九百多篇關於台灣的文章,每一篇背後都有「這件事該用什麼資料驗證」的判斷。這一頁把這層判斷攤開來:我們怎麼評估資料基礎建設、要分析一件事的時候用哪些資料集怎麼組合、以及每一個資料領域跟島上哪些故事相連。
下面這張網是真的:左側是 20 個資料領域與五大語料庫(即時爬取),右側是已經寫成的 Taiwan.md 文章。每一條線都是本頁的策展判斷。拖拉、懸停,看複雜的資料怎麼接上清晰的故事。
生態地圖:三層各守一層
一個 AI(或一個人)要真正回答「關於台灣的事」,需要三層合作:資料的家、查詢的路、意義的層。
data.gov.tw 與各機關系統
政府資料開放平臺是每個資料集的持久身分:dataset 編號、授權條款、主管機關、原始下載。所有引用最終都該回到這裡。
Twinkle Hub
台灣第一個 MCP Hub,把分散在上百個政府入口的資料包成單一查詢端點:語意搜尋、結構化查列、五個垂直領域工具。讓 AI 一次呼叫就拿到資料,省掉跨入口的人工泥沼。
Taiwan.md
資料不會自己說話。哪個資料集值得指、它驗證哪個論點、跟哪段歷史相連——這是策展的工作。我們的文章從 2026 年 6 月起逐篇接上「公開數據」段,把敘事跟原始資料縫在一起。
三維評估:我們實測到什麼
以下是 Taiwan.md 以使用者身分、用自己的查核工具做的第一手評估(2026 年 5 月與 6 月兩輪實測),按三個維度攤開。不是廣告,是體檢。
資料的完整
- ✓ 收錄 data.gov.tw 約 96.6% 全量(49,343 個資料集,2026-06-05 盤點),外加 13.5 萬筆政府電子採購紀錄與立法院資料
- ✓ 20 個領域分類各帶「典型問題」與「定錨範例」,每個資料集標品質分層(白金到銅)、更新頻率、格式與可串連鍵
- ✓ 自策資料集補了政府入口的洞:全國實價登錄(買賣/預售/租賃)直接接內政部地政司系統
- ✓ 五個垂直語料庫超出單純鏡像:專利全文、國考題庫、判決書、藥證與食品營養(規模見下節)
- △ 搜尋排名偏向縣市切片:搜「出生率」回來是南投、桃園、高雄三個縣市級資料集,全國尺度的那一份要靠人挑——這正是策展存在的理由
- △ 查不到每個領域的資料集總數,盤點只能靠官方宣稱數字
- △ 部分老資料集仍是未正規化的 ODS 格式,無法結構化查列
穩定性
- ✓ 查詢延遲實測快取命中低於 100ms,每次回應帶 trace_id 與成本欄位,透明度好
- ✓ 工具描述內嵌版本號(v1.11.2 聚合查詢、v1.18 判決書),迭代節奏看得見
- ✓ 判決書語料目前明標 alpha 範圍(2024-05 至 2026-03 共約 124 萬筆)——標清楚邊界比假裝完整誠實
- △ 兩個月內兩次 API 介面變動:2026-05-11 到 06-10 之間,連線方式改為 session 握手、工具從 40 個重組為 21 個、整組確定性工具下架
- △ alpha 期已出現流量限制(HTTP 429),但限制窗口未公布
- △ 我們的對策:薄包裝層隔離介面變動,文章引用一律寫成靜態指標、不在執行期依賴 API——任何 alpha 服務都該這樣接
存取的簡化
- ✓ 一個 MCP 端點取代上百個政府入口:搜尋、取 metadata、查列、彙整四段式,欄位 schema 一致
- ✓ 結構化查列支援 SQL 條件與聚合,已正規化的資料集可以直接當資料庫用
- ✓ 同一個地址、年份、行政區問題,過去要跨三到五個入口人工核對 15 到 30 分鐘;現在一次呼叫不到一秒
- ✓ 一鍵安裝包讓 Claude、Cursor 等十種以上 AI 客戶端直接接上——「讓 AI 讀得到台灣的資料」這件事的摩擦力被砍掉一個數量級
- △ 需要 API 金鑰(bearer token),目前 alpha 免費、未來按工具計費——免費路徑會不會永遠存在,是開放資料生態該持續追問的問題
- △ 服務本身閉源:資料是開放的,通道目前不是。data.gov.tw 的原始下載永遠是繞過任何閘道的保底路徑
五個垂直語料庫:超出鏡像的部分
把資料集包成搜尋介面不稀奇;下面這五個垂直領域做了語意檢索與結構化抽取,是 Twinkle Hub 超出「data.gov.tw 鏡像」的部分。
專利
自然語言查詢專利語料,可取完整技術描述與請求項。寫台灣產業文章時,「這家公司真的有這個技術嗎」第一次可以用語意搜尋驗證。
國家考試
考選部歷年試卷與題目級檢索。台灣的國考文化(公職熱、補習街)是還沒被資料化說過的故事。
判決書
白話檢索判決書語料。司法、勞資、租屋糾紛類文章的「實務上法院怎麼判」有了可查證的入口。
藥品與健康
藥品許可證、仿單結構化欄位、健康食品認證、交互作用初篩。健保與醫療文章的事實層。
食品營養
衛福部食品營養成分資料庫:每個食材二十多項營養素,可按營養素排行、可算一餐總和。夜市與飲食文章的數字底。
量級條為對數尺度:判決書語料是藥證的 17 倍,線性畫會把其他四條壓成看不見。
分析組合:要看懂一件事,用哪些資料、怎麼組
這是這一頁的核心。每張卡片是一個真實的分析問題:用哪些資料集、靠什麼鍵組合、用什麼方法看,以及哪篇文章已經把這個分析寫成了故事。
居住正義:政府蓋的便宜房,最後養肥了誰?
怎麼組合: 以行政區與社區名對齊:國宅配售紀錄給「政府當年用什麼價賣出」,實價登錄給「同一個門牌今天值多少」,社宅統計給「不賣改租之後的量」。
怎麼分析最好: 同一社區做時間序列,再用政策節點切段對照:1985 配售、2002 拆牆、2016 只租不售、2026 桃園回賣。增值倍數除以年數,就是「資產扶梯」的斜率。
能源轉型:核電歸零又重啟,數字上發生了什麼?
怎麼組合: 發電績效給年度發電量與容量因數,機組表給每部機的除役時點。兩張表用年份對齊,再疊上公投與政策節點。
怎麼分析最好: 畫一條容量因數年度曲線,標三場公投(2018、2021、2025):曲線怎麼走向零、公投過後一年內有沒有任何一個數字動了——「政治決定」與「物理現實」的時差會自己浮出來。
健保財務:誰在用、誰在繳,這套制度還撐得住幾年?
怎麼組合: 年齡層投保人數算出「繳的人」跟「用的人」的結構比,議事錄給費率決策的時間軸,弱勢補助統計給「量能付費」的執行面。
怎麼分析最好: 把年齡結構比做成逐季序列,疊上費率決策節點:結構在惡化、費率不動,中間的缺口靠什麼補(撥補、點值、部分負擔),議事錄裡每一次「維持不調整」都有對應的代價條目。
民主品質:一場選舉的母體多大、查察強度多強?
怎麼組合: 選舉人數給每屆選舉的母體,選罷法裁判統計給賄選與介選的歷年定罪量。兩者都能按縣市切,跟選舉結果對齊。
怎麼分析最好: 每屆選舉做一組「母體 × 定罪率」對照,跨屆比較查察強度的變化;2026 這屆多了 AI 假訊息這個新查察重點,傳統兩項(賄選、介選)的基線先立好,新威脅的量才有參照系。
街頭經濟:23 萬個攤位的產值是怎麼算出來的?
怎麼組合: 主計總處的五年普查給全國攤販的母體(攤數、從業人員、營收),縣市列管清單給「正式被政府承認的夜市」名錄。
怎麼分析最好: 跨期普查比較是關鍵:攤位數與營收的五年變化,對照行動支付滲透與觀光人次。下一次普查發布時,所有引用 23.3 萬攤的文章都該回來對表。
交通安全:1,400 萬輛機車與每年三千條人命的關係?
怎麼組合: 車輛登記數給分母(暴險量),事故傷亡給分子。縣市級長序列(桃園 24 年)先當方法樣板,再擴到其他縣市。
怎麼分析最好: 別只看死亡絕對數——用每十萬輛車傷亡率 normalize,機車與汽車分開算;「行人地獄」的爭論需要的正是這個分母。
二十個資料領域 × Taiwan.md 的故事地圖
左邊是 Twinkle Hub 的領域分類(即時爬取),右邊是我們的策展對應:這個領域的資料跟島上哪些文章相連。標「故事待寫」的領域,旗艦資料集與分析路徑已經策展完成,文章還沒寫成:那是我們的開發地圖,也是給任何想寫的人的邀請。
不動產與地政
realestate_land 土地、建物、房屋、都市計畫、地價、建照使照、不動產交易、租金
典型問題: 某地段近一年實價中位數;某學區內近期使用執照核發數;都市更新案件清單
經濟、產業、公司商業
economy_business 營業/公司/工廠登記、產業統計、進出口貿易、景氣/物價指數、金融市場、上市櫃公司、公平交易
典型問題: 某統編公司歷史登記變更;本月某產業景氣燈號;某產業上市公司營收
政府採購與補助
procurement_subsidy 招標/決標公告、補助案件、獎助、政府支出予個人
典型問題: 某廠商近五年得標金額;某機關本月補助清單
怎麼分析: 以統一編號把決標紀錄接上商業登記:一家廠商歷年從哪些機關標到多少錢。金額、機關、年份三軸做成熱力圖,公共支出的地理跟人脈會自己浮出來。
政府預決算與會計
public_finance 中央/地方總預算、會計月報、附屬單位預算、債務、國庫、主計統計
典型問題: 某機關歷年預算趨勢;中央政府公共債務餘額
怎麼分析: 債務餘額做月序列,對照 GDP 與公共債務法的舉債上限;再把歷年特別預算(防疫、前瞻、強韌)逐筆疊上去,看「例外動支」怎麼變成常態。
稅務與稅收
tax_revenue 綜合所得稅、營業稅、地價/房屋/牌照稅、稅捐稽徵、申報核定統計
典型問題: 某縣市本月稅收結構;某稅目歷年實徵淨額
怎麼分析: 各縣市實徵淨額按稅目拆開:誰靠地價稅與房屋稅(都會區),誰靠中央統籌分配(非都會)。跟人口與房價資料用行政區代碼對齊,財政自主性的排行自己就算得出來。
交通運輸、道路與停車
transport 車禍事故、公車/客運/捷運/鐵路/航班、停車場、即時路況、油價、車籍、道路設施
典型問題: 某路口近一年事故數;即時公車到站;本市公有停車場剩餘車位
司法、法務、矯正與裁罰
judicial_legal 法院判決、檢察偵查/起訴、矯正/監所/受刑人、訴願、政府機關裁罰名單
典型問題: 某公司被金管會裁罰歷史;某地檢偵查終結概況
立法院/國會
legislature 立法院議案、法律提案、表決、公報、質詢、發言、IVOD 影音索引、立委個人資料、選區、會議記錄。
典型問題: 某委員第N屆提了哪些法案;某黨團對 X 議案的表決傾向;某議題在公報的歷次發言
醫療、衛生、食品與藥物
health_food 醫事機構、健保特約、藥局、藥品/食品許可、疫情、長照、母嬰親善、食安
典型問題: 住家附近健保藥局;某藥品/醫材許可資訊;近期傳染病通報
環境、氣象、生態與水文
environment 空品 AQI、河川水質、雨量、水庫、廢棄物回收、林班、生態保育、噪音、碳排
典型問題: 今日本區 AQI;某河川水質歷史;本市資源回收成果
教育與科研
education_research 各級學校、教師/學生統計、補習班、圖書館、科研計畫、專利、學位論文
典型問題: 某學區學校清單;某學校歷年學生數;某機構研究專利
農林漁牧
agriculture_fisheries 農產交易、畜牧場、漁港/漁船、農藥/肥料、農會、養殖、畜產統計
典型問題: 某果菜市場今日交易行情;某縣畜牧場分布
勞動與就業
labor_employment 違反勞動法令、薪資、職缺、職業訓練、勞退/勞保、職災
典型問題: 某雇主違反勞動法令紀錄;某產業薪資中位數
怎麼分析: 勞保、就保、職災三套投保薪資按行業與單位規模交叉。注意 45,800 元投保上限造成的右側截斷:不先處理,高薪行業的平均值會被系統性低估,「平均薪資」的爭論一半來自這裡。
社會福利、戶政、人口、選舉與公務人事
social_population 人口/戶籍/出生/死亡/結婚/離婚、低收入戶、身心障礙、原住民/新住民、選舉投票、公務員人事
典型問題: 某選區歷次得票結構;某縣身心障礙人口;本市本月人口變動
文化、觀光與體育
culture_tourism_sport 景點、博物館、古蹟、寺廟、活動行事曆、體育場館、運動賽事
典型問題: 本週某縣市活動;某博物館館藏
外交、領事與兩岸
foreign_affairs 外交部公告、領事/簽證/護照、駐外館處、兩岸貿易/政策/案件、僑務、國際合作、新南向、邦交國
典型問題: 某國家近年我國進出口金額;近期外交部聲明 / 兩岸政策談話;簽證 / 護照申辦規定;駐外館處清單與聯絡資訊
政府公告與檔案
gov_publication 機關新聞稿、公報、最新消息、電子公布欄、公文範本、檔案目錄、施政方針、資訊公開申請、公共政策參與
典型問題: 本週某機關新聞稿;行政院公報全文檢索;某類公文 / 表單範本;政府資訊公開申請統計
怎麼分析: 公報全文做法規異動的關鍵詞時間序列,再對照 legislature 域的立法院紀錄:行政公告與立法軌跡之間的時間差,就是一項政策真正生效的速度。
能源、水電瓦斯與電信(橫向層)
utilities_telecom 電力供需、加油站、自來水、瓦斯、再生能源、電信與寬頻、無線網路
典型問題: 即時電力負載;某行政區自來水水質;某地加油站清單
串連方法論:讓兩張表對在一起的鍵
單一資料集是一個點,能組合才是一張網。這些是我們實測下來最有用的串連線索。
更新頻率=分析解析度:十五個示範資料集的光譜
每個點是本頁引用的一個資料集,懸停看名字。設計分析之前先看你的資料落在光譜哪一端。
行政區代碼
最通用的串連鍵。縣市與鄉鎮市區的標準代碼讓人口、房價、事故、稅收可以對齊到同一張地圖;同名區(兩個信義區)靠代碼消歧。
統一編號
公司的身分證。商業登記、採購得標、專利申請、裁罰名單都掛統編——追一家公司的完整足跡靠它。
經緯度與測站代碼
環境資料(空品、水質、氣象)掛測站,地理資料掛座標。跟行政區代碼互換是空間分析的第一步。
品質分層
白金到銅的分層是「這個資料集可不可以直接用」的快篩:白金級多半已正規化、可結構化查列;未檢測的(如自策的實價登錄)要自己驗。
更新頻率即分析解析度
每月更新的資料能做事件研究,每年的只能看趨勢,每五年的(攤販普查)只能跨期比較。先看頻率再設計分析,不要反過來。
雙層指標原則
Taiwan.md 文章引用資料集時,連結永遠指 data.gov.tw 或主管機關的持久頁面,查詢層(Twinkle Hub)是並列的加值路徑。資料的家與查詢的路分開,任何一層變動都不會斷鏈。
工具型錄:21 個工具的完整清單
以下直接爬自 MCP 端點(每次重建頁面時更新)。分組是我們加的。
資料集四件套 + 領域索引 ×5
-
search_datasetsSearch Taiwan government open datasets (台灣政府開放資料 / data.gov.tw / -
get_dataset取得資料集完整 metadata 與樣本資料列。 -
query_rows讀取已 normalise 資料集的實際列;支援聚合查詢(v1.11.2+)。 -
materialize_dataset強制下載並轉換指定資料集(若已 cache 則為 no-op)。 -
list_domains列出全部 19 個 domain 標籤的定義(key、中文名、scope、典型問題、anchor 範例)。
專利 ×2
-
search_patents以自然語言查詢 TIPO 發明專利公開案 corpus (data.gov.tw dataset 15992, -
get_patent_body取得單一專利的完整 description body (技術領域 / 先前技術 / 實施方式)
國家考試 ×3
-
search_exam以自然語言檢索台灣國家考試試卷 (dataset 170565,考選部,OGDL). -
search_exam_questions以自然語言 + (可選) 關鍵字過濾, 檢索國家考試題目級別. -
get_exam_paper取得單一國考試卷的全部題目 + 標準答案 (測驗題).
判決書 ×2
-
search_judicial以白話 + (可選)關鍵字 / 結構化過濾,檢索台灣判決書 corpus. -
get_judicial_full取單一判決書完整 metadata + JFULL + T3 抽出欄位 (若已處理).
藥品與醫療代碼 ×6
-
lookup_icd10ICD-10-CM 中文版查詢 (衛福部健保署翻譯 v2023, data.gov.tw 177507). -
search_drug衛福部食藥署 全部藥品許可證 search (data.gov.tw 9122, 71,836 件). -
get_drug_details取單一藥品許可證的全 28 欄詳細 (data.gov.tw 9122). -
search_health_supplementsTFDA 健康食品許可證 (data.gov.tw 6951, 562 件). -
search_drug_label搜 twinkle-ai/tw-drug-labels-vision (CC-BY-4.0, ~72k 藥品仿單) 結構化欄位. -
check_drug_interaction初步篩查多藥品之間的交互作用 — naive substring scan over each
食品營養 ×3
-
query_food_nutrition衛福部 台灣食品營養成分資料 (data.gov.tw 8543, 226,825 行). -
search_foods_by_nutrient依單一營養素排行食物 (per 100g) — 衛福部食品營養成分 dataset 8543. -
analyze_meal_nutrition給定一頓餐 (食物名 → 克數), 算總營養成分.
已經接上資料層的文章
2026 年 6 月起,我們開始在文章末尾加「公開數據」段:每篇列出可以驗證(或推翻)該文論點的資料集,附一句「為什麼指向」。第一批六篇:
Twinkle Hub 處於 alpha,本頁的評估會隨它的演進更新。Taiwan.md 與 Twinkle Hub 目前沒有任何商業關係;這一頁是一個重度使用者的第一手體檢,也是一份邀請:資料層與意義層合作,台灣才會被完整地理解。
本頁工具與領域清單即時爬取於 2026-06-10 · hub.twinkleai.tw · data.gov.tw 🧬