OPEN DATA CURATION

OpenData 策展

台灣開放資料 × Twinkle Hub 的意義層導覽

台灣政府的開放資料平台上有將近五萬個資料集。這個數字對任何想用它的人都是壓垮性的:你不知道哪個重要、哪個更新到什麼時候、哪兩張表可以對在一起,更不知道它們跟你關心的問題有什麼關係。

Taiwan.md 寫了九百多篇關於台灣的文章,每一篇背後都有「這件事該用什麼資料驗證」的判斷。這一頁把這層判斷攤開來:我們怎麼評估資料基礎建設、要分析一件事的時候用哪些資料集怎麼組合、以及每一個資料領域跟島上哪些故事相連。

0
政府資料集
0
判決書全文
0
國考題目
0
營養分析列
0
採購紀錄

下面這張網是真的:左側是 20 個資料領域與五大語料庫(即時爬取),右側是已經寫成的 Taiwan.md 文章。每一條線都是本頁的策展判斷。拖拉、懸停,看複雜的資料怎麼接上清晰的故事。

資料領域 垂直語料庫 Taiwan.md 文章 Taiwan.md 意義層 🧬

生態地圖:三層各守一層

一個 AI(或一個人)要真正回答「關於台灣的事」,需要三層合作:資料的家、查詢的路、意義的層。

🏛️
資料的家(SSOT)

data.gov.tw 與各機關系統

政府資料開放平臺是每個資料集的持久身分:dataset 編號、授權條款、主管機關、原始下載。所有引用最終都該回到這裡。

約 5 萬個資料集
🔌
查詢的路(MCP 閘道)

Twinkle Hub

台灣第一個 MCP Hub,把分散在上百個政府入口的資料包成單一查詢端點:語意搜尋、結構化查列、五個垂直領域工具。讓 AI 一次呼叫就拿到資料,省掉跨入口的人工泥沼。

21 個工具・20 個領域
🧬
意義的層(策展)

Taiwan.md

資料不會自己說話。哪個資料集值得指、它驗證哪個論點、跟哪段歷史相連——這是策展的工作。我們的文章從 2026 年 6 月起逐篇接上「公開數據」段,把敘事跟原始資料縫在一起。

900+ 篇文章・15 個資料集指標上線

三維評估:我們實測到什麼

以下是 Taiwan.md 以使用者身分、用自己的查核工具做的第一手評估(2026 年 5 月與 6 月兩輪實測),按三個維度攤開。不是廣告,是體檢。

🗃️

資料的完整

覆蓋面是真的,而且超出鏡像
  • 收錄 data.gov.tw 約 96.6% 全量(49,343 個資料集,2026-06-05 盤點),外加 13.5 萬筆政府電子採購紀錄與立法院資料
  • 20 個領域分類各帶「典型問題」與「定錨範例」,每個資料集標品質分層(白金到銅)、更新頻率、格式與可串連鍵
  • 自策資料集補了政府入口的洞:全國實價登錄(買賣/預售/租賃)直接接內政部地政司系統
  • 五個垂直語料庫超出單純鏡像:專利全文、國考題庫、判決書、藥證與食品營養(規模見下節)
誠實的缺口
  • 搜尋排名偏向縣市切片:搜「出生率」回來是南投、桃園、高雄三個縣市級資料集,全國尺度的那一份要靠人挑——這正是策展存在的理由
  • 查不到每個領域的資料集總數,盤點只能靠官方宣稱數字
  • 部分老資料集仍是未正規化的 ODS 格式,無法結構化查列
🫀

穩定性

alpha 本色:跑得快,也改得快
  • 查詢延遲實測快取命中低於 100ms,每次回應帶 trace_id 與成本欄位,透明度好
  • 工具描述內嵌版本號(v1.11.2 聚合查詢、v1.18 判決書),迭代節奏看得見
  • 判決書語料目前明標 alpha 範圍(2024-05 至 2026-03 共約 124 萬筆)——標清楚邊界比假裝完整誠實
誠實的缺口
  • 兩個月內兩次 API 介面變動:2026-05-11 到 06-10 之間,連線方式改為 session 握手、工具從 40 個重組為 21 個、整組確定性工具下架
  • alpha 期已出現流量限制(HTTP 429),但限制窗口未公布
  • 我們的對策:薄包裝層隔離介面變動,文章引用一律寫成靜態指標、不在執行期依賴 API——任何 alpha 服務都該這樣接

存取的簡化

這是它最強的一面
  • 一個 MCP 端點取代上百個政府入口:搜尋、取 metadata、查列、彙整四段式,欄位 schema 一致
  • 結構化查列支援 SQL 條件與聚合,已正規化的資料集可以直接當資料庫用
  • 同一個地址、年份、行政區問題,過去要跨三到五個入口人工核對 15 到 30 分鐘;現在一次呼叫不到一秒
  • 一鍵安裝包讓 Claude、Cursor 等十種以上 AI 客戶端直接接上——「讓 AI 讀得到台灣的資料」這件事的摩擦力被砍掉一個數量級
誠實的缺口
  • 需要 API 金鑰(bearer token),目前 alpha 免費、未來按工具計費——免費路徑會不會永遠存在,是開放資料生態該持續追問的問題
  • 服務本身閉源:資料是開放的,通道目前不是。data.gov.tw 的原始下載永遠是繞過任何閘道的保底路徑

五個垂直語料庫:超出鏡像的部分

把資料集包成搜尋介面不稀奇;下面這五個垂直領域做了語意檢索與結構化抽取,是 Twinkle Hub 超出「data.gov.tw 鏡像」的部分。

專利

TIPO 發明專利公開案全文
全文語意檢索

自然語言查詢專利語料,可取完整技術描述與請求項。寫台灣產業文章時,「這家公司真的有這個技術嗎」第一次可以用語意搜尋驗證。

國家考試

64,815 份試卷・32 萬題(2012–2025)

考選部歷年試卷與題目級檢索。台灣的國考文化(公職熱、補習街)是還沒被資料化說過的故事。

判決書

約 124 萬筆(2024-05 至 2026-03,alpha)

白話檢索判決書語料。司法、勞資、租屋糾紛類文章的「實務上法院怎麼判」有了可查證的入口。

藥品與健康

71,836 件藥證・96,803 個 ICD-10 中文碼

藥品許可證、仿單結構化欄位、健康食品認證、交互作用初篩。健保與醫療文章的事實層。

食品營養

226,825 列營養分析

衛福部食品營養成分資料庫:每個食材二十多項營養素,可按營養素排行、可算一餐總和。夜市與飲食文章的數字底。

量級條為對數尺度:判決書語料是藥證的 17 倍,線性畫會把其他四條壓成看不見。

分析組合:要看懂一件事,用哪些資料、怎麼組

這是這一頁的核心。每張卡片是一個真實的分析問題:用哪些資料集、靠什麼鍵組合、用什麼方法看,以及哪篇文章已經把這個分析寫成了故事。

居住正義:政府蓋的便宜房,最後養肥了誰?

怎麼組合: 以行政區與社區名對齊:國宅配售紀錄給「政府當年用什麼價賣出」,實價登錄給「同一個門牌今天值多少」,社宅統計給「不賣改租之後的量」。

怎麼分析最好: 同一社區做時間序列,再用政策節點切段對照:1985 配售、2002 拆牆、2016 只租不售、2026 桃園回賣。增值倍數除以年數,就是「資產扶梯」的斜率。

能源轉型:核電歸零又重啟,數字上發生了什麼?

怎麼組合: 發電績效給年度發電量與容量因數,機組表給每部機的除役時點。兩張表用年份對齊,再疊上公投與政策節點。

怎麼分析最好: 畫一條容量因數年度曲線,標三場公投(2018、2021、2025):曲線怎麼走向零、公投過後一年內有沒有任何一個數字動了——「政治決定」與「物理現實」的時差會自己浮出來。

健保財務:誰在用、誰在繳,這套制度還撐得住幾年?

怎麼組合: 年齡層投保人數算出「繳的人」跟「用的人」的結構比,議事錄給費率決策的時間軸,弱勢補助統計給「量能付費」的執行面。

怎麼分析最好: 把年齡結構比做成逐季序列,疊上費率決策節點:結構在惡化、費率不動,中間的缺口靠什麼補(撥補、點值、部分負擔),議事錄裡每一次「維持不調整」都有對應的代價條目。

民主品質:一場選舉的母體多大、查察強度多強?

怎麼組合: 選舉人數給每屆選舉的母體,選罷法裁判統計給賄選與介選的歷年定罪量。兩者都能按縣市切,跟選舉結果對齊。

怎麼分析最好: 每屆選舉做一組「母體 × 定罪率」對照,跨屆比較查察強度的變化;2026 這屆多了 AI 假訊息這個新查察重點,傳統兩項(賄選、介選)的基線先立好,新威脅的量才有參照系。

街頭經濟:23 萬個攤位的產值是怎麼算出來的?

怎麼組合: 主計總處的五年普查給全國攤販的母體(攤數、從業人員、營收),縣市列管清單給「正式被政府承認的夜市」名錄。

怎麼分析最好: 跨期普查比較是關鍵:攤位數與營收的五年變化,對照行動支付滲透與觀光人次。下一次普查發布時,所有引用 23.3 萬攤的文章都該回來對表。

已經寫成的故事 夜市經濟學 · 夜市文化

交通安全:1,400 萬輛機車與每年三千條人命的關係?

怎麼組合: 車輛登記數給分母(暴險量),事故傷亡給分子。縣市級長序列(桃園 24 年)先當方法樣板,再擴到其他縣市。

怎麼分析最好: 別只看死亡絕對數——用每十萬輛車傷亡率 normalize,機車與汽車分開算;「行人地獄」的爭論需要的正是這個分母。

二十個資料領域 × Taiwan.md 的故事地圖

左邊是 Twinkle Hub 的領域分類(即時爬取),右邊是我們的策展對應:這個領域的資料跟島上哪些文章相連。標「故事待寫」的領域,旗艦資料集與分析路徑已經策展完成,文章還沒寫成:那是我們的開發地圖,也是給任何想寫的人的邀請。

不動產與地政

realestate_land

土地、建物、房屋、都市計畫、地價、建照使照、不動產交易、租金

典型問題: 某地段近一年實價中位數;某學區內近期使用執照核發數;都市更新案件清單

經濟、產業、公司商業

economy_business

營業/公司/工廠登記、產業統計、進出口貿易、景氣/物價指數、金融市場、上市櫃公司、公平交易

典型問題: 某統編公司歷史登記變更;本月某產業景氣燈號;某產業上市公司營收

政府採購與補助

procurement_subsidy

招標/決標公告、補助案件、獎助、政府支出予個人

典型問題: 某廠商近五年得標金額;某機關本月補助清單

故事待寫 誰標到了台灣:13.5 萬筆決標紀錄裡的政府外包地圖

怎麼分析: 以統一編號把決標紀錄接上商業登記:一家廠商歷年從哪些機關標到多少錢。金額、機關、年份三軸做成熱力圖,公共支出的地理跟人脈會自己浮出來。

政府預決算與會計

public_finance

中央/地方總預算、會計月報、附屬單位預算、債務、國庫、主計統計

典型問題: 某機關歷年預算趨勢;中央政府公共債務餘額

故事待寫 國家的負債表:中央政府欠了多少錢、用什麼速度還

怎麼分析: 債務餘額做月序列,對照 GDP 與公共債務法的舉債上限;再把歷年特別預算(防疫、前瞻、強韌)逐筆疊上去,看「例外動支」怎麼變成常態。

稅務與稅收

tax_revenue

綜合所得稅、營業稅、地價/房屋/牌照稅、稅捐稽徵、申報核定統計

典型問題: 某縣市本月稅收結構;某稅目歷年實徵淨額

故事待寫 你的縣市靠什麼稅活著:地方財政的體質檢查

怎麼分析: 各縣市實徵淨額按稅目拆開:誰靠地價稅與房屋稅(都會區),誰靠中央統籌分配(非都會)。跟人口與房價資料用行政區代碼對齊,財政自主性的排行自己就算得出來。

交通運輸、道路與停車

transport

車禍事故、公車/客運/捷運/鐵路/航班、停車場、即時路況、油價、車籍、道路設施

典型問題: 某路口近一年事故數;即時公車到站;本市公有停車場剩餘車位

治安、警消與災防

public_safety

刑案、警政、消防/救護、災害示警、地震/颱風/淹水、海巡、110/119

典型問題: 本市本月詐騙手法統計;即時災害示警;消防救護案件

相連的文章 颱風

司法、法務、矯正與裁罰

judicial_legal

法院判決、檢察偵查/起訴、矯正/監所/受刑人、訴願、政府機關裁罰名單

典型問題: 某公司被金管會裁罰歷史;某地檢偵查終結概況

立法院/國會

legislature

立法院議案、法律提案、表決、公報、質詢、發言、IVOD 影音索引、立委個人資料、選區、會議記錄。

典型問題: 某委員第N屆提了哪些法案;某黨團對 X 議案的表決傾向;某議題在公報的歷次發言

相連的文章 太陽花學運

醫療、衛生、食品與藥物

health_food

醫事機構、健保特約、藥局、藥品/食品許可、疫情、長照、母嬰親善、食安

典型問題: 住家附近健保藥局;某藥品/醫材許可資訊;近期傳染病通報

環境、氣象、生態與水文

environment

空品 AQI、河川水質、雨量、水庫、廢棄物回收、林班、生態保育、噪音、碳排

典型問題: 今日本區 AQI;某河川水質歷史;本市資源回收成果

教育與科研

education_research

各級學校、教師/學生統計、補習班、圖書館、科研計畫、專利、學位論文

典型問題: 某學區學校清單;某學校歷年學生數;某機構研究專利

農林漁牧

agriculture_fisheries

農產交易、畜牧場、漁港/漁船、農藥/肥料、農會、養殖、畜產統計

典型問題: 某果菜市場今日交易行情;某縣畜牧場分布

勞動與就業

labor_employment

違反勞動法令、薪資、職缺、職業訓練、勞退/勞保、職災

典型問題: 某雇主違反勞動法令紀錄;某產業薪資中位數

故事待寫 投保薪資的天花板:三張勞動部的表,看見台灣人的真實薪水

怎麼分析: 勞保、就保、職災三套投保薪資按行業與單位規模交叉。注意 45,800 元投保上限造成的右側截斷:不先處理,高薪行業的平均值會被系統性低估,「平均薪資」的爭論一半來自這裡。

社會福利、戶政、人口、選舉與公務人事

social_population

人口/戶籍/出生/死亡/結婚/離婚、低收入戶、身心障礙、原住民/新住民、選舉投票、公務員人事

典型問題: 某選區歷次得票結構;某縣身心障礙人口;本市本月人口變動

文化、觀光與體育

culture_tourism_sport

景點、博物館、古蹟、寺廟、活動行事曆、體育場館、運動賽事

典型問題: 本週某縣市活動;某博物館館藏

外交、領事與兩岸

foreign_affairs

外交部公告、領事/簽證/護照、駐外館處、兩岸貿易/政策/案件、僑務、國際合作、新南向、邦交國

典型問題: 某國家近年我國進出口金額;近期外交部聲明 / 兩岸政策談話;簽證 / 護照申辦規定;駐外館處清單與聯絡資訊

政府公告與檔案

gov_publication

機關新聞稿、公報、最新消息、電子公布欄、公文範本、檔案目錄、施政方針、資訊公開申請、公共政策參與

典型問題: 本週某機關新聞稿;行政院公報全文檢索;某類公文 / 表單範本;政府資訊公開申請統計

故事待寫 公報裡的台灣:政府每個月自己公告了什麼

怎麼分析: 公報全文做法規異動的關鍵詞時間序列,再對照 legislature 域的立法院紀錄:行政公告與立法軌跡之間的時間差,就是一項政策真正生效的速度。

地理底圖(橫向層)

geo_basemap

行政區界、村里界、門牌、坐標、路網、河系、土地利用

典型問題: 作為其他資料集的 join 來源;空間查詢

相連的文章 台灣地圖怎麼讀

能源、水電瓦斯與電信(橫向層)

utilities_telecom

電力供需、加油站、自來水、瓦斯、再生能源、電信與寬頻、無線網路

典型問題: 即時電力負載;某行政區自來水水質;某地加油站清單

串連方法論:讓兩張表對在一起的鍵

單一資料集是一個點,能組合才是一張網。這些是我們實測下來最有用的串連線索。

更新頻率=分析解析度:十五個示範資料集的光譜

每個點是本頁引用的一個資料集,懸停看名字。設計分析之前先看你的資料落在光譜哪一端。

每1月 ×4
每3月 ×2
每1年 ×3
每4年 ×1
每5年 ×1
不定期 ×4
← 每月更新:能做事件研究 五年一度:只能跨期比較 →

行政區代碼

最通用的串連鍵。縣市與鄉鎮市區的標準代碼讓人口、房價、事故、稅收可以對齊到同一張地圖;同名區(兩個信義區)靠代碼消歧。

統一編號

公司的身分證。商業登記、採購得標、專利申請、裁罰名單都掛統編——追一家公司的完整足跡靠它。

經緯度與測站代碼

環境資料(空品、水質、氣象)掛測站,地理資料掛座標。跟行政區代碼互換是空間分析的第一步。

品質分層

白金到銅的分層是「這個資料集可不可以直接用」的快篩:白金級多半已正規化、可結構化查列;未檢測的(如自策的實價登錄)要自己驗。

更新頻率即分析解析度

每月更新的資料能做事件研究,每年的只能看趨勢,每五年的(攤販普查)只能跨期比較。先看頻率再設計分析,不要反過來。

雙層指標原則

Taiwan.md 文章引用資料集時,連結永遠指 data.gov.tw 或主管機關的持久頁面,查詢層(Twinkle Hub)是並列的加值路徑。資料的家與查詢的路分開,任何一層變動都不會斷鏈。

工具型錄:21 個工具的完整清單

以下直接爬自 MCP 端點(每次重建頁面時更新)。分組是我們加的。

資料集四件套 + 領域索引 ×5

  • search_datasets Search Taiwan government open datasets (台灣政府開放資料 / data.gov.tw /
  • get_dataset 取得資料集完整 metadata 與樣本資料列。
  • query_rows 讀取已 normalise 資料集的實際列;支援聚合查詢(v1.11.2+)。
  • materialize_dataset 強制下載並轉換指定資料集(若已 cache 則為 no-op)。
  • list_domains 列出全部 19 個 domain 標籤的定義(key、中文名、scope、典型問題、anchor 範例)。

專利 ×2

  • search_patents 以自然語言查詢 TIPO 發明專利公開案 corpus (data.gov.tw dataset 15992,
  • get_patent_body 取得單一專利的完整 description body (技術領域 / 先前技術 / 實施方式)

國家考試 ×3

  • search_exam 以自然語言檢索台灣國家考試試卷 (dataset 170565,考選部,OGDL).
  • search_exam_questions 以自然語言 + (可選) 關鍵字過濾, 檢索國家考試題目級別.
  • get_exam_paper 取得單一國考試卷的全部題目 + 標準答案 (測驗題).

判決書 ×2

  • search_judicial 以白話 + (可選)關鍵字 / 結構化過濾,檢索台灣判決書 corpus.
  • get_judicial_full 取單一判決書完整 metadata + JFULL + T3 抽出欄位 (若已處理).

藥品與醫療代碼 ×6

  • lookup_icd10 ICD-10-CM 中文版查詢 (衛福部健保署翻譯 v2023, data.gov.tw 177507).
  • search_drug 衛福部食藥署 全部藥品許可證 search (data.gov.tw 9122, 71,836 件).
  • get_drug_details 取單一藥品許可證的全 28 欄詳細 (data.gov.tw 9122).
  • search_health_supplements TFDA 健康食品許可證 (data.gov.tw 6951, 562 件).
  • search_drug_label 搜 twinkle-ai/tw-drug-labels-vision (CC-BY-4.0, ~72k 藥品仿單) 結構化欄位.
  • check_drug_interaction 初步篩查多藥品之間的交互作用 — naive substring scan over each

食品營養 ×3

  • query_food_nutrition 衛福部 台灣食品營養成分資料 (data.gov.tw 8543, 226,825 行).
  • search_foods_by_nutrient 依單一營養素排行食物 (per 100g) — 衛福部食品營養成分 dataset 8543.
  • analyze_meal_nutrition 給定一頓餐 (食物名 → 克數), 算總營養成分.

已經接上資料層的文章

2026 年 6 月起,我們開始在文章末尾加「公開數據」段:每篇列出可以驗證(或推翻)該文論點的資料集,附一句「為什麼指向」。第一批六篇:

Twinkle Hub 處於 alpha,本頁的評估會隨它的演進更新。Taiwan.md 與 Twinkle Hub 目前沒有任何商業關係;這一頁是一個重度使用者的第一手體檢,也是一份邀請:資料層與意義層合作,台灣才會被完整地理解。

本頁工具與領域清單即時爬取於 2026-06-10 · hub.twinkleai.tw · data.gov.tw 🧬