OPEN DATA CURATION
Curation des données ouvertes
Les données ouvertes de Taïwan × Twinkle Hub : le guide de la couche de sens
La plateforme de données ouvertes du gouvernement taïwanais compte près de cinquante mille jeux de données. Ce chiffre écrase quiconque veut s'en servir : impossible de savoir lesquels comptent, jusqu'à quand ils sont tenus à jour, quelles tables peuvent se croiser — et encore moins ce qu'ils ont à voir avec les questions qui vous préoccupent.
Taiwan.md a écrit plus de neuf cents articles sur Taïwan, et derrière chacun il y a un jugement : « avec quelles données vérifier cette affirmation ». Cette page étale ce jugement au grand jour : comment nous évaluons l'infrastructure de données, quels jeux de données combiner — et comment — pour analyser une question, et à quelles histoires de l'île chaque domaine de données se relie.
Le réseau ci-dessous est réel : à gauche, les 20 domaines de données et les cinq grands corpus verticaux (collectés en direct) ; à droite, les articles Taiwan.md déjà écrits. Chaque ligne est un jugement de curation de cette page. Faites glisser, survolez — regardez des données complexes se brancher sur des histoires claires.
Carte de l'écosystème : trois couches, chacune garde la sienne
Pour qu'une IA (ou une personne) réponde vraiment à une question « sur Taïwan », il faut trois couches qui coopèrent : la maison des données, le chemin des requêtes, la couche du sens.
data.gov.tw et les systèmes des administrations
La plateforme nationale de données ouvertes est l'identité pérenne de chaque jeu de données : numéro de dataset, licence, administration responsable, téléchargement d'origine. Toute citation doit, au bout du compte, revenir ici.
Twinkle Hub
Premier hub MCP de Taïwan : il regroupe des données dispersées sur une centaine de portails publics en un point de requête unique — recherche sémantique, interrogation structurée des lignes, outils pour cinq domaines verticaux. Une IA obtient les données en un seul appel, sans le bourbier manuel du passage de portail en portail.
Taiwan.md
Les données ne parlent pas d'elles-mêmes. Quel jeu de données mérite d'être pointé, quelle affirmation il vérifie, à quel pan d'histoire il se relie — c'est le travail de curation. Depuis juin 2026, nos articles reçoivent un à un une section « Données publiques » qui coud le récit aux données d'origine.
Évaluation sur trois axes : ce que nos tests ont montré
Voici l'évaluation de première main menée par Taiwan.md en tant qu'utilisateur, avec ses propres outils de vérification (deux campagnes de tests, mai et juin 2026), déployée selon trois axes. Ce n'est pas une publicité, c'est un bilan de santé.
Complétude des données
- ✓ Environ 96,6 % du catalogue complet de data.gov.tw (49 343 jeux de données, inventaire du 5 juin 2026), plus 135 000 marchés publics électroniques et les données du Yuan législatif
- ✓ Les 20 catégories de domaines arrivent chacune avec leurs « questions types » et leurs « exemples d'ancrage » ; chaque jeu de données porte un niveau de qualité (du platine au bronze), sa fréquence de mise à jour, son format et ses clés de jointure
- ✓ Les jeux de données constitués par le hub lui-même comblent les trous des portails publics : le registre national des prix immobiliers réels (ventes / préventes / locations) se branche directement sur le système du Département des affaires foncières du ministère de l'Intérieur
- ✓ Cinq corpus verticaux vont au-delà du simple miroir : texte intégral des brevets, banque de questions des examens nationaux, jugements, autorisations de médicaments et nutrition alimentaire (les échelles sont dans la section suivante)
- △ Le classement de recherche favorise les tranches locales : chercher « taux de natalité » renvoie trois jeux de données à l'échelle des villes et comtés — Nantou, Taoyuan, Kaohsiung — et la version nationale doit être repêchée à la main. C'est précisément la raison d'être de la curation
- △ Le nombre total de jeux de données par domaine reste introuvable ; l'inventaire ne peut s'appuyer que sur les chiffres officiellement annoncés
- △ Une partie des vieux jeux de données reste au format ODS non normalisé, impossible à interroger de façon structurée
Stabilité
- ✓ Latence mesurée sous les 100 ms en cas de hit de cache ; chaque réponse embarque un trace_id et un champ de coût — la transparence est bonne
- ✓ Les descriptions d'outils embarquent leur numéro de version (v1.11.2 pour les requêtes agrégées, v1.18 pour les jugements) : le rythme d'itération se voit
- ✓ Le corpus de jugements affiche explicitement son périmètre alpha (de mai 2024 à mars 2026, environ 1,24 million de documents) — tracer clairement ses limites est plus honnête que feindre l'exhaustivité
- △ Deux changements d'interface API en deux mois : entre le 11 mai et le 10 juin 2026, la connexion est passée à une poignée de main de session, les outils ont été réorganisés de 40 à 21, et un groupe entier d'outils déterministes a été retiré
- △ Des limites de débit (HTTP 429) sont déjà apparues pendant l'alpha, sans que la fenêtre de limitation soit publiée
- △ Notre parade : une fine couche d'encapsulation isole les changements d'interface, et les articles citent toujours des pointeurs statiques, sans dépendre de l'API à l'exécution — c'est ainsi qu'il faut se brancher sur n'importe quel service alpha
Simplicité d'accès
- ✓ Un seul point d'accès MCP remplace une centaine de portails publics : recherche, métadonnées, interrogation des lignes, agrégation — un parcours en quatre temps, avec un schéma de champs homogène
- ✓ L'interrogation structurée accepte conditions SQL et agrégations : un jeu de données déjà normalisé s'utilise directement comme une base de données
- ✓ La même question d'adresse, d'année ou de circonscription exigeait hier 15 à 30 minutes de recoupement manuel sur trois à cinq portails ; aujourd'hui, un appel, moins d'une seconde
- ✓ Un paquet d'installation en un clic branche directement plus de dix clients IA, dont Claude et Cursor — la friction de « rendre les données de Taïwan lisibles par les IA » vient d'être réduite d'un ordre de grandeur
- △ Il faut une clé API (bearer token) ; l'alpha est gratuit, la facturation par outil viendra — la pérennité d'un chemin gratuit est une question que l'écosystème des données ouvertes doit continuer à poser
- △ Le service lui-même est fermé : les données sont ouvertes, le canal, pour l'instant, ne l'est pas. Le téléchargement direct sur data.gov.tw restera toujours le filet de sécurité qui contourne n'importe quelle passerelle
Cinq corpus verticaux : la part qui dépasse le miroir
Emballer des jeux de données dans une interface de recherche n'a rien d'extraordinaire ; ces cinq domaines verticaux, eux, font de la recherche sémantique et de l'extraction structurée — c'est la part de Twinkle Hub qui dépasse le « miroir de data.gov.tw ».
Brevets
Interroger le corpus des brevets en langage naturel, avec accès aux descriptions techniques complètes et aux revendications. En écrivant sur l'industrie taïwanaise, « cette entreprise possède-t-elle vraiment cette technologie ? » devient, pour la première fois, vérifiable par recherche sémantique.
Examens nationaux
Les épreuves du ministère des Examens, interrogeables jusqu'à la question près. La culture taïwanaise des concours nationaux (la fièvre de la fonction publique, les rues d'écoles de bachotage) est une histoire que les données n'ont encore jamais racontée.
Jugements
Chercher dans le corpus des jugements en langage courant. Pour les articles sur la justice, les conflits du travail ou les litiges locatifs, « comment les tribunaux tranchent en pratique » a désormais une porte d'entrée vérifiable.
Médicaments et santé
Autorisations de mise sur le marché, notices en champs structurés, certifications d'aliments santé, premier filtrage des interactions médicamenteuses. La couche factuelle des articles sur l'assurance maladie et la médecine.
Nutrition alimentaire
La base de composition nutritionnelle du ministère de la Santé : plus de vingt nutriments par aliment, classement par nutriment, total calculable pour un repas. Le socle chiffré des articles sur les marchés de nuit et la cuisine.
Les barres de volume sont en échelle logarithmique : le corpus de jugements pèse 17 fois celui des autorisations de médicaments — en linéaire, les quatre autres barres seraient écrasées jusqu'à l'invisible.
Recettes d'analyse : pour comprendre une question, quelles données, et comment les assembler
C'est le cœur de cette page. Chaque carte est une vraie question d'analyse : quels jeux de données mobiliser, par quelles clés les joindre, avec quelle méthode regarder — et quel article a déjà transformé cette analyse en histoire.
Justice du logement : les logements bon marché construits par l'État, qui ont-ils fini par engraisser ?
Comment combiner: Aligner par circonscription et par nom de résidence : les registres d'attribution des logements nationaux disent « à quel prix l'État a vendu à l'époque », le registre des prix réels dit « ce que vaut la même adresse aujourd'hui », les statistiques du logement social donnent « les volumes depuis qu'on loue au lieu de vendre ».
Comment analyser au mieux: Construire la série temporelle d'une même résidence, puis la découper aux jalons politiques : attribution en 1985, « chute du mur » en 2002, location sans vente en 2016, retour à la vente à Taoyuan en 2026. Le multiple de plus-value divisé par le nombre d'années : voilà la pente de « l'escalator patrimonial ».
Transition énergétique : le nucléaire ramené à zéro puis relancé — que s'est-il passé dans les chiffres ?
Comment combiner: La performance donne la production annuelle et le facteur de capacité ; le tableau des tranches donne la date de mise à l'arrêt de chaque réacteur. Aligner les deux tables par année, puis superposer référendums et jalons politiques.
Comment analyser au mieux: Tracer la courbe annuelle du facteur de capacité et y marquer les trois référendums (2018, 2021, 2025) : comment la courbe descend vers zéro, et si un seul chiffre a bougé dans l'année qui suit chaque vote — le décalage temporel entre « décision politique » et « réalité physique » remonte tout seul à la surface.
Finances de l'assurance maladie : qui l'utilise, qui cotise — combien d'années ce système peut-il encore tenir ?
Comment combiner: Les effectifs assurés par tranche d'âge donnent le rapport structurel entre « ceux qui cotisent » et « ceux qui consomment » ; les procès-verbaux donnent la chronologie des décisions sur le taux de cotisation ; les statistiques de subventions montrent le versant concret de la « contribution selon les moyens ».
Comment analyser au mieux: Mettre ce rapport d'âges en série trimestrielle et y superposer les décisions de taux : la structure se dégrade, le taux ne bouge pas — avec quoi comble-t-on l'écart (rallonges budgétaires, valeur du point, ticket modérateur) ? Dans les procès-verbaux, chaque « maintien sans ajustement » a sa ligne de coût en face.
Qualité de la démocratie : quelle est la taille du corps électoral d'un scrutin, et quelle est l'intensité des poursuites ?
Comment combiner: Le nombre d'électeurs donne le corps électoral de chaque scrutin ; les statistiques judiciaires donnent, année par année, le volume de condamnations pour achat de votes et pour ingérence électorale. Les deux se découpent par ville et comté, et s'alignent sur les résultats.
Comment analyser au mieux: Construire pour chaque scrutin le couple « corps électoral × taux de condamnation », puis comparer d'un scrutin à l'autre l'intensité des poursuites ; en 2026 s'ajoute un nouveau front, la désinformation par IA — posez d'abord la ligne de base des deux fronts classiques (achat de votes, ingérence), et l'ampleur de la nouvelle menace aura un référentiel.
Économie de la rue : d'où sort le chiffre d'affaires des 230 000 étals ?
Comment combiner: Le recensement quinquennal de la DGBAS (Direction générale du budget, de la comptabilité et des statistiques) donne la population nationale des étals — nombre, personnes employées, recettes ; les listes municipales donnent le répertoire des marchés de nuit « officiellement reconnus par les pouvoirs publics ».
Comment analyser au mieux: La comparaison entre vagues de recensement est la clé : l'évolution sur cinq ans du nombre d'étals et des recettes, mise en regard de la pénétration du paiement mobile et de la fréquentation touristique. À la sortie du prochain recensement, tous les articles qui citent les 233 000 étals devront revenir se recaler.
Sécurité routière : quel lien entre 14 millions de scooters et trois mille vies chaque année ?
Comment combiner: Les immatriculations donnent le dénominateur (l'exposition au risque), les victimes d'accidents donnent le numérateur. La longue série municipale (24 ans à Taoyuan) sert d'abord de gabarit de méthode, avant extension aux autres villes et comtés.
Comment analyser au mieux: Ne regardez pas seulement les morts en valeur absolue : normalisez en taux de victimes pour 100 000 véhicules, scooters et voitures comptés séparément ; c'est exactement ce dénominateur que réclame le débat sur « l'enfer des piétons ».
Vingt domaines de données × la carte des histoires de Taiwan.md
À gauche, la classification par domaines de Twinkle Hub (collectée en direct) ; à droite, notre correspondance de curation : à quels articles de l'île les données de chaque domaine se relient. Dans les domaines marqués « Histoire à écrire », les jeux de données phares et le chemin d'analyse sont déjà prêts, l'article ne l'est pas encore : c'est notre carte de développement — et une invitation à quiconque voudrait l'écrire.
不動產與地政
realestate_land 土地、建物、房屋、都市計畫、地價、建照使照、不動產交易、租金
Questions types: 某地段近一年實價中位數;某學區內近期使用執照核發數;都市更新案件清單
經濟、產業、公司商業
economy_business 營業/公司/工廠登記、產業統計、進出口貿易、景氣/物價指數、金融市場、上市櫃公司、公平交易
Questions types: 某統編公司歷史登記變更;本月某產業景氣燈號;某產業上市公司營收
政府採購與補助
procurement_subsidy 招標/決標公告、補助案件、獎助、政府支出予個人
Questions types: 某廠商近五年得標金額;某機關本月補助清單
Comment analyser: Joindre les avis d'attribution au registre du commerce par le numéro d'entreprise unifié : quel fournisseur a remporté combien, auprès de quelles administrations, année après année. Une carte de chaleur sur trois axes — montant, administration, année — et la géographie comme les réseaux de la dépense publique remontent d'eux-mêmes à la surface.
政府預決算與會計
public_finance 中央/地方總預算、會計月報、附屬單位預算、債務、國庫、主計統計
Questions types: 某機關歷年預算趨勢;中央政府公共債務餘額
Comment analyser: Mettre l'encours de la dette en série mensuelle, face au PIB et au plafond d'emprunt fixé par la loi sur la dette publique ; puis empiler, un à un, les budgets spéciaux successifs (pandémie, infrastructures d'avenir, résilience) pour voir comment la « dépense d'exception » devient la norme.
稅務與稅收
tax_revenue 綜合所得稅、營業稅、地價/房屋/牌照稅、稅捐稽徵、申報核定統計
Questions types: 某縣市本月稅收結構;某稅目歷年實徵淨額
Comment analyser: Décomposer les recettes nettes de chaque ville et comté par impôt : qui vit de la taxe sur la valeur foncière et de la taxe sur les bâtiments (les métropoles), qui vit des dotations de péréquation centrales (les autres). Une fois alignés sur la population et les prix immobiliers par code administratif, le classement de l'autonomie fiscale se calcule tout seul.
交通運輸、道路與停車
transport 車禍事故、公車/客運/捷運/鐵路/航班、停車場、即時路況、油價、車籍、道路設施
Questions types: 某路口近一年事故數;即時公車到站;本市公有停車場剩餘車位
治安、警消與災防
public_safety 刑案、警政、消防/救護、災害示警、地震/颱風/淹水、海巡、110/119
Questions types: 本市本月詐騙手法統計;即時災害示警;消防救護案件
司法、法務、矯正與裁罰
judicial_legal 法院判決、檢察偵查/起訴、矯正/監所/受刑人、訴願、政府機關裁罰名單
Questions types: 某公司被金管會裁罰歷史;某地檢偵查終結概況
立法院/國會
legislature 立法院議案、法律提案、表決、公報、質詢、發言、IVOD 影音索引、立委個人資料、選區、會議記錄。
Questions types: 某委員第N屆提了哪些法案;某黨團對 X 議案的表決傾向;某議題在公報的歷次發言
醫療、衛生、食品與藥物
health_food 醫事機構、健保特約、藥局、藥品/食品許可、疫情、長照、母嬰親善、食安
Questions types: 住家附近健保藥局;某藥品/醫材許可資訊;近期傳染病通報
環境、氣象、生態與水文
environment 空品 AQI、河川水質、雨量、水庫、廢棄物回收、林班、生態保育、噪音、碳排
Questions types: 今日本區 AQI;某河川水質歷史;本市資源回收成果
教育與科研
education_research 各級學校、教師/學生統計、補習班、圖書館、科研計畫、專利、學位論文
Questions types: 某學區學校清單;某學校歷年學生數;某機構研究專利
農林漁牧
agriculture_fisheries 農產交易、畜牧場、漁港/漁船、農藥/肥料、農會、養殖、畜產統計
Questions types: 某果菜市場今日交易行情;某縣畜牧場分布
勞動與就業
labor_employment 違反勞動法令、薪資、職缺、職業訓練、勞退/勞保、職災
Questions types: 某雇主違反勞動法令紀錄;某產業薪資中位數
Comment analyser: Croiser les salaires assurés des trois régimes — assurance travail, assurance emploi, accidents du travail — par secteur et par taille d'établissement. Attention à la troncature à droite créée par le plafond d'assurance de 45 800 NT$ : sans correction, la moyenne des secteurs bien payés est systématiquement sous-estimée — la moitié du débat sur le « salaire moyen » vient de là.
社會福利、戶政、人口、選舉與公務人事
social_population 人口/戶籍/出生/死亡/結婚/離婚、低收入戶、身心障礙、原住民/新住民、選舉投票、公務員人事
Questions types: 某選區歷次得票結構;某縣身心障礙人口;本市本月人口變動
文化、觀光與體育
culture_tourism_sport 景點、博物館、古蹟、寺廟、活動行事曆、體育場館、運動賽事
Questions types: 本週某縣市活動;某博物館館藏
外交、領事與兩岸
foreign_affairs 外交部公告、領事/簽證/護照、駐外館處、兩岸貿易/政策/案件、僑務、國際合作、新南向、邦交國
Questions types: 某國家近年我國進出口金額;近期外交部聲明 / 兩岸政策談話;簽證 / 護照申辦規定;駐外館處清單與聯絡資訊
政府公告與檔案
gov_publication 機關新聞稿、公報、最新消息、電子公布欄、公文範本、檔案目錄、施政方針、資訊公開申請、公共政策參與
Questions types: 本週某機關新聞稿;行政院公報全文檢索;某類公文 / 表單範本;政府資訊公開申請統計
Comment analyser: Transformer le texte intégral des journaux officiels en séries temporelles de mots-clés sur les changements réglementaires, puis les confronter aux archives parlementaires du domaine legislature : l'écart de temps entre l'annonce administrative et la trajectoire législative, c'est la vitesse réelle à laquelle une politique entre en vigueur.
地理底圖(橫向層)
geo_basemap 行政區界、村里界、門牌、坐標、路網、河系、土地利用
Questions types: 作為其他資料集的 join 來源;空間查詢
能源、水電瓦斯與電信(橫向層)
utilities_telecom 電力供需、加油站、自來水、瓦斯、再生能源、電信與寬頻、無線網路
Questions types: 即時電力負載;某行政區自來水水質;某地加油站清單
Méthodologie de jointure : les clés qui font tenir deux tables ensemble
Un jeu de données isolé n'est qu'un point ; c'est la combinaison qui fait un réseau. Voici les fils de jointure les plus utiles d'après nos tests.
Fréquence de mise à jour = résolution d'analyse : le spectre des quinze jeux de données vitrines
Chaque point est un jeu de données cité sur cette page ; survolez pour lire son nom. Avant de concevoir une analyse, regardez d'abord de quel côté du spectre tombent vos données.
Codes de circonscription administrative
La clé de jointure la plus universelle. Les codes standard des villes, comtés et districts alignent population, prix immobiliers, accidents et recettes fiscales sur une même carte ; les districts homonymes (les deux Xinyi) se départagent par le code.
Numéro d'entreprise unifié
La carte d'identité des entreprises. Registre du commerce, marchés remportés, dépôts de brevets, listes de sanctions : tout y est accroché — c'est par lui qu'on suit la trace complète d'une entreprise.
Coordonnées et codes de stations
Les données environnementales (qualité de l'air, eau, météo) sont rattachées aux stations de mesure, les données géographiques aux coordonnées. Convertir vers les codes administratifs — et inversement — est le premier pas de l'analyse spatiale.
Niveaux de qualité
L'échelle du platine au bronze est un test éclair du « peut-on utiliser ce jeu de données tel quel » : le niveau platine est le plus souvent déjà normalisé, interrogeable de façon structurée ; le non-testé (comme le registre des prix réels constitué par le hub lui-même) se vérifie soi-même.
La fréquence de mise à jour est la résolution d'analyse
Des données mensuelles permettent l'étude d'événement ; des données annuelles ne montrent que des tendances ; des données quinquennales (le recensement des étals) ne permettent que la comparaison entre vagues. Regardez la fréquence avant de concevoir l'analyse — jamais l'inverse.
Le principe du double pointeur
Quand un article Taiwan.md cite un jeu de données, le lien pointe toujours vers la page pérenne de data.gov.tw ou de l'administration responsable ; la couche de requête (Twinkle Hub) est un chemin à valeur ajoutée, en parallèle. La maison des données et le chemin des requêtes restent séparés : quelle que soit la couche qui bouge, la chaîne ne casse pas.
Catalogue d'outils : la liste complète des 21 outils
La liste ci-dessous est collectée directement depuis le point d'accès MCP (rafraîchie à chaque reconstruction de la page). Le regroupement, lui, est de nous.
Le quatuor des jeux de données + l'index des domaines ×5
-
search_datasetsSearch Taiwan government open datasets (台灣政府開放資料 / data.gov.tw / -
get_dataset取得資料集完整 metadata 與樣本資料列。 -
query_rows讀取已 normalise 資料集的實際列;支援聚合查詢(v1.11.2+)。 -
materialize_dataset強制下載並轉換指定資料集(若已 cache 則為 no-op)。 -
list_domains列出全部 19 個 domain 標籤的定義(key、中文名、scope、典型問題、anchor 範例)。
Brevets ×2
-
search_patents以自然語言查詢 TIPO 發明專利公開案 corpus (data.gov.tw dataset 15992, -
get_patent_body取得單一專利的完整 description body (技術領域 / 先前技術 / 實施方式)
Examens nationaux ×3
-
search_exam以自然語言檢索台灣國家考試試卷 (dataset 170565,考選部,OGDL). -
search_exam_questions以自然語言 + (可選) 關鍵字過濾, 檢索國家考試題目級別. -
get_exam_paper取得單一國考試卷的全部題目 + 標準答案 (測驗題).
Jugements ×2
-
search_judicial以白話 + (可選)關鍵字 / 結構化過濾,檢索台灣判決書 corpus. -
get_judicial_full取單一判決書完整 metadata + JFULL + T3 抽出欄位 (若已處理).
Médicaments et codes médicaux ×6
-
lookup_icd10ICD-10-CM 中文版查詢 (衛福部健保署翻譯 v2023, data.gov.tw 177507). -
search_drug衛福部食藥署 全部藥品許可證 search (data.gov.tw 9122, 71,836 件). -
get_drug_details取單一藥品許可證的全 28 欄詳細 (data.gov.tw 9122). -
search_health_supplementsTFDA 健康食品許可證 (data.gov.tw 6951, 562 件). -
search_drug_label搜 twinkle-ai/tw-drug-labels-vision (CC-BY-4.0, ~72k 藥品仿單) 結構化欄位. -
check_drug_interaction初步篩查多藥品之間的交互作用 — naive substring scan over each
Nutrition alimentaire ×3
-
query_food_nutrition衛福部 台灣食品營養成分資料 (data.gov.tw 8543, 226,825 行). -
search_foods_by_nutrient依單一營養素排行食物 (per 100g) — 衛福部食品營養成分 dataset 8543. -
analyze_meal_nutrition給定一頓餐 (食物名 → 克數), 算總營養成分.
Les articles déjà branchés sur la couche de données
Depuis juin 2026, nous ajoutons en fin d'article une section « Données publiques » : chaque article y liste les jeux de données capables de vérifier (ou de réfuter) ses affirmations, avec une ligne expliquant « pourquoi ce pointeur ». Première fournée, six articles :
Twinkle Hub est en alpha ; l'évaluation de cette page sera mise à jour au fil de son évolution. Taiwan.md n'a, à ce jour, aucune relation commerciale avec Twinkle Hub ; cette page est le bilan de santé de première main d'un utilisateur intensif — et une invitation : c'est quand la couche des données et la couche du sens coopèrent que Taïwan peut être compris dans son entier.
Outils et domaines de cette page collectés en direct le 2026-06-10 · hub.twinkleai.tw · data.gov.tw 🧬