Skip to content

Hsieh583/China-Population-Data-Verification

Repository files navigation

中國人口數據驗證研究框架

CPDV 框架 - 中國人口統計數據交叉驗證系統

🎯 專案概述

本研究框架實現了一套系統性、可科學驗證的方法,透過獨立的第三方數據源(Proxy Data)交叉驗證中國官方人口統計數據。基於梁中堂教授的研究觀點,本系統採用四個獨立且相互印證的假說進行驗證。

核心問題

  1. 出生人口是否被系統性高估?
  2. 總人口是否顯著低於 14 億?
  3. 生育率是否真的低於 0.7?
  4. 社會結構何時達到臨界崩潰點?

🧪 四大驗證假說

假說一:教育漏斗驗證假說

核心邏輯:出生數據 → 小學入學(6年後)→ 高考報名(18年後)

通過比對出生記錄與後續教育入學數據,驗證出生人口是否被長期高估。

數學模型

E(t) = B(t-6) × (1 - M₀₋₆) + ε(t)

假說二:生活物資消耗相關性假說

核心邏輯:人口與基本物資消耗存在線性關係

透過食鹽、糧食、電力等具有物理約束的資源消耗量估算實際人口。

數學模型

C = α + β₁×P + β₂×人均GDP + ε

假說三:東亞同質性 TFR 異常檢驗假說

核心邏輯:東亞文化圈在相似社會經濟條件下應有相似的生育模式

基於日本、韓國、台灣的數據建立模型,預測中國城市的理論 TFR。

數學模型

TFR = α + β₁×U + β₂×H + β₃×L + ε

其中:U = 城市化率,H = 房價所得比,L = 女性勞動參與率

假說四:養老金收支平衡崩潰時點假說

核心邏輯:基於人口結構演變計算養老金系統的物理極限

確定撫養比達到臨界水平或養老金餘額耗盡至零的時間點。

數學模型

DR(t) = P_退休(t) / P_勞動(t)
B(t+1) = B(t) + 收入(t) - 支出(t)

📁 專案結構

China-Population-Verification/
│
├── README.md                      # 本文件
├── USAGE_GUIDE.md                # 詳細使用指南
├── TECHNICAL_DOC.md              # 技術文檔
├── PROJECT_OVERVIEW.md           # 專案總覽
├── requirements.txt              # Python 依賴包
├── config.py                     # 配置參數
│
├── quick_start.py                # 交互式快速入門
├── comprehensive_analysis.py     # 主分析程序
│
├── data/                         # 數據目錄
│   ├── templates/               # 數據模板(已提供)
│   ├── raw/                     # 原始數據
│   └── processed/               # 處理後數據
│
├── models/                       # 驗證模型
│   ├── hypothesis1_education.py
│   ├── hypothesis2_resources.py
│   ├── hypothesis3_tfr.py
│   └── hypothesis4_pension.py
│
├── utils/                        # 工具函數
│   └── data_utils.py
│
└── results/                      # 分析結果(自動生成)
    ├── hypothesis*_report.txt
    ├── hypothesis*_visualization.png
    └── comprehensive_report.txt

🚀 快速開始

安裝

# 克隆倉庫
git clone <repository-url>
cd China-Population-Verification

# 安裝依賴
pip install -r requirements.txt

運行分析

方式一:交互式模式

python quick_start.py

方式二:完整綜合分析

python comprehensive_analysis.py

方式三:單獨運行某個假說

python models/hypothesis1_education.py
python models/hypothesis2_resources.py
python models/hypothesis3_tfr.py
python models/hypothesis4_pension.py

查看結果

所有分析結果保存在 results/ 目錄:

  • 文字報告(.txt
  • 可視化圖表(.png

輸出結構示例:

results/
├── hypothesis1_report.txt          # 詳細統計分析
├── hypothesis1_visualization.png   # 4張圖表組合
├── hypothesis2_report.txt
├── hypothesis2_visualization.png
├── hypothesis3_report.txt
├── hypothesis3_visualization.png
├── hypothesis4_report.txt
├── hypothesis4_visualization.png
└── comprehensive_report.txt        # 執行摘要

詳見下方的分析結果與可視化章節。

📊 數據來源

框架包含演示用的模板數據。實際研究應從以下來源收集數據:

  1. 中國統計年鑑 (stats.gov.cn)

    • 出生/死亡記錄
    • 教育入學數據
    • 資源消耗統計
  2. 教育部統計公報

    • 各級教育入學人數
    • 高考報名人數
  3. 世界銀行開放數據 (data.worldbank.org)

    • 國際對比數據
    • 人均指標
  4. 聯合國人口司 (population.un.org)

    • 生育率數據
    • 人口預測

📈 分析結果與可視化

假說一:教育漏斗驗證假說

通過比對入學人數驗證出生數據準確性

教育漏斗分析

關鍵輸出:

  • ✓ 預期與實際入學人數對比
  • ✓ 殘差分析顯示數據差異
  • ✓ 缺口百分比時間趨勢
  • ✓ 累積人口缺口估算

假說二:生活物資消耗相關性假說

通過物理資源消耗估算實際人口

物資消耗分析

關鍵輸出:

  • ✓ 從食鹽、糧食、電力推算的人口
  • ✓ 與官方人口數據對比
  • ✓ 多種資源的缺口百分比分析
  • ✓ 累積人口差異趨勢

假說三:東亞同質性 TFR 異常檢驗假說

使用東亞數據模型交叉驗證生育率

TFR分析

關鍵輸出:

  • ✓ 實際與預測 TFR 散點圖
  • ✓ 殘差分析識別異常值
  • ✓ 東亞各地區箱型圖對比
  • ✓ 社會經濟指標相關性

假說四:養老金收支平衡崩潰時點假說

預測養老金系統的臨界崩潰點

養老金系統分析

關鍵輸出:

  • ✓ 人口結構演變(2025-2075)
  • ✓ 撫養比達到臨界閾值
  • ✓ 養老金收支預測
  • ✓ 餘額耗盡時間線與危機指標

🛠️ 技術棧

  • Python 3.8+
  • 數據處理:pandas, numpy
  • 統計分析:scipy, statsmodels
  • 機器學習:scikit-learn
  • 可視化:matplotlib, seaborn
  • 數據驗證:標準統計檢驗方法

📖 文檔導航

⚠️ 重要聲明

學術用途

本研究框架僅供學術探討和統計分析使用。所有結論基於:

  • 公開可獲取的數據
  • 標準統計分析方法
  • 國際通用的驗證假說

結果解釋

  • 統計顯著性 ≠ 絕對證據
  • 相關性 ≠ 因果關係
  • 模型預測具有不確定性
  • 需要綜合多個假說共同判斷

政治中立

本研究不構成任何政治立場或政策建議。

🎯 使用場景

✅ 適合用於:

  • 人口統計學學術研究
  • 數據新聞與事實核查
  • 政策分析與規劃
  • 教育演示

❌ 不適合用於:

  • 商業人口決策(應使用官方數據)
  • 法律或政策依據(本質是學術假說)
  • 政治宣傳

🤝 貢獻

歡迎貢獻:

  • 🔍 更準確的數據來源
  • 📊 改進的統計模型
  • 🎨 優化的可視化
  • 📝 更好的文檔
  • 🐛 錯誤報告

📜 授權協議

MIT License - 可自由使用、修改和分發

🌟 功能特色

完整框架 - 四個獨立且相互印證的假說
可重現研究 - 所有代碼和數據公開
模塊化設計 - 易於擴展和自定義
豐富文檔 - 從入門到精通
專業可視化 - 清晰直觀的圖表
嚴謹統計 - 標準驗證方法

📞 常見問題

Q: 數據從哪裡來?
A: 專案提供模板數據用於演示。實際研究請使用官方統計年鑑數據。

Q: 結果可靠嗎?
A: 模型基於標準統計方法,但結論依賴於輸入數據的質量和模型假設的合理性。

Q: 可以用於商業項目嗎?
A: 代碼是開源的(MIT License),但請注意數據來源的版權和使用限制。

Q: 如何添加新的驗證維度?
A: 參考現有模型的結構,在 models/ 目錄創建新的分析模塊即可。

📧 聯繫方式

本項目為開源學術研究工具。歡迎交流討論。


版本:1.0(2026年1月)
關鍵詞:人口統計、數據驗證、人口分析、交叉驗證、中國人口

About

A systematic, scientifically-verifiable research framework that cross-validates Chinese official population statistics through four independent hypotheses and third-party data sources (Proxy Data).

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

 
 
 

Contributors

Languages