洛阳证券公司联盟

历史空间数据可视化与经济史研究 ——以近代中国粮食市场为例

数字人文资讯2019-06-11 04:24:03

内容提要

本文梳理了历史空间数据的可视化方法在历史研究,特别是经济史研究中使用的发展脉络,探讨了未来经济史研究领域利用可视化手段的可能性。同时,以清代南方粮价空间分布和粮食运销网络为例说明了如何对历史空间经济数据进行可视化,分析得到清代南方地区米价从东到西的四个空间梯度,同时根据旧海关统计中的“多种粮食”贸易源汇数据,在分析其空间属性基础上定量重建了20世纪30年代的粮食贸易网络。本文认为可视化能够在原始史料“二次整理”过程中发挥较大的作用,在学科交叉和融合方面有着很好的学术前景。


历史学是否可以采取“大数据”研究方法似乎并未形成定论, 但在最后结论达成之前,历史研究中的数据目前已经拥有进行可视化(Visualization)研究的巨大潜力。在任何一个历史研究分支中,一项研究如果占有、产生或挖掘了大量历史数据,但却未能以最适宜、最直观和最具表现力的方式表达出来,将一定程度上影响其结论的表达,导致结论被曲解甚至损害该研究的学术价值及其传播——这无疑是一种巨大的浪费。合理审慎的数据可视化也许能在一定程度上帮助更深刻结论的达成和学术成果的跨领域交流。


历史数据可视化的发展历程


01

萌芽时期

历史数据可视化何时登上历史舞台,并没有一个客观公认的时间节点。19世纪上半叶,有一位关键性的开创者普莱费尔(William Playfair)。他被认为是柱状图(bar chart)和饼图(pie chart)的发明者, 奠定了数据可视化的一些基本规则和方法。


19世纪后半期被称为历史数据可视化的黄金时期,此时可视化赖以快速发展的若干条件均已在欧洲得以具备,比如各国统计部门开始建立,工业、商业和运输业的数字管理信息也多了起来,统计思想也在拉普拉斯(Pierre-Simon Laplace)和高斯(Johann Carl Friedrich Gauss)等数学家的推动下进入社会领域。总体来看,可视化的兴起是一个缓慢而渐进的过程。


John Snow


尽管如此,还是有一些标志性事件值得铭记。最为著名的是斯诺(John Snow)在1854年伦敦苏豪区宽街的霍乱平息中发挥的关键作用。在斯诺的创造性工作之前,对于霍乱是如何传播的,学界并未完全确定。斯诺将霍乱死亡病例的居住地,标注在一幅地图上(geographical grid),发现了其空间分布围绕着一个居民取水点(图1中的 PUMP)——那么霍乱的传播手段自然是不言而喻了。这样的发现,使得斯诺对流行病学有了开创性的贡献,并成为其奠基人之一。 


这种数据可视化的研究方式过于超前,那个时代的大部分人认为鞣制皮革和制皂过程产生的恶臭导致了霍乱。斯诺发现的霍乱传播成因与大众观点迥异,因此受到了广泛质疑。比如有的评论说“他有展示任何实际的证据吗?没有!”。1855 年,其自费出版的著作《霍乱的传播模式》(The Mode of Communication of Cholera),刊登了那个当时毫不起眼,但现在享誉世界的历史死亡信息可视化地图 (图1)。可惜这本书仅仅卖出去了56本,堪称惨淡。


图1 1855年苏豪区霍乱死亡街区图

资料来源:Paul Fine,et al.,“John Snow’s Legacy: Epidemiology without Borders”,Lancet,Vol.381,No. 9874(Apr.2013),pp.1302 -1311.


短短几年之后的1858年,斯诺不幸死于中风,年仅45 岁。医学领域最为著名的杂志《柳叶刀》(Lancet)在1858年6 月16 日,发布了一条非常简短甚至有些讽刺意味的讣告:“16 号中午,约翰·斯诺博士,这位著名医师在他萨克维尔街的家中中风去世,其在氯仿和其他麻醉学方面的研究广受同侪赞誉。”讣告全文一字未提其在霍乱研究中的巨大贡献。


伟大的研究不会永远被埋没,斯诺研究的价值,尤其是其将简单的死亡信息空间可视化的特殊研究手段,最终收获了公正的评价。《柳叶刀》杂志在斯诺诞辰200周年的2015年4月15号,重新刊发了足足两页纸的讣告,算是对斯诺职业生涯所承受不公的一种道歉和补偿。讣告检讨了以前的偏见并刊出了斯诺另外一幅有价值的地图作品《伦敦多个水厂供水区域地图(1854—1855)》,显示了若干水厂的供水区域及其交叉区域的空间分布,当然,这种分布与霍乱导致的死亡密不可分。这个延续了200年的公案也许可以部分回答那个经常会被问到的问题——“数据可视化到底有什么用?”。


除此之外,另外一个广受赞誉的划时代的历史数据可视化作品是1869年法国路桥工程师密纳德(Charles Joseph Minard)绘制的一幅历史军事地图(更精确的应该称之为信息图 Infographics)——拿破仑1812—1815年东征俄国地图。密纳德是较为专业的制图师,产量较之斯诺要多得多,他制作了大量的可视化作品,而其中最为优秀的就是图2的这幅东征图。


这幅地图之所以著名,在于其简约、优美和构思理性,以极少的线条表达了极为丰富的历史内涵。如图2所示,浅灰色线条代表法军东征之路,黑色代表战败后从莫斯科折返的退兵之路,线条的粗细代表军队的规模(1毫米代表1万人)。图中可见,拿破仑大军从俄国、波兰边境的聂门河开始进军时的42 万余人,到败军再次经过聂门河时,仅剩1万人,也就是说差不多40余万士兵在这次冰雪之旅中丢掉了性命。这幅地图的阅读者能够强烈感受到力透纸背的战争残酷性。沿途的著名河流和城市均标注清楚,同时在图的下半部,标注了败军沿途的温度,暗示天气是这场战争胜负天平的重要推手。值得注意的是,这幅图绘制于战争结束半个世纪之后的1869年,在那个年代,在二维地图上能够巧妙安排,将多种信息杂糅一体实属不易。在这个线条简约的地图里,起码含有了这几个层次的信息:部队规模、部队在二维平面上的实时位置、重要城市和河流、部队行进方向、败退之路上的沿途温度。即使以今天的标准来衡量,也是石破天惊的天才之作。


图2 拿破仑东征俄国人员损失图(1812—1813)

资料来源:http:/ /patrimoine. enpc. fr/document/ENPC01_Fol_10975?image =54#bibnum,2016 年11月15日。


这幅地图是一种特殊类型的可视化作品之滥觞,一般称之为“时空叙事性图表(Narrative Graphics of Space and Time)”。 这种类型可视化作品,尤其适用于历史研究,因为历史学在本质上,研究的就是叙事—时间—空间的三位一体。


这时候,在可视化作品不断地生产过程中,一些基本的原则成为了共识,比如,在作品中,要使用尽量少的“笔墨”来绘制与数据无关的东西,舍去细枝末节的细节,“除了数据一概不要”。甚至有人发明了一个概念叫做“Data-ink ratio”,姑且可以译作“数据墨水比例”,指的是跟数据有关的“墨水”占据作品耗费所有“墨水”的比例。


在此之后的可视化工作,都深刻受到上述作品的影响,但是因为技术手段并未取得革命性的进步,可视化的水平也一直停滞不前。


02

快速发展阶段

如前所述,计算机技术大规模使用之前,数据可视化是手工制作的、零星的、过于精英的和花费昂贵的。尽管有大量的可视化作品出现,人们更倾向于把它视为艺术而不是科学研究的方式,自然未能深刻影响学术界的研究方法。数据可视化真正进入学界,深刻影响学者的研究方式,还要等到计算机技术的普及以及个人电脑价格的大幅降低之时。


1987年美国国家科学基金(NSF)在一份关于优先支持科学计算可视化的报告中,将可视化定义为“是一种将抽象符号转化为几何图形的计算方法,以便研究者能够观察其模拟和计算的过程和结果”。换句话说,可视化的本质是将抽象的数据,以几何图形的方式呈现出来,使得科学研究的主体——人,以其最为擅长的观察世界的方式——目视判读来进行更深入的观察和分析。可视化并不是最终目的,而是研究过程的一种辅助手段,当然,历史数据的可视化也仅是历史研究的一种辅助手段。


众所周知,地图的历史要比数据可视化长得多,而且应用更为广泛。现在有一种普遍的看法,认为可以将地图视为数据可视化的一种。比如,2011年,奥莱利(O’REILLY)公司的《数据可视化之美》在国内出版,系统介绍了数据可视化在数据挖掘过程中的重要作用。“一图胜千言”,说明了良好的数据展示和表达对于决策者的分析以及科学研究的重要性。在该书的第五章“信息映射:重新设计纽约地铁图”中作者认为:


地图是已有的最基本的数据可视化的一种,我们已经有几千年的地图制作历史。然而,我们并没有把地图作为理解复杂系统的一种工具并加以完善。


《数据可视化之美》


数字历史和历史数据可视化的工作方兴未艾。 但是具体到中国历史过程中产生的历史数据的可视化,地理学者似乎做的工作更多一些。


如果可视化对象是空间数据,这种可视化某种意义上可以视为地图学(Cartography),换言之,在一定意义上,地理空间数据可视化可以被看作是数字时代的地图学。更进一步,如果可视化的对象是历史时期的空间数据,则可称之为某种方式的历史地图制作。因此,历史数据可视化跟历史地理信息系统(HGIS)具有很高的重叠度。


在某些方面,地理信息系统(GIS)较容易完成此种特殊类型——历史空间数据的可视化。过去的二三十年,地理信息系统作为一种工具“侵入”或者“被吸纳进”社会科学的趋势已经非常明显,在流行病学、新闻传播研究、分子人类学以及宗教研究等领域发挥了非常大的作用,得到了很多以前的常规手段难以获得的结果。尽管中国GIS的产业规模、GIS本身的研究水平都已经进入世界最发达的国家行列,但在国内历史学界GIS手段的使用尚在积极探索的过程中。


在历史学分支中,经济史是最适合使用GIS的领域,原因无它,二者都以数据为基础。经济史是最倾向于定量研究的历史学分支,近代经济史则是经济史中数据最为丰富的组成部分之一,二者早就应该拥抱彼此。但由于学科分类更近的关系,历史地理学捷足先登,比经济史更早接触GIS和可视化。


如今,历史地理学界大规模使用GIS已经有十余年的历史。潘威等人在回顾GIS进入历史地理学研究的文章中指出,历史地理学使用GIS的深度和广度尚很欠缺,这一现象已成为历史地理学界之共识。但最近10年来,历史地理学已经开始了具有自己特色的信息化和数字化之路。在历史地理学界,满志敏在历史气候和历史地貌方面的研究是开端。此后,经多位学者不断深入,现今已经遍地开花。中国历史时期人口统计资料较为丰富,留有长时段人口数据,侯杨方和路伟东的中国人口历史地理信息系统(CPGIS),拥有近代以及现代的多个时间截面的数据。


除此之外,也有学者进行区域性的研究。如王均、陈向东和宇文仲基于GIS数据处理技术,对清代陕西省内的县级行政区数字化建库,并链接历史文献中的县级人口、耕地等专题数据,进行了人口分布与人口密度、耕地分布与垦殖密度等方面的数据分析和制图。与之类似的还有初建朋、侯甬坚、陈刚的研究。这样小区域的人口研究基础——底图以及人口数据都是较易获得的。河南大学的史磊等,以梁方仲《中国历代户口、田地、田赋统计》为基础,以历史行政区域为基本单元,在GIS软件中设计历史数据库,实现对历史地理文献数据的计算机管理和可视化制图并进行历史数据的空间分析,以辅助相关历史地理研究。这其实蕴含着一种逻辑的必然性,那就是几乎所有的GIS都会不同程度地将历史数据可视化作为其成果。


《中国历代户口、田地、田赋统计》


城市史在GIS使用方面的切入点较多。“中央研究院”史语所范毅军教授,自其专著《传统市镇与区域发展——明清太湖以东地区为例,1551—1861》的城镇研究开始,就非常注重以精美的可视化成果——地图展示商路和市镇分布(苏州、松江以及太仓二府一州地区出现的 928个市镇),在这方面他是先行者。后来,他开始系统地建立台湾的历史地理信息系统(或地理资讯系统), 并有大量的理论性论述发表。


经济史学界使用GIS进行历史数据可视化研究的时间不长,但是经济史学界却早已夯实可视化研究的基础工作,对于计算机技术的关注也是远早于历史学界同仁的。最迟在1991年,《经济史评论》(The Economic History Review)就已经开始对每年最新的信息技术进展对经济学和社会科学的贡献进行回顾。此时,编辑人员已经敏锐地认识到新的技术手段对研究方式的巨大改变。但是,当时的技术条件还是很薄弱的。1986 年,历史与计算协会 ( Association for History andComputing,AHC)成立,这个机构成为欧洲最为重要的进行历史统计或曰历史计算交流的平台。对1991年研究的回顾文章将主要的篇幅放在数据库管理系统(DBMS)方面。DBMS 在当时刚刚从军用转到民用,因此学界对其热情很高。文章也介绍了另外两种系统(dBASE 和 Open AccessIII),分析了其在处理数据方面的异同点和各自的优劣。此后若干年,一直到1996 年,都有类似的综述性文章出现。1997年的一篇综述第一次提到了万维网以及地理信息系统,但并未进行深入介绍。毕竟当时二者均属于初创阶段,本身的发展尚未成熟,对其他学科的帮助也有限。此时的信息技术,对历史学和经济史学的帮助,停留在“纸和笔”的阶段。也就是说,IT技术,此时仅仅是异化了的纸笔,只能作为一种记录载体或者可视化工具存在,制图是当时计算机重要的功能,其计算功能还非常弱,更遑论分析了。


可视化在经济史中的使用

目前,经济史研究领域,如下两种方式利用可视化是最为常见的:


第一种类型,以GIS软件输出佐证性或示意性图鉴,作为背景介绍或开宗明义或延伸讨论。比如,对1350年以前欧洲北部粮食运销的研究。作为研究商品在多个国家的港口之间远距离运输的论文,有一个示意性的地图是必不可少的。


又如著名城市史学家安克强(Christian Henriot)的一篇文章,研究的是上海市区内工业分布如何受到中日战争的影响。美租界主要是黄浦江以北的杨浦区,英法租界在黄浦江以西苏州河以南,而大的工厂,基本都分布在河流两岸而不是租界内部。1937年开战后,苏州河以北的闸北区域被密集轰炸,1938年之后得到快速恢复,1939年各个工业分支均恢复到了战前水平。文章力图分析空间因素(以及背后的欧、美、日、中不同管理者)在这种超速恢复中的作用。这篇文章是非常具有代表性的:GIS在大部分情况下,是作为一种“作图工具”出现在经济史研究领域。这样的示意图或者地图,是众多描述性史料的可视化,具有较强的表现力和直观性,也被称为“可视化叙述 ( Visual Narratives)”。类似的研究还有比利时鲁汶大学建筑系布洛克(Greet De Block)以及美国新罕布什尔大学历史系的波拉斯基(Janet Polasky)两位学者对比利时19世纪晚期轻轨和城乡交通联系的研究。比利时的基础建设(铁路和轻轨)对比利时的工业发展非常重要,将乡村和工厂便捷地联系起来,使得乡村的农民可以快捷地进入工厂工作而不用住在城市,在19世纪就实现了“离土不离乡”的现代梦想。尽管轻轨对乡村景观有极大的破坏,很多学者都对其有不好的评价。但是其对比利时城市化的进程是极为关键的。国内学者在粮价研究方面进行了相关尝试,如彭凯翔对18世纪中期的粮食价格进行了空间分布的研究,获得了“等价格”梯度分布图,发现了两块具有持久性的“价格高地”。


第二种类型,文章的最主要结论由GIS软件或者系统获得。在这个方面,经济学者其实走在了历史学者的前面。这就是经济史学界GIS技术的利用现状。在经济史研究领域,新方法和新的技术手段的运用层出不穷,是一个较为活跃的学术增长点。因为GIS手段的特殊性,学者较多采用建立网站的方式进行发布,较之以往的研究成果以学术期刊、学术专著发布的方式有所不同。


有一个问题是必须回答的,那就是,历史数据的可视化跟数字历史(Digital History)、数字人文(Digital Humanities)、空间历史(Spatial History)到底是个什么样的逻辑关系?毫无疑问,可视化要比上述三个概念狭窄和简单,更偏向于工作流程“后端”的研究领域或者研究方法。换句话说,数字历史、数字人文都必然包含整理原始史料、整理原始历史数据的过程,而一旦这些数据在得到妥善的整理,特别是建立了某种数据库之后,历史数据可视化仅仅是其可以选择的处理方式之一。换句话说,如果把数字历史的工作流程视为三步走,即收集史料—整理史料—展示(研究)史料的话,可视化仅仅出现在第三步或者第二步。


空间历史则跟数据可视化较为紧密相关,几乎所有的空间历史项目的最终结果都是某个专题历史数据的可视化,而且其发布方式一般以网站发布为主,或以地图的方式,或以信息图的方式(infographic),比如最为著名的斯坦福大学的空间历史计划(The Spatial History Project)。


斯坦福大学空间历史计划网页


对历史数据的可视化,是数据导向型的,某种类型的数据,则需要相应类型的可视化方式。


第一类,时间序列的历史数据可视化,是传统最为深厚的可视化,从可视化的先驱者普莱费尔开始,在时间轴上是做文章就是可视化的必修课了。计算机工具从最为传统的微软 Excel 开始,到Tableau、SPSS、SAS 或者 R,均在此方面功力深厚。这方面的可视化几乎贯穿了所有以定量为基础的学科,在此不再赘述。


第二类,有空间属性的历史数据可视化,如前所述,可以将其视为制图学的分支。进入信息时代后则跟历史地理信息系统密不可分。ArcGIS、MapInfo Pro、QGIS等GIS工具自不待言,甚至连 Tableau这类专业可视化工具也纷纷加强了自己的地理信息处理能力。更有甚者,作为科学研究者们最常用的工具,微软 Office 也在 Excel2016 配置了原生GIS模块“三维地图(Power Map)”,用以在获知数据的地理空间属性的前提下(比如邮编或者经纬度),很方便地在 Excel 中生成专题地图而不需要专业的GIS软件。Excel2015版本也可以自行安装插件 Power Map Preview for Excel2013。


第三类,除了时间序列数据和空间数据,还有一种关系型的数据类型,也就是社会网络分析(Social Networks Analysis,SNA)型数据,这种类型的数据自古有之,但对其大规模的可视化依靠的是现代社交网络的发展,比如 Twitter、微博、微信等产生的人际沟通海量数据以及其所建立起来的虚拟网络。对这样的新类型的数据,有了新的研究工具和路径。历史学者可以借助于这种业已成熟的研究路径、指标体系和分析工具(如 Gephi、Pajek、Tulip 等),进行这方面的尝试,比如哈佛大学和北京大学等机构所建设的中国历代人物传记资料库(China Biographical Database Project,CBDB)的数据就是一个典型。当然,这样的方法不仅仅可以分析社会网络,如果把社会网络的主体看作是城市、港口、机构(比如邮政网点),把互相之间的贸易联系、邮件联系、金融联系作为另一个角度的“人际关系互动”,然后使用类似的分析软件进行研究,也是一种有趣的研究路径。从某种角度来考虑,关系型数据跟空间数据在某些领域是重合的。


社会网络分析型数据也是重要的历史数据


还有一个方法论上的问题值得讨论,就是如何解决在历史研究中经常遇到的数据缺失问题,换句话说就是能否和如何使用空间插值。在经典统计中,一般假定观测值是独立的,也就是说观测值间不存在相关性。在地统计中,使用空间位置的相关信息可以计算观测值间的距离并将自相关建模为距离的函数。空间插值一般可分为两类,确定性方法和地统计方法。下文并未对粮价数据采取ArcGIS中常用的空间插值方法,如克里金法(克里金法是一种行之有效的建构连续表面的方式,在地理学中有大量的应用)。


但经济史研究中经常是不轻易尝试进行任何插值,有一个笔者自己总结的规律就是我们“不生产数据、只做数据的搬运工”。为什么呢?因为近代经济数据所产生的微观环境或者叫“下垫面”非常复杂。


比如,下一节我们在处理粮价的空间分布的时候,无论是采用反距离加权法(IDW)或克里金法都会遇到相同的具体问题。


第一个问题,统计的最小单元——府州统计项目的差异化。北方,直隶省(保定府)统计的是粟米、高粱、糜子、小麦、黑豆、上米、上粟米、中粟米、大米;山东省(兖州府)统计的则是高粱、黑豆、黄豆、粟谷、粟米、大米;山西省(泽州府)统计的是高粱、荞麦、粟米、豌豆;仅就这北方三省来看,似乎仅有粟米是可以作为一个统一指标来看待的。南方统计则更为凌乱复杂一些,比如,湖北省(汉阳府)统计的是上米、中米、下米、大麦、小麦、黄豆、粟米;浙江省(杭州府)为籼米、细籼、晚米、细晚米、大麦、小麦、黄豆、上米、稄米;广东省(惠州府)则为上米、中米、下米、大麦、小麦、黄豆、绿豆、黑豆。南方各省差异极大,最为麻烦的是一省内部各府统计的作物种类也有较大的不同。这就决定了我们能够使用的数据非常局限,看似海量的粮价数据被“清洗”成了一个很小的简单数据库,某个年份某个月份全国的数据量可用数维持在几百个左右。


地区间统计品种存在差异


第二个问题,粮价数据量过少。清代粮价数据库的总体数据量很大,貌似不存在数据量不够的问题,但是具体来看,某年某个府州的中米价格,其本质上是以一个市场抽样数据代表了一个行政区划,也就是一个“面”的均值,而且,“面”的面积差异极大——府州的面积从几万平方公里到10万平方公里不等。我们试图采用克里金法来插值,以近代浙江省(11个府10万平方公里左右)为例,若有一个府的粮价缺失,那么就要用其他10个值(10个府)的粮价,来确定1个府的价格,那么这样看起来数据样本有些过少了,结果堪忧,有可能误差极大。如果考虑到浙江省11个府的样本过少而试图扩大样本量,那么是扩大到所有全国的府州合适,还是扩大到浙江省所属的某个施坚雅定义的地文区合适,还是扩大到冀朝鼎定义的某个基本经济区合适?这是一个棘手的问题。


第三个问题,粮价产生“下垫面”的复杂性。克里金法的本质,是用经纬度 xy 值来确定随机的自相关误差项 ε(s)(s 代表了空间位置)。这样的方式在“下垫面”较为均质的条件下还算合适,但是粮价对于“下垫面”自然地理特征过于敏感,比如海拔、坡度或者分水岭的分布。即使是距离非常近的两个府州也有可能因为分属于不同的小流域而粮价根本就毫不相关。


所以,与自然科学中常见的气温插值、臭氧浓度插值等问题不同,粮价数据的插值会遇到上述问题,迫使研究者只能精心选择那些有代表性省份的代表性年份、月份进行研究,本文也是这么做的。


下面,本文使用一个小例子说明数据可视化如何将经济史研究更臻于定量化和可视化。清代粮食价格数据是史学界目前能够掌握的最好的系统经济数据之一。从全汉昇、王业键开始就对此数据进行过深入的分析。进入信息化时代以来,我们掌握了他们那个时代未曾有过的它源数据——近代海关数据和可视化手段,我们试图在前人的工作基础之上,贡献我们的一点微小力量。


中国旧海关通令全文数据库近代海关数据可视化分析


我们主要从近代粮价的空间分布和近代粮食贸易网络两个方面进行近代粮食市场的可视化研究。粮价方面本文将选择一种空间分布较为广泛的标志物(中米),分析其在中观尺度上的空间分布状况以及这种空间分布在时间上的变化过程,彻底分析清楚长江以南地区这个被学界认为市场整合程度较高的区域,其粮食价格到底呈现何种分布态势。这只是一个基本史实的厘清,本文并不打算对此加以过多的分析讨论。基本史实清楚之后,研究者自然会考虑下一个问题,这种区域的不均衡必然导致粮食的长途运输,从而形成一个粮食贸易网络。为了定量刻画粮食贸易网络,我们为此建立了一个小小的工作数据库,夯实近代中国大城市间粮食贸易 OD 数据流,同时利用技术手段,重建一个基于海关数据的粮食贸易网络,为其他贸易的研究提供一个模板或者例子。上述二者在空间上呈奇妙的耦合关系,粮价空间分布的不均衡,乃产生粮食长途运输的根本原因,而粮食的贩运则平抑了粮价的不均衡。


为何要对清代粮价进行可视化分析

近代以来,清代粮价资料一直受到学界重视,先后有多位学者进行了系统性的整理。早在20世纪30年代,汤象龙先生就整理了诸多清宫财政经济档案,于1992 年出版《中国近代海关税收与分配统计(1861—1910)》(中华书局)。除此之外,汤先生领导进行了多项基础性的、极为重要的整理工作,其中之一便是粮价报告,此后这部分档案经系统整理后在2009年出版。由于众所周知的原因,清宫档案一部分藏于台北故宫博物院,这部分粮价档案由王业键领衔的团队整理。但王业键先生的工作不止于此,他将上述来源的粮价数据汇总并建立数据库发布在互联网上——清代粮价资料库,为其他学者使用提供了极大的便利。此后谢美娥等均在此方面有所建树。陈计尧与王业键合著的《两次世界大战之间中国粮食贸易网络,1918—1936》,更是在“重建”国内粮食网络贸易方面令人印象深刻。陈、王二位先生研究的数据基础,仍旧是蔡谦、郑友揆、韩启桐等学者根据海关出版物和档案而二次发掘的数据,文中所重建的贸易网络,并非根据定量的源汇数据矩阵绘制。从其文后所附的表格可见,粮食贸易网络乃由半定量的他人文献综述所得。这是近代国内商品流通研究中一个绕不过去的困难——除了海关资料,其他来源的数据统计实在乏善可陈,且不成系统,后者更为致命。因此,上文在处理收集到的粮食贸易网络数据的时候,只能采取手绘的方式,绘制了一幅稍显杂乱的示意图,见图3。


图3 1919—1936 年中国大米、面粉运输网络


初见此图,不免为前辈学者在史料搜集方面所做艰苦卓越的工作而叹服,在资料的占有方面已经做到了几乎完美的地步,但是客观而言,图3乃是半定量的研究(箭头粗细一样),是从多种他源文献中获得,在数据精度的一致性方面有所欠缺。而且此图绘制稍显凌乱,没有特别好地体现出作者基础工作的深度。


确定粮价数据的质量问题是进行深入讨论分析的首要问题。王玉茹和罗畅对粮价数据资料的使用和数据质量进行了深入研究。研究表明,乾隆朝的粮价数据质量高于嘉庆和道光两朝,嘉庆和道光之数据质量又高于咸丰、同治、光绪和宣统四朝,显然,粮食价格的数据质量是愈往后期越低的。


本文选择南方“米”为标志作物,但各地略有差别。在南方诸省中,大部分省份如湖北,每一个月份有上米、中米、下米的多个价格;有的省份如安徽仅有中米价格;浙江不以上米、中米和下米统计价格,而是晚米、籼米、细晚米和细籼米。江浙市场上的流通大米,有粳米、糯米和籼(秈)米三大类。糯米流通量较少,多为酿酒所用。粳米粘性较糯米为逊,而较籼米为强,最适饭食之用,故销路最广,其价格之变动,足以左右糯、籼之价格。据民国时人调查,米之品质,以糯米为最佳,粳米次之,籼米又次之。粳米之中,又分早晚二种,早者约占十分之二。晚稻,其质坚硬,纹细皮薄,碾白之后,光泽细润,较早稻为佳。籼米虽收获互有先后,但相差无几,故无早晚之分。由此可见,浙江统计中的晚米和细晚米实为粳米。


这种多样性给选择一个统一标志作物带来了困难,为了方便起见,本文统一选择各个省份米价最高的那一类(上米或细晚米等)作为标志物。清代粮食数据具体到每个省差异极大,西北、东北边疆省份数据不连续,而中、东部传统农业大省的粮食数据较为连续。但每个省份数据质量较高且连续的年份又有所不同,因此选择哪几个年份做截面研究成为首要问题。经过分析,本文选择乾隆朝作为主要研究区段,辅以若干其他年份。


综上来看,尽管有众多学者都对粮价数据进行过时间序列、市场整合等方面的研究,可是还没有回答一个真正的问题,粮食价格在空间上到底呈现一种怎样的分布态势?这种分布态势背后的原因可能是什么?类似的问题,比如中国历史时期人口在空间上的分布,就有学者如侯杨方和路伟东进行过精彩的研究。换句话说,粮价空间分布即使不是一个学术问题,也是一个很有趣的问题。而我们在对其进行分析之前,首先要把它做出来。


基于GIS的

清代南方粮食价格空间可视化

学界的清代粮食价格研究基本都集中于时间序列分析上,著述丰富而深入。粮价的空间研究中尤以粮食市场的整合研究比较深入,分析市场整合与否主要是看不同区域市场间价格波动是否具有一致性。当然,学界对于市场整合依旧有不同的声音,比如岸本美绪提出,既然一个市场拥有众多商品种类,粮食仅仅为其中之一。那么,以粮食价格是否“一物一价”这单一指标来衡量市场整合与否就值得商榷了。这样的疑问也值得思考,不过,这并不是本文要解决的问题,故置而不论。恕笔者浅陋,除了前述彭凯翔的研究外,目前粮食价格的空间分布研究并不太多。本文试图使用GIS软件,将清代粮食价格的空间分布状况做一些分析。


01

数据基础

本文数据基础是王业键粮价资料库,但是由于进行空间分析需要 ArcGIS的软件支持,其所需要的数据库与王业键粮价资料库的数据结构有较大的不同,所以需要进行数据库重构。首先需要解决的是底图。清代粮价按照不同的行政区划上报,一般是以府、州为单位。中国历史地理学界已经较好地解决了这个问题——CHGIS。本文使用“1820年层数据 CHGISV4”,其底图时间为清朝嘉庆二十五年(1820),主要使用的是其中的府级界限。在使用过程中首先要进行地图格式转换,因为1820年的行政区划底图是为了在 MapInfo 环境中使用的,必须转换为 ArcGIS所能识别格式才能添加粮价数据库。


府边界所依托的数据表表头主要结构如表1(有删减)。


表1  府边界地图的属性表(部分)


由上表可以看到,“FID”字段是每一个“府”唯一的 id 号码,“NAME_CH”字段为府州的中文简体名,“LEV1_CH”为其上属的省份(自治区)。因为粮价统计都是以府州为单位的,因此本表的“FID”是下面将要建设的粮价数据库的索引。而需附加上的粮价原始数据结构较为简单,为了能够通过GIS手段表达出来,粮价数据库的结构改变如表2。


表2 粮价数据库示例(部分) 单位:银分/仓石


其中,“FID”字段为与前者府边界数据表进行空间上“关联”的关键字段。而“上米最低”“上米最高”为月均价格,为后期关键的属性字段。


02

分析过程与结果

根据上米价格,可以获得不同的专题地图以表征粮食价格的空间分布。


由图4可见,乾隆六年至乾隆十五年的平均状况,自西向东呈现为四个阶梯区间:以松江府、苏州府、嘉兴府、江宁府以及江北之太仓、通州等为核心的第一阶梯,向南延展到漳泉二府和海峡对岸的台湾,浙北粮价在总体上高于浙南山区;第二阶梯为紧邻第一阶梯的西侧若干府州,以安徽、湖北、湖南和江西的核心府州为核心,广东省粮价呈现多样性分布,在二、三阶梯中游移;第三阶梯以广西、贵州、湖南为主体,包括四川中东部府州;第四阶梯以云南、四川西部为核心,粮食价格呈现内陆地区的高地现象,某些年份异乎寻常的高于沿海地区。


由图5可见乾隆三十六年的空间分异更为明显,且四级阶梯的空间分布更为鲜明,云南省诸多府州的价格相当可观。贵州、广西、湖南三省和湖北若干府州是毫无疑问的价格洼地。广东、江西以及部分安徽和长三角地区价格适中。福建、台湾以及部分浙江省府州则又与云南类似,价格较高。


图4 乾隆六年至十五年10年平均六月份上米月价格空间分布


图5 乾隆三十六年六月份上米月最低价格空间分布


总之,清乾隆年间,在可信数据的时间区间内,南方米价月价格的空间分布具有强烈的空间分布四级阶梯特征。呈现此种阶梯空间分布特征的原因是长江流域存在粮食生产和消费的地域分工。据研究,长江中上游的若干省份,在清前期,每年有大量粮食运出本省供给下游消费。川粮外运在巅峰期,维持在每年百万石以上,江西在乾隆时期约为450万石,湖南省外运粮食更多,甚至可达 800万—1000万石,湖北、安徽也在100万—200万石。郭松义估计,长江线上,年粮食运输量大体是:四川100万—150万石,两湖1200万—1500万石,江西400万—600万石,安徽50万—100万石,统共1750万—2350万石。在米粮大量输出的时间阶段,中上游省份的米是供大于求的,价格低于同期的下游地区是非常正常的现象。但是随着上游人口的生齿日繁,能够调剂的米粮也在清后期趋于减少。


就本文掌握的数据来看,在阶梯分布中,清代云南一直是价格“高原”,其原因较为复杂。云南是高原省份,全省以山地为主,耕地总面积和人均面积均远低于同期其他省份,而且气候、地质灾害较多,农业产量一直不高。同时,云南省与其他省份交通不畅,调剂粮食的渠道一直不够稳定,形成了一个较为独立的粮食区域市场。清代云南粮食价格一直居高不下,统治者也苦于没有根治之策。清代云南人口扩张与可耕地发展呈反向关系:人口增长最快,而耕地面积增长却最少。自1700年以来,越来越多的中心区农民宁愿种植烟草和棉花等经济作物,而不愿种植稻谷等粮食作物。云南粮价之高企,还有一种可能是大量移民导致的人地关系紧张。李中清认为,清政府的激励措施使超过200万的移民定居在西南的山区。人口与耕地面积的比例,或称为营养密度,是一个很好的指标,它显示了中国西南各地粮食供给负荷的不均衡性,云南1825 年的平均营养密度为每平方公里耕地375人,甚至可达每平方公里 900人(澂江府),如此失衡的营养密度,意味着必须有很高数额的粮食输入才能支撑中国西南社会的发展。


图6 乾隆十五年两广米价空间分布


由于山脉之阻隔,虽属南方,两广地区跟长江流域其他省份不同,是一个较为典型的消费生产耦合区域。据陈春声研究,广东省人口压力较大,人地关系紧张,粮食缺口多由广西余粮填补。其运输通道,主要依靠西江及其上游支流,多位学者研究均为每年300万石。陈春声进行过岭南区域市场的整合分析,发现尽管存在18世纪广东米粮市场有“整合程度越来越高的趋势”,但是本区域的米价区域差异最大可达到102%。这说明尽管存在一个区域性的流通顺畅的市场网络,区域内价格空间差异依然是牢固存在的,二者并不矛盾。广西与广东两省具有大量的米粮贸易,同时二者地域接近,米价长期变动趋势有密切关系。珀金斯也认识到了这一点,认为广东之所以呈现出这种特点,一是因为能在18世纪中得到它的许多物价资料,二是因为它在商业发展的规模上处于中间地位(特别是就粮食而言)。与长江下游的商业区不同,广东在最坏的歉收季节并不能依靠长江上游的富裕粮仓,却只能退而求其次,依靠仅仅由于人口稀少而有一点点余粮的广西。另一方面,同北方也不相同,广东的大部分地方靠近海岸或其他水上运输路线,并且是中国少数能够在一年中栽种双季稻的地区。


本节使用GIS软件,将粮价数据库中南方米价提取出来,选择了若干典型时间断面,分析得到了几幅有代表性的可视化地图,将隐藏在海量数据里面的粮食价格空间分布状况基本厘清。


粮食价格的空间分布深刻地影响了粮食的长途运输,按照常理,大宗货物的运输自然是从价格较低之地运往价高地,运抵之处价格是原产地成本、沿途运费、税费和商人利润之和,要远高于原产地。GIS软件中可以用数字高程模型(DEM)模拟出可能的地表径流走向,那么,粮价空间分布的价格高程模型也同样应该是粮食贸易网络的自然基底。但是,粮食运销还受到社会其他要素的强烈影响,尤其是国内通行税率的高低。在子口税发达的长江流域,这里的综合运输税率是要远低于近代中国的其他地区(理论上仅有7.5%)。因此,长江流域成为粮食运销最为繁忙的路线也是可以理解的。长江流域子口税税率低这一比较优势对近代中国贸易网络形成的影响,在笔者的另外一篇文章中有过深入的阐述,本文不再赘述。


中国旧海关统计的粮食网络可视化

近代国内商品流通的定量分析是中国近代经济史研究的难题,吴承明先生就曾经感叹:仅能间接估计,结果“当然很粗糙”。究其原因,在于没有任何机构或组织有能力,哪怕尝试性的对近代中国粮食流通网络做过普查分析。所有的当代学者只能借助他源数据进行间接性分析,比如上文所述陈计尧和王业键的研究。该研究令人印象深刻,他们制作了4幅国内粮食运输网络的基本图示(比如前文的图3),但限于技术条件,都比较简略。


自2001年京华出版社的《中国旧海关史料》和由吴松弟教授整理的2014年广西师范大学出版社的《美国哈佛大学图书馆藏未刊中国旧海关史料(1860—1949)》相继出版,对旧海关数据的整理和分析进入了一个新的阶段,学界掌握了更多的数据,其中就包括近代粮食流通的数据。通过一定的技术手段,笔者得到了1936—1937年,也就是中日全面战争爆发之前的国内粮食贸易的流通网络。需要特别指出的是,此网络不仅包含国内粮食产出运输过程,亦包括进口粮食在国内开埠城市间运输的那一部分,而且后者的份额是不可忽视的:其中,汕头、广州、上海和九龙在20世纪初期达到每年200万担(米和稻,即 Rice and Paddy)的进口量,宁波和拱北也达到了每年100万担以上的进口量。主要的进口来源是法属印度支那半岛、暹罗、香港和英属印度等地。


近代海关贸易中,点对点之间的贸易(或称之为源汇数据 Origin Destination Data)分为两类,一个是埠际贸易,一个是子口税贸易。埠际贸易统计较为完善,基本从19世纪60年代到1949年每年均有统计,但是到了后期,海关统计体例变化,在海关报告(reports)和海关统计(returns)中不再单独列出。子口税贸易的统计,是从开埠口岸到其腹地较小的不开埠城市的贸易类型,也只是在早期海关统计中有所涉及,后期也消失了。


笔者查阅《美国哈佛大学图书馆藏未刊中国旧海关史料(1860—1949)》,试图在第一次在国内公开系统出版的海关季报(Quarterly)中寻找埠际贸易的统计(此部分在170册《中国旧海关史料》中缺失),但是没有发现相关资料。因此,本文只能利用郑友揆、韩启桐所编之《中国埠际贸易统计(1936—1940)》(北京:中国科学院出版社1951年版)。该书利用抗战期间从海关总税务司所查的海关统计“原始资料”,经过二次整理,获得了埠际贸易的统计。


需要指出的是,《中国埠际贸易统计(1936—1940)》在数据结构上,是一个非常典型的源汇数据矩阵(Origin-Destination data matrix),这样的数据是现代经济学和城市研究中非常珍贵的数据类型,即使是在当代经济研究中也并不多见。虽然两位作者编著此书的时候也许并未认识到这一点,却为我们进行可视化分析奠定了极好的基础。


为了对此数据集进行更好的研究,本文在写作过程中,系统数字化了这本著作,建立了“中国埠际贸易数据库(1936—1940)”,将《中国埠际贸易统计(1936—1940)》中所有350余个表格数据库化,录入了约50万条数据。本文汇总了该书中的5个分类作为图7的“多种粮食”:表22(麦粉-麦屑在内)、表23(米谷)、表24(小麦),每个表格又分为5个年份。数据详见表3。


表3 中国埠际贸易数据库(1936—1940):

1936 年小麦运输部分  单位:国币元

资料来源:郑友揆、韩启桐编:《中国埠际贸易统计(1936—1940)》。


需要说明的是,表3是《中国埠际贸易统计(1936—1940)》“杂粮及其制品”大类下面的“表二十四”之1936 年小麦统计的部分展示。“杂粮及其制品”这个分类,在《中国旧海关史料》中所载的1936 年海关统计的原始报告中也是这个名字,列为“第四组”,英文为 Cereals and Cereals Products,包括麦粉(麦屑在内)(Flour,Wheat)、米谷(船用米在内)(Rice and Paddy)、小麦(Wheat)等细分。两者的划分是一致的,《中国埠际贸易统计(1936—1940)》基本照搬了海关统计的分类,口径一致,可信度很高。


《中国埠际贸易统计(1936—1940)》的商品统计及分类原则具体而言是这样的:


关于这本统计数字的范围及计算方法,需要说明的,有以次数点。第一,海关对于“土货”转运的管理,仅以按照普通行轮章程行驶之轮船所载为限,其由民船、铁路、公路、飞机以及内港小轮承运的均不包括在内。第二,自1932 年起,在国内贸易和国外贸易两者界限划分上,关册记载改以各关最后运出口岸为分界点,此法至今照行,因此本书所称中国埠际贸易实际带有广义性质,除一般埠际贸易外,还包括了各埠间接由他埠运往外洋的土产,因在转口途中而增添的记录,如由重庆运往上海的出口猪鬃,包括在上海的进口贸易以内。第三,沦陷期间东北各埠“土货”输出贸易统计无从稽考,不过从关内通商口岸运往东北各埠的货物,仍编列在“国内土货贸易”内。


换句话说,所谓的“埠际贸易”,不仅仅包括一般埠际贸易,还包括土货出口之前的转运过程和洋货进口之后的转运过程,覆盖面非常广泛。


上述界定,并非郑、韩两位学者所独有,在目前国内的海关研究中应该算是一个共识。本文也是依照此界定来进行制图。


基于上述所建立的“中国埠际贸易数据库(1936—1940)”,我们将1936—1937年的“多种粮食”表格加总,以货物总值计,通过一定技术手段,获得了当时国内粮食贸易的基本空间分布状况。


图7  中国多种粮食贸易(麦粉、小麦和米谷)网络(1936—1937)

资料来源:《中国旧海关史料》、《美国哈佛大学图书馆藏未刊中国旧海关史料(1860—1949)》以及《中国埠际贸易统计(1936—1940)》,第168—205 页。

说明:最粗的5个灰色线条为最重要的5条粮食贸易流。


1936—1937年的国内经济发展状况,是战前的高峰并被视为近代经济正常状况最后之一瞥。上海—天津,上海—九江,上海—广州,芜湖—汕头间的粮食贸易占据近代粮食贸易最主要的份额(仅指的是通过海关的部分)。长江流域和长江以南城市及其腹地的粮食网络要远远比北方地区复杂。这是因为北方开埠港口要远少于南方,而对于粮食这样的大宗货物,轮船和木船运输的经济性要远高于陆运。另外,北方的粮食市场并未整合,而是属于南方粮食市场的“附属”或者“下层市场”。香港在华南粮食贸易中的地位无可替代,但是因为海关数据将香港视为国外,并未单列其数据,因此图7并未显示出香港的粮食网络,实在是一种遗憾。较之珀金斯对20世纪30年代南方粮食市场运输网络的研究,海关数据能够提供更多的信息。比如九江在粮食贸易网络中的作用要高于汉口,汕头跟芜湖间的直接粮食贸易亦常常被学者所忽视。当然,图7所显示的是海外贸易因素加入之后形成的复杂的粮食流通网络,跟珀金斯主要依据20世纪初期所编纂的省志、县志、农村实态调查报告和《中国实业志》所得出的结论自然是有不同,在精确性上有了很大提高。


总体来看,粮食贸易网络是李伯重先生所言之全国市场的一个重要组成部分。清代南方地区米粮的运输网络基本上已经清楚,空间分布方面,大米价格从东到西,从沿海到内陆,分为四个阶梯:沿海浙江、苏南诸多府州价格较高,越往内地,进入江西、湖南、湖北,价格降低约0.5个标准差,而进入广西、贵州,米价又降低0.5个标准差。云南省米价一直较高,跟长三角地区几乎保持一致的水平,形成了西南地区的价格高地。


中国旧海关史料中包括精确的含有空间属性的粮食运输数据,可以定量恢复近代粮食贸易网络的巅峰状况,而且此网络又是国内粮食运销和国外粮食进口二者耦合之结果,较之前人就单纯国内市场的分析更进了一步。


 总 结 

本文着力探讨的是可视化手段在经济史中应用的可能性,我们发现,在某些前人进行过深入研究的领域,比如清代粮食价格研究领域,如果我们采取一些新手段,可以在精度上有所提高,尤其是在空间历史数据的可视化方面,学术的潜力还很大。但是必须说明,这样的研究是基于前人多年辛苦的基础资料整理工作而成,无论是海关数据还是粮食价格数据,都是如此。海关数据是笔者多年整理的结果,而清代粮价数据参与学者更为广泛。


历史经济数据可视化的目的是什么呢?这是笔者常常遇到的问题。其实,我们可以换一个角度来看待可视化。在历史学界,应该不会有人对族谱、地方文献、海外所藏古地图、清水江文书、上海道契、中国历代人物传记资料库(CBDB)和中国旧海关出版物等史料的收集、整理和出版是否有意义有所疑问,因为学者们都深知这样的工作是造福学界的基础性工作。如果我们把可视化手段视作对上述史料的“初加工”或“粗加工”,也就是史料“整理”中的一个探索过程,是学者对上述史料进行严肃的学术研究之前的一个预研究手段,那么可视化的作用就很清楚了。可视化“整理”的探索过程中,实际上就是一系列“试错”的实验,虽然它并不一定能够保证会得出重要的结果,但它会让我们更容易地进行“试错”。此外,当你的研究进入别的领域学者的视野时,可视化结果会大大降低对方的理解难度和理解时间,一些学科交叉的火花也许就碰撞出来了。


最后需要指出的是,历史经济数据拥有极大的可视化潜力,可视化的结果在直观性和表达力度上具备一定的优势。但是,近代经济数据也许尚不能跟“大数据”概念等量齐观。笔者认为,历史研究中的众多数据库,比如经济数据、人口数据、报刊和地方文献全文数据库等等,目前来看,均难以符合“大数据”的严格定义。因此,中国历史数据的分析和深入挖掘还需要从现实出发,首先在历史数据可视化和量化历史研究方面做一些探索性工作,在此基础之上再来讨论“大数据”的可能性。


作者简介 / 转载声明

王哲,上海财经大学城市与区域科学学院助理研究员。

原文刊发于《中国经济史研究》2017年第5期,已获得原作者授权。 

注释略。


文章|王哲

编辑|岑曦