然而父系也是越往南就汉含量越低呀。福建除外。
附全文:省去图表和引文。
研究单位:
1. 复旦大学现代人类学研究中心遗传工程国家重点实验室生命科学学院摩尔根—谈国际生命科学中心,上海200433,中国
2. 国家人类基因组南方研究中心,上海201203,中国
3. 辛辛纳提大学环境健康系基因组信息中心,辛辛纳提,俄亥俄州45267,美国
4. 中国科学院昆明动物研究所细胞与分子进化重点实验室,昆明650223,中国
语言和文化在人群间的扩散有两种不同的模式:一种是人口扩张、人群迁徙模式;另一种是文化传播模式,人群之间有文化传播,而基因交流却很有限。同一语系的欧洲人群的形成机制争议颇多,争论的焦点在于来自近东的农业文明和语言的扩散是否伴随着大量的农业人口的迁移[1-3]。
有着共同的文化和语言的汉族,人口超过了十一亿六千万(根据2000年的人口统计),无疑是全世界最大的民族。因此汉文化的扩散过程广受各领域研究者的关注。通过系统地对汉族群体的Y 染色体和线粒体DNA 多态性进行分析,我们发现汉文化向南扩散的格局符合人口扩张模式,而且在扩张过程中男性占主导地位。
史载汉族源于古代中国北方的华夏部落,在过去的两千多年间,汉文化(汉语和相关的文化传统)扩散到了中国南方,而中国南方原住民族则是说侗台、南亚和苗瑶语的人群(百越、百濮和荆蛮)[4-5]。经典遗传标记和微卫星位点研究显示,汉族和其他东亚人群一样都可以以长江为界分为两个遗传亚群,南方汉族和北方汉族[6-9]。两个亚群之间的方言和习俗差异也很显著[10]。这些现象看似支持文化传播模式,即汉族向南扩张主要是文化传播和同化的结果。然而,两个亚群之间有着许多共同的Y 染色体和线粒体类型[11-12],历史记载的汉族移民史[5]也与汉族的文化传播模式假说相矛盾。本研究对这两种假说进行了检验,证实汉文化的扩散中的确发生了大规模的人群迁徙(人口扩张模式)。
为了验证这些假说,我们把南方汉族的遗传结构与两个亲本群体作比较,其一是北方汉族,其二是南方原住民族,即现居于中国境内和若干邻国的侗台、苗瑶和南亚语群体。我们分析了来自中国28 个地区汉族群体的Y 染色体非重组区 (NRY) 和线粒体DNA (mtDNA) 遗传多态[13-16],这些样本覆盖了中国绝大部分的省份(详见图1 和补充信息表1)。
父系方面,南方汉族与北方汉族的Y 染色体单倍群频率分布非常相近(见补充信息表2),尤其是具有M122-C 突变的单倍群 (O3-M122 和O3e-M134) 普遍存在于我们研究的汉族群体中(北方汉族在37-71%之间,平均53.8%;南方汉族在35-74%之间,平均54.2%)。南方原住民族中普遍出现的单倍群 M119-C(O1) 和 M95-T(O2a) 在南方汉族中的频率(3-42%,平均19%)高于北方汉族(1-10%,平均5%)。而且,南方原住民族中普遍存在的单倍群O1b-M110, O2a1-M88 和 O3d-M7[17], 在南方汉族中低频存在(平均4%),而北方汉族中却没观察到。如果我们假定起始于两千多年前的汉文化扩散[5]之前南方原住民族的Y 类型频率与现在基本一致的话,南方汉族中南方原住民族的成分应该是不多的。分子方差分析(AMOVA)进一步显示北方汉族和南方汉族的Y 染色体单倍群频率分布没有显著差异(Fst=0.006,P>0.05), 说明南方汉族在父系上与北方汉族非常相似,也即南方汉人与北方汉人的血统很相似。
母系方面,北方汉族与南方汉族的线粒体单倍群分布非常不同(补充信息表3)。东亚北部的主要单倍群 (A, C, D, G, M8a, Y, Z)在北方汉族中的频率(49-64%,平均55%)比在南方汉族中(19-52%,平均36%)高得多。另一方面,南方原住民族的主要单倍群(B, F, R9a, R9b, N9a)[12,14,18]在南方汉族中的频率(36-72%,平均55%)要比在北方汉族(18-42%,平均33%)高得多。线粒体类型的分布在南北汉族之间有极显著差异(Fst=0.006,P<10-5)。虽然南北汉族之间线粒体和Y 染色体的Fst 值相近,但线粒体的南北差异Fst 值占群体间总方差的56%,而Y 染色体仅仅占18%。
用汉族群体的单倍群频率数据所做的主成分(PC)分析与以上结果相一致。对NRY 分析发现,几乎所有的汉族群体都聚在图2a 的右上方。北方汉族和南方原住民族在第2 主成分上分离,南方汉族的第2 主成分值处于北方汉族和南方原住民族之间,但是更接近于北方汉族(北方汉族0.58±0.01;南方汉族0.46±0.03;南方原住民族-0.32±0.05),这表明南方汉族在父系上与北方汉族相近,受到南方原住民族的影响很小。
就mtDNA 而言,北方汉族和南方原住民族仍然被第2 主成分分开(图2b),南方汉族也在两者之间但稍微接近南方原住民族(北方汉族0.56±0.02;南方汉族0.09±0.06;南方原住民族-0.23±0.04),表明南方汉族的女性基因库比男性基因库有更多的混合成分。
我们进一步用两种不同的统计方法[19-20]来估计两个亲本(北方汉族和南方原住民)对南方汉族基因库的相对贡献(表1),这两个统计量用于单位点(single-locus)分析时比其它的方法更为准确[21]。两种方法得到的混合系数估计值(M,北方汉族的贡献比例)高度一致(Y染色体,r=0.922,P<0.01;线粒体,r=0.970,P<0.01)。就Y 染色体而言,所有的南方汉族都包含很高比例的北方汉族混合比率(MBE:0.82 ± 0.14, 范围0.54-1 ;MRH:0.82 ± 0.12,范围0.61-0.97)(MBE 和MRH 的定义分别见参考文献20 和19),这表明南方汉族男性基因库的主要贡献成分来自北方汉族,也即南方汉族的主要血统源自古代的北方汉人。
相反,南方汉族的线粒体基因库中北方汉族和南方原住民族的贡献比例几乎相等(MBE:0.56±0.24[0.15,0.95]; MRH:0.50±0.26[0.07,0.91])。总体上北方汉族对南方汉族的遗传贡献父系比母系高得多( t-test,P<0.01);各群体分别看也是这样:绝大部分南方汉族群体中北方汉族的贡献在父系上大于母系(MBE ,11/13, MRH,13/13,P<0.01,零假设为男女的贡献相等为二项式分布),这表明南方汉族的群体混合过程有很强的性别偏向。
南方汉族中北方汉族贡献的比例(M)呈现出由北向南递减的梯度地理格局。南方汉族线粒体的M 值与纬度正相关(r2=0.569,P<0.01),但Y 染色体的相关性不显著(r2=0.072,P>0.05),因为南方汉族父系的M 值差异太小,不足以导致统计上的显著性。
表1 南方汉族中的北方汉族混合比例
群体 Y 染色体 线粒体DNA
MBE(±s.e.m) MRH MBE(±s.e.m) MRH
安徽 .868±.119 .929 .816 ±.214 .755
浙江 .751 ±.084 .763 .631 ±.180 .540
福建 1 .966 .341 ±.206 .248
广东1 .677 ±.121 .669 .149 ±.181 .068
广东2 ND ND .298 ±.247 .312
广西 .543 ±.174 .608 .451 ±.263 .249
湖北 .981 ±.122 .949 .946 ±.261 .907
湖南 .732 ±.219 .657 .565 ±.297 .490
江苏 .789 ±.078 .821 .811 ±.177 .786
江西 .804 ±.113 .829 .374 ±.343 .424
上海 .819 ±.087 .902 .845 ±.179 .833
四川 .750 ±.118 .713 .509 ±.166 .498
云南1 1 .915 .376 ±.221 .245
云南2 .935 ±.088 .924 .733 ±.192 .645
平均 .819 .819 .560 .500
注:MBE 和MRH 分别为参考文献20 和19 所描述的统计量。MBE 的标准误通过1000 次自展(Bootstrap)获得。把南方原住民族和北方汉族作为南方汉族的亲本群体估计北方汉族的遗传贡献比例,假定2000 多年前开始的混合过程前后南方原住民族的等位基因频率基本不变,并且南北汉族之间的遗传交流不多。实际上,从北方汉族到南方原住民族的基因流动比反向的流动大得多,所以表中的估计值在没有适当调整前是低估的。因而汉族实际的人口扩张程度应该大于本项研究得出的数值。
综上所述,我们提出了两项证据支持汉文化扩散的人口扩张假说。首先,几乎所有的汉族群体的Y 染色体单倍群分布都极为相似,Y 染色体主成分分析也把几乎所有的汉族群体都集合成一个紧密的聚类。再有,北方汉族对南方汉族的遗传贡献无论父系方面还是母系方面都是可观的,在线粒体DNA 分布上也存在地理梯度。北方汉族对南方汉族的遗传贡献在父系(Y 染色体)上远大于母系(线粒体),表明这一扩张过程中汉族男性处于主导地位;换个角度看,在汉族和南方原住民的融合过程中有相对较多的当地女性融入南方汉族中。性别偏向的混合格局也同样存在于藏缅语人群中[22]。
方法
样本
采集中国各地的17 个汉族群体871 个随机不相关个体的血样。用酚-氯仿法抽提基因组DNA。结合文献报道的Y 染色体和线粒体多态性数据,总共分析的样本量是:Y 染色体23 个群体1289 人,线粒体23 个群体1119 人。这些样本涉及了中国的大部分省份(图1 和补充材料表1)。
遗传标记
通过聚合酶链式反应—限制性片断长度多态性(PCR-RFLP)的方法[11]分型Y 染色体上的13 个双等位标记:YAP, M15, M130, M89, M9, M122, M134, M119, M110,M95, M88, M45, M120。根据Y 染色体委员会的命名系统(YCC)[24],这些标记构成13 个单倍群,在东亚人群中具有较高的信息量[23]。
线粒体上,对高变1 区(HVS-1)进行测序,对编码区8 个多态位点作了分型(9-bp 缺失, 10397 AluI, 5176 AluI, 4831 HhaI, 13259 HincII, 663 HaeIII, 12406 HpaI , 9820 HinfI),有关方法已有报道[22]。根据东亚线粒体系统树[18],用高变1 区突变结构和编码区多态性构建单倍群。
数据分析
根据线粒体和Y 染色体单倍群频率,用SPSS10.0 软件(SPSS 公司)作主成分分析,研究群体间关系。南北汉族的遗传差异用ARLEQUIN 软件[26]做AMOVA 检验[25]。南方汉族中北方汉族和南方原住民族的混合比例估计用两种不同的统计方法[19-20]:ADMIX 2.0[27]和LEADMIX[21]软件。亲本群体的选择对混合比例的适当估计很重要[28-29],我们通过扩大东亚的参考数据来减小偏差。分析中,10 个北方汉族群体的各单倍群频率(Y染色体和线粒体标记分别分析)的算术平均作为北方亲本群体。南方原住民族的频率平均了三个族群:侗台语群(NRY,22 群体;线粒体,11 群体),南亚语群(NRY,6 群体;线粒体,5 群体),苗瑶语群(NRY,18 群体;线粒体,14 群体)。通过样本的混合比例与纬度[1,3]的线性回归分析揭示汉族群体的地理格局。
然而父系也是越往南就汉含量越低呀。福建除外。
附全文:省去图表和引文。
研究单位:
1. 复旦大学现代人类学研究中心遗传工程国家重点实验室生命科学学院摩尔根—谈国际生命科学中心,上海200433,中国
2. 国家人类基因组南方研究中心,上海201203,中国
3. 辛辛纳提大学环境健康系基因组信息中心,辛辛纳提,俄亥俄州45267,美国
4. 中国科学院昆明动物研究所细胞与分子进化重点实验室,昆明650223,中国
语言和文化在人群间的扩散有两种不同的模式:一种是人口扩张、人群迁徙模式;另一种是文化传播模式,人群之间有文化传播,而基因交流却很有限。同一语系的欧洲人群的形成机制争议颇多,争论的焦点在于来自近东的农业文明和语言的扩散是否伴随着大量的农业人口的迁移[1-3]。
有着共同的文化和语言的汉族,人口超过了十一亿六千万(根据2000年的人口统计),无疑是全世界最大的民族。因此汉文化的扩散过程广受各领域研究者的关注。通过系统地对汉族群体的Y 染色体和线粒体DNA 多态性进行分析,我们发现汉文化向南扩散的格局符合人口扩张模式,而且在扩张过程中男性占主导地位。
史载汉族源于古代中国北方的华夏部落,在过去的两千多年间,汉文化(汉语和相关的文化传统)扩散到了中国南方,而中国南方原住民族则是说侗台、南亚和苗瑶语的人群(百越、百濮和荆蛮)[4-5]。经典遗传标记和微卫星位点研究显示,汉族和其他东亚人群一样都可以以长江为界分为两个遗传亚群,南方汉族和北方汉族[6-9]。两个亚群之间的方言和习俗差异也很显著[10]。这些现象看似支持文化传播模式,即汉族向南扩张主要是文化传播和同化的结果。然而,两个亚群之间有着许多共同的Y 染色体和线粒体类型[11-12],历史记载的汉族移民史[5]也与汉族的文化传播模式假说相矛盾。本研究对这两种假说进行了检验,证实汉文化的扩散中的确发生了大规模的人群迁徙(人口扩张模式)。
为了验证这些假说,我们把南方汉族的遗传结构与两个亲本群体作比较,其一是北方汉族,其二是南方原住民族,即现居于中国境内和若干邻国的侗台、苗瑶和南亚语群体。我们分析了来自中国28 个地区汉族群体的Y 染色体非重组区 (NRY) 和线粒体DNA (mtDNA) 遗传多态[13-16],这些样本覆盖了中国绝大部分的省份(详见图1 和补充信息表1)。
父系方面,南方汉族与北方汉族的Y 染色体单倍群频率分布非常相近(见补充信息表2),尤其是具有M122-C 突变的单倍群 (O3-M122 和O3e-M134) 普遍存在于我们研究的汉族群体中(北方汉族在37-71%之间,平均53.8%;南方汉族在35-74%之间,平均54.2%)。南方原住民族中普遍出现的单倍群 M119-C(O1) 和 M95-T(O2a) 在南方汉族中的频率(3-42%,平均19%)高于北方汉族(1-10%,平均5%)。而且,南方原住民族中普遍存在的单倍群O1b-M110, O2a1-M88 和 O3d-M7[17], 在南方汉族中低频存在(平均4%),而北方汉族中却没观察到。如果我们假定起始于两千多年前的汉文化扩散[5]之前南方原住民族的Y 类型频率与现在基本一致的话,南方汉族中南方原住民族的成分应该是不多的。分子方差分析(AMOVA)进一步显示北方汉族和南方汉族的Y 染色体单倍群频率分布没有显著差异(Fst=0.006,P>0.05), 说明南方汉族在父系上与北方汉族非常相似,也即南方汉人与北方汉人的血统很相似。
母系方面,北方汉族与南方汉族的线粒体单倍群分布非常不同(补充信息表3)。东亚北部的主要单倍群 (A, C, D, G, M8a, Y, Z)在北方汉族中的频率(49-64%,平均55%)比在南方汉族中(19-52%,平均36%)高得多。另一方面,南方原住民族的主要单倍群(B, F, R9a, R9b, N9a)[12,14,18]在南方汉族中的频率(36-72%,平均55%)要比在北方汉族(18-42%,平均33%)高得多。线粒体类型的分布在南北汉族之间有极显著差异(Fst=0.006,P<10-5)。虽然南北汉族之间线粒体和Y 染色体的Fst 值相近,但线粒体的南北差异Fst 值占群体间总方差的56%,而Y 染色体仅仅占18%。
用汉族群体的单倍群频率数据所做的主成分(PC)分析与以上结果相一致。对NRY 分析发现,几乎所有的汉族群体都聚在图2a 的右上方。北方汉族和南方原住民族在第2 主成分上分离,南方汉族的第2 主成分值处于北方汉族和南方原住民族之间,但是更接近于北方汉族(北方汉族0.58±0.01;南方汉族0.46±0.03;南方原住民族-0.32±0.05),这表明南方汉族在父系上与北方汉族相近,受到南方原住民族的影响很小。
就mtDNA 而言,北方汉族和南方原住民族仍然被第2 主成分分开(图2b),南方汉族也在两者之间但稍微接近南方原住民族(北方汉族0.56±0.02;南方汉族0.09±0.06;南方原住民族-0.23±0.04),表明南方汉族的女性基因库比男性基因库有更多的混合成分。
我们进一步用两种不同的统计方法[19-20]来估计两个亲本(北方汉族和南方原住民)对南方汉族基因库的相对贡献(表1),这两个统计量用于单位点(single-locus)分析时比其它的方法更为准确[21]。两种方法得到的混合系数估计值(M,北方汉族的贡献比例)高度一致(Y染色体,r=0.922,P<0.01;线粒体,r=0.970,P<0.01)。就Y 染色体而言,所有的南方汉族都包含很高比例的北方汉族混合比率(MBE:0.82 ± 0.14, 范围0.54-1 ;MRH:0.82 ± 0.12,范围0.61-0.97)(MBE 和MRH 的定义分别见参考文献20 和19),这表明南方汉族男性基因库的主要贡献成分来自北方汉族,也即南方汉族的主要血统源自古代的北方汉人。
相反,南方汉族的线粒体基因库中北方汉族和南方原住民族的贡献比例几乎相等(MBE:0.56±0.24[0.15,0.95]; MRH:0.50±0.26[0.07,0.91])。总体上北方汉族对南方汉族的遗传贡献父系比母系高得多( t-test,P<0.01);各群体分别看也是这样:绝大部分南方汉族群体中北方汉族的贡献在父系上大于母系(MBE ,11/13, MRH,13/13,P<0.01,零假设为男女的贡献相等为二项式分布),这表明南方汉族的群体混合过程有很强的性别偏向。
南方汉族中北方汉族贡献的比例(M)呈现出由北向南递减的梯度地理格局。南方汉族线粒体的M 值与纬度正相关(r2=0.569,P<0.01),但Y 染色体的相关性不显著(r2=0.072,P>0.05),因为南方汉族父系的M 值差异太小,不足以导致统计上的显著性。
表1 南方汉族中的北方汉族混合比例
群体 Y 染色体 线粒体DNA
MBE(±s.e.m) MRH MBE(±s.e.m) MRH
安徽 .868±.119 .929 .816 ±.214 .755
浙江 .751 ±.084 .763 .631 ±.180 .540
福建 1 .966 .341 ±.206 .248
广东1 .677 ±.121 .669 .149 ±.181 .068
广东2 ND ND .298 ±.247 .312
广西 .543 ±.174 .608 .451 ±.263 .249
湖北 .981 ±.122 .949 .946 ±.261 .907
湖南 .732 ±.219 .657 .565 ±.297 .490
江苏 .789 ±.078 .821 .811 ±.177 .786
江西 .804 ±.113 .829 .374 ±.343 .424
上海 .819 ±.087 .902 .845 ±.179 .833
四川 .750 ±.118 .713 .509 ±.166 .498
云南1 1 .915 .376 ±.221 .245
云南2 .935 ±.088 .924 .733 ±.192 .645
平均 .819 .819 .560 .500
注:MBE 和MRH 分别为参考文献20 和19 所描述的统计量。MBE 的标准误通过1000 次自展(Bootstrap)获得。把南方原住民族和北方汉族作为南方汉族的亲本群体估计北方汉族的遗传贡献比例,假定2000 多年前开始的混合过程前后南方原住民族的等位基因频率基本不变,并且南北汉族之间的遗传交流不多。实际上,从北方汉族到南方原住民族的基因流动比反向的流动大得多,所以表中的估计值在没有适当调整前是低估的。因而汉族实际的人口扩张程度应该大于本项研究得出的数值。
综上所述,我们提出了两项证据支持汉文化扩散的人口扩张假说。首先,几乎所有的汉族群体的Y 染色体单倍群分布都极为相似,Y 染色体主成分分析也把几乎所有的汉族群体都集合成一个紧密的聚类。再有,北方汉族对南方汉族的遗传贡献无论父系方面还是母系方面都是可观的,在线粒体DNA 分布上也存在地理梯度。北方汉族对南方汉族的遗传贡献在父系(Y 染色体)上远大于母系(线粒体),表明这一扩张过程中汉族男性处于主导地位;换个角度看,在汉族和南方原住民的融合过程中有相对较多的当地女性融入南方汉族中。性别偏向的混合格局也同样存在于藏缅语人群中[22]。
方法
样本
采集中国各地的17 个汉族群体871 个随机不相关个体的血样。用酚-氯仿法抽提基因组DNA。结合文献报道的Y 染色体和线粒体多态性数据,总共分析的样本量是:Y 染色体23 个群体1289 人,线粒体23 个群体1119 人。这些样本涉及了中国的大部分省份(图1 和补充材料表1)。
遗传标记
通过聚合酶链式反应—限制性片断长度多态性(PCR-RFLP)的方法[11]分型Y 染色体上的13 个双等位标记:YAP, M15, M130, M89, M9, M122, M134, M119, M110,M95, M88, M45, M120。根据Y 染色体委员会的命名系统(YCC)[24],这些标记构成13 个单倍群,在东亚人群中具有较高的信息量[23]。
线粒体上,对高变1 区(HVS-1)进行测序,对编码区8 个多态位点作了分型(9-bp 缺失, 10397 AluI, 5176 AluI, 4831 HhaI, 13259 HincII, 663 HaeIII, 12406 HpaI , 9820 HinfI),有关方法已有报道[22]。根据东亚线粒体系统树[18],用高变1 区突变结构和编码区多态性构建单倍群。
数据分析
根据线粒体和Y 染色体单倍群频率,用SPSS10.0 软件(SPSS 公司)作主成分分析,研究群体间关系。南北汉族的遗传差异用ARLEQUIN 软件[26]做AMOVA 检验[25]。南方汉族中北方汉族和南方原住民族的混合比例估计用两种不同的统计方法[19-20]:ADMIX 2.0[27]和LEADMIX[21]软件。亲本群体的选择对混合比例的适当估计很重要[28-29],我们通过扩大东亚的参考数据来减小偏差。分析中,10 个北方汉族群体的各单倍群频率(Y染色体和线粒体标记分别分析)的算术平均作为北方亲本群体。南方原住民族的频率平均了三个族群:侗台语群(NRY,22 群体;线粒体,11 群体),南亚语群(NRY,6 群体;线粒体,5 群体),苗瑶语群(NRY,18 群体;线粒体,14 群体)。通过样本的混合比例与纬度[1,3]的线性回归分析揭示汉族群体的地理格局。