图片源于:https://www.nature.com/articles/s41467-024-51087-1
这项研究依赖于对法国西部地理区域的密集取样,跨越了多个行政区划。
这些区划包括(1)大区——最大的行政单位,分为(2)省。
省分为(3)区,最小尺度上划分为(4)城镇中心。
鉴于行政系统的特殊性,本文保持了法语的省和区名称。
研究队列描述
PREGO研究(“大西部人群参考”,https://umr1087.univ-nantes.fr/prego-biobank)从5707名来自法国西部的健康个体中收集了DNA。
参与者是在2014年2月至2017年3月期间由法国血液服务中心(EFS)组织的295次献血活动中招募的,平均每次献血活动有19名献血者。
献血活动的空间和时间采样旨在尽可能均匀地覆盖研究所包括的九个省。
优先考虑在农村地区进行的献血活动。
参与者必须是西部法国的本地人。
通过四位祖父母的出生地来评估个体的出生地。
仅纳入四位祖父母均出生于西部法国的个体,最好是在30公里的半径内。
在本研究纳入的3234名个体中,25%、50%和75%的人祖父母出生地之间的距离分别为3.25公里、6.38公里和12.33公里。
从招募的个体中通过静脉采血收集了6毫升的静脉血样,放入Vacutainer管中。
参与者填写问卷,提供祖父母、父母及自身的出生地、居住地、年龄、性别和先前参与研究的信息(包括个人或家庭其他成员)。
在本研究中未收集表型或临床数据。
PREGO研究获得了南特地方伦理委员会(Comité de Protection des Personnes)、健康研究信息处理咨询委员会(CCTIRS)和国家数据保护委员会(CNIL)的批准。
参与者签署了参与研究、纳入生物资源和个人数据处理的书面知情同意书。
FranceGenRef研究旨在描述20世纪初法国大都市的人口多样性模式。
因此,个体的采样基于其祖父母的出生地,距离不应超过30公里。
FranceGenRef包括862个符合上述标准的个体:354名来自PREGO队列的献血者(上述描述)来自科特迪瓦尔省(COT)、伊勒-维莱娜省(ILL)、莫尔比昂省(MOR)、洛瓦尔-大西洋省(LOI)、梅因-卢瓦尔省(MAI)、梅因省(MAY)、萨尔特省(SAR)和旺代省(VEN);50名来自芬斯特尔(FIN);458名来自GAZEL队列(www.gazel.inserm.fr/en)的个体,来源于法国其他五个地区:诺曼底、上法兰西、东部大区、卢瓦尔河中心和新阿基坦。
GAZEL研究获得了国家数据处理和自由委员会(CNIL)、国家医学委员会和国家伦理咨询委员会的批准。
所有个体在注册时签署了参加遗传研究的知情同意书。
GAZEL样本的DNA在CEPH生物库中提取,采用自动化系统Autopure(Qiagen)或Chemagic Prime(PerkinElmer),分别使用盐析法或磁珠法,并使用荧光法(Quant-iT DNA Assay kit,Broad Range,Thermo Fisher Scientific)进行定量。
基因分型、全基因组测序和质量控制(QC)
在PREGO的范围内,外周血淋巴细胞提取的基因组DNA按照标准程序提取。
在5707个收集的样本中,有3385个在Axiom TM 精准医学研究阵列(约920,000个标记,ThermoFisher)上进行了基因分型。
使用SNPolisher软件(http://tools.thermofisher.com)进行了标准QC,未通过QC报告的SNP被根据制造商的说明移除。
缺失率大于5%、小于10%的小等位基因频率和未遵循哈迪-温伯格平衡(HWE,p 30)的SNP。
此外,只有符合哈迪-温伯格平衡(HWE,p = 10−5)且缺失数据少于10%的SNP被纳入分析。
使用PLINK(vs.1.9)计算的PI_HAT统计识别相关样本,当值大于0.10时被排除。
同样不符合祖父母出生在同一省的个体也被排除,最终保留843个样本。
以下的分析中所使用的样本大小在每个分析中指明。
古代DNA样本
我们为六个来自法国西部三个不同考古遗址的古代个体生成了全基因组数据,具体来说,来自卢瓦尔河地区(Pays-de-la-Loire)。
样本fra001、fra004、fra008和fra009采用放射性碳方法进行测定,估计时间从公元375年至1024年(表S2,图S27–S29),这一时间范围对应于早期和高中古时期。
其他两个样本——fra016和fra017的日期是基于考古背景。
在这六个古代个体中,四个(fra001、fra004、fra016、fra017)来自卢瓦尔河南岸,而两个样本来自卢瓦尔河北岸(fra008、fra009,图5)。
在卢瓦尔河南岸的圣吕庞(Saint-Lupien)的考古发掘从2005年至2016年进行,由米凯尔·鲁齐克(Mikaël Rouzic)团队领导,应里尔市要求开展。
位于卢瓦尔河北岸的昂热(Angers)考古遗址的发掘由法国预防考古研究所(INRAP)团队的马丁·皮通(Martin Pithon)领导,发掘工作在2009年7月至8月进行。
根据考古遗存和放射性碳日期,该遗址显示出了从罗马帝国初期到现代的占用证据。
该项目是在市政建设计划影响考古遗址的要求下进行的。
考古研究获得了文化事务区域司(Délégation Régional des affaires culturelles)和INRAP的授权。
最后,在卢瓦尔河南岸的谢梅雷(Chéméré)考古遗址的发掘始于60年代,但在2007年最后的发掘中找到的这两个个体属于181个个体中的一组,这些考古发掘是由INRAP考古团队在建设一所馆之前开展的预防考古项目。
关于这些遗址的更详细描述请参见在线补充材料(补充考古细节)。
古代DNA文库的准备和生物信息处理
为六个古代样本(fra001、fra004、fra008、fra009、fra016和fra017)准备了一种DNA提取(根据改进的提取方法)。
每个样本准备了一个到两个单索引的钝端文库。
所有DNA文库为双链。
DNA提取和文库准备是在瑞典乌普萨拉大学专门的古代DNA实验室进行的。
DNA文库分两批次多通道进行测序,首先在瑞典乌普萨拉的SciLife测序中心进行作为试点运行,使用Illumina HiSeq 2500进行配对末端125 bp的化学反应,稍后在CNRGH(法国埃夫里)进行更深入的测序,使用Illumina HiSeq X和配对末端150 bp的化学反应。
原始读数使用CutAdapt版本2.3进行修剪,使用参数:–quality-base 33,–quality-cutoff 15,-e 0.2,–trim-n和–minimum-length 15。
重叠的读取对使用FLASH版本1.2.1进行合并,参数为:–min-overlap 11,–max-overlap 150,允许outies。
合并的fastq文件被映射到人类参考基因组hs37d5,作为单端阅读进行,使用bwa-aln版本0.7.17,参数为-l 16500,-n 0.01和-o 2,正如古代DNA建议的。
使用Samtools版本1.5将BAM文件合并到每个样本库层,并使用修改后的FilterUniqSAMPCons_cc.py删除PCR重复(通过识别起始和结束位置相同的读取并合并)如参考文献所述。
保留了所有大于35个碱基对并且与参考基因组匹配少于10%的读取,最终合并步骤对于那些有两个测序文库的样本,合并处理后的样本BAM生成最后的样本BAM。
处理后的样本BAM文件随后用于调用伪单倍型基因型,使用Samtools选项mpileup -R -B -q30 -Q30。
为了与可用数据集合并,伪单倍型调用是在593,124个基因组遗传起源阵列(Affymetrix)上的遗传病呼叫。
基于X染色体和线粒体DNA的污染使用ANGSD和schmutzi估算。
样本质量、推断的性别和污染估计见表S2。
与公共可用数据集的合并
可用的西欧数据集
为了研究现代个体与法国北部和其他欧洲人群的关系,我们将WGS数据集与三个包含大量西欧样本的可用基因组数据集合并:
(1)国际多发性硬化症遗传学联盟和威康信托案例对照联盟2的数据集EGAD00000000120(以下称为MS数据集),
(2)银屑病遗传分析联盟和威康信托案例对照联盟2的数据集EGAD00010000124(以下称为PS数据集)和
(3)来自英国的POBI数据集EGAD00010000632;在MS和PS数据集中,样本通过Human670-QuadCustom SNP芯片进行基因分型,涵盖580,030个常染色体位点,这些数据集分别包含11,376和2622个个体。
MS数据集中包含的样本来自:澳大利亚、比利时、丹麦、德国、芬兰、法国、意大利、新西兰、北爱尔兰、挪威、波兰、西班牙、瑞典、美国和英国,而PS数据集则包括来自英国和爱尔兰的样本。
在POBI数据集中,2912个来自英国的个体通过Human1-2M-DuoCustom SNP芯片进行基因分型,涵盖1,115,428个常染色体位点。
对于这三个数据集,原始基因型似然文件(.gen)使用gtool(vs.0.7.5)转换为plink格式文件。
仅保留在原始研究中通过质量标准阈值的个体和位点。
基因型的调用使用0.90的概率临界点进行。
带有负链等位基因的位点根据对应的链文件进行翻转,在PLINK vs.1.9中。
首先检查等位基因是否处于illumina顶端配置,以根据链文件翻转所要求。
未在顶端配置中找到的位点将从数据集中删除。
我们使用liftOver工具(https://genome.ucsc.edu/cgi-bin/hgLiftOver)将物理坐标转换为hg19,因为它们最初在MS、PS和POBI数据集中是在hg18中。
我们将比利时、丹麦、德国、芬兰、法国、意大利、北爱尔兰、挪威、波兰、西班牙、瑞典和英国的样本与PS数据集中的爱尔兰样本合并。
第二步,我们将该数据集与POBI数据集中包含的部分(以保持样本大小计算可处理)合并,该部分包含来自威尔士(Dyfed和Gwynedd)、康沃尔和诺福克、肯特(英国东部)的样本。
最后,我们将上述数据集与来自可用的国际人类基因组多样性项目的数据集(https://www.hagsc.org/hgdp/files.html)中的七十个样本合并,这些样本基于Illumina 650Y SNP芯片,来自撒丁岛、巴斯克地区、奥克尼群岛和姆布提(Mbuti,作为外群体)。
HGDP数据集的染色体坐标已如上述所述进行提升。
从合并的数据集中筛选出不符合哈迪-温伯格平衡(HWE,p = 10−5)的位点,移除所有多等位位点,最终数据集(下文称为“合并现代数据集”)包括9704个样本和433,940个SNP。
人类起源阵列和维京数据集
我们将法国WGS数据集与人类起源阵列(HOA)数据集V42.4(https://reich.hms.harvard.edu/allen-ancient-dna-resource-aadr-downloadable-genotypes-present-day-and-ancient-dna-data)合并,该数据集包括3589个古代和6472个现代个体,基因分型为593,124个常染色体SNP。
从原始数据集中提取欧洲样本(奥地利、比利时、捷克共和国、丹麦、法国、德国、大不列颠、希腊、匈牙利、冰岛、爱尔兰、意大利、卢森堡、荷兰、挪威、波兰、葡萄牙、俄罗斯、西班牙、瑞士、土耳其),具有在注释文件中的PASS标记。
从该子集中移除个体ID中包含Ignore的样本,且其基因型少于50,000个,以避免潜在的偏差。
该数据集随后与来自“维京世界人口基因组”的405个古代DNA样本合并,该项目之前进行了SNP的HOA调用。
该数据集在这里称为“合并古代数据集”。
用于计算f统计量(见下文)的人类基因组多样性项目样本(Mbuti)也从HOA中提取。
ChromoPainter和fineSTRUCTURE
PREGO的SNP阵列数据集(QC后)通过SHAPEIT v2.r79083进行分相,使用提供的软件的遗传图谱37,且没有参考面板。
将具有相位的基因型文件转换为CHROMOPAINTER格式,使用CHROMOPAINTER版本2估算切换(全局Ne)和发射率(μ),使用来自330个个体(约占总样本的10%)的数据。
估算的参数用于在完整数据上运行CHROMOPAINTER。
在共性矩阵(chunkcounts输出)上进行了主成分分析(PCA),使用R进行分析。
共性矩阵估计每个个体与矩阵中每个其他个体的基因组相似程度。
具体而言,chunkcounts矩阵基于复制单倍型块的数量。
我们使用fineSTRUCTURE版本2.1.3实施的基于模型的方法对个体进行分组。
我们在共性矩阵上运行fineSTRUCTURE版本2.1.3,进行了10,000,000个预热迭代和1,000,000个MCMC迭代,记录了每10,000次迭代的结果。
对于其他选项保持默认值。
使用100,000次树比较和10,000,000次额外优化步骤构建树。
使用与Leslie等人相同的方法评估MCMC收敛性,比较个体分配到聚类。
如预期,聚类分配信心随着聚类数量的增加而降低。
此外,我们发现,对于同一k,FS树比基于TVD的树显示出较低的聚类分配信心,证实后者的更好表现。
为了可视化聚类之间的关系,任意选择k = 39,因为它提供了一个较大的聚类数量,以访问信息的细度,同时保持聚类分配信心>90%。
在树的此级别,包含1-5个个体的聚类被并入最近的聚类,其中有≥31个个体,或者在最接近的聚类中移除,如果最近的聚类本身的个体数<4个。
这种方法得出的基于TVD的树具有18个聚类,表现得更好,而FS树仅可达到12个聚类的相似聚类分配信心。
最后,我们测试了推测的聚类是否捕获了显著的祖先差异,采用了前文的方式进行。
为此,我们随机重新分配个体到聚类中,保持聚类大小,并计算k = 18生产的种群配置的p值。
TVD的树比个体在聚类之间的随机分布可能性要小。
我们进行了1000次置换以获得p值,p值为随机分配导致具有更高的TVD值的置换数与所有置换数之比。
对于k = 18水平,p值 10的聚类,最精细级别k = 154),并与整体分布进行比较。
除了k = 154外,大多数聚类没有显示出较高的相关性,因此我们认为最近的祖先不是驱动结果的因素。
姓氏分析
与出生注册数据相关的姓氏列表,在两个时期(时期一:1891-1915年和时期二:1816-1940年)被法国统计与经济研究所INSEE检索。
姓氏列表以城镇为单位。
为了分析姓氏分布,我们采取以下步骤。
(1)对于每个城镇,我们选择两个时期内至少出现四次的姓氏,即至少四个新生儿的登记。
这种方法消除了通常与拼写错误和来自法国或其他地方的稀有移民相关的非常稀有的名字。
(2)在省级汇总两个时期姓氏出现的数量。
(3)计算35个区之间的Arccos距离。
(4)根据使用邻接连接法(Neighbour Joining method)获得的1000个自助距离矩阵构建共识树;最后,我们构建一张图,将各个区按照自助树的引导值以嵌套方式联系在一起。
区之间的分组的阈值设为90%自助可靠性,而较高阶分组的阈值设为85%。
通过使用Mantel距离矩阵相关性测试,姓氏基于的Arccos距离与Fst之间的相关性进行评估。
各区之间的物理距离采用偏相关进行计算。
姓氏分布多样性指数使用熵和Barrai指数进行计算。
设N为地理区域的人口规模,S为不同姓氏的数量,
p_i为姓氏i的概率,
熵 = [-Σ_{i=1}^S p_i * Ln(p_i)]。
有效迁移表面(EEMS)分析
我们使用EEMS32软件估计有效迁移表面。
通过bed2diffs软件生成平均遗传差异的矩阵,使用828,362个SNP(经过修剪:–indep-pairwise 50 5 0.2)和1414个个体。
样本分配到300个群体中的最近样本。
我们运行了十条独立的MCMC链,每条具有随机种子,迭代10,000,000次,包括9,900,000个预热迭代,每200次迭代瘦身一次。从具有最高的最终对数似然的链中,我们开始进行第二轮十条EEMS链,以该链作为起始点进行1,000,000额外取样迭代,瘦身每9999次迭代。
最后一轮中的十条独立MCMC链的对数后验轨迹显示混合程度和收敛性。
使用R统计软件绘制图形,使用rEEMSplots包。
PCA分析和Fst计算
PCAs使用EIGENSOFT软件包的smartpca软件版本6.1.486进行。
F_ST值通过设置选项fsthiprecision: YES获得。
在执行PCA之前,这些分析均经过了使用滑动窗口(50个SNP,以5个SNP为步长)进行链关联失衡的剔除,且保持r2 < 0.50(图3a和S20)。
报告的长程链关联区域被排除在PCA之外。
同质性区域(ROH)、家族之间的识别(IBD)和IBDNe估计
通过RefinedIBD(自2017年12月23日发布,默认设置)计算个体的同质性区域(ROH)和家族之间的识别(IBD)片段。
根据PREGO数据集计算个体ROH的总长度,并对各个省和区内个体的平均ROH进行汇总。
通过计算分配给fineSTRUCTURE推断的18个聚类的个体之间共享的IBD片段的数量进行IBD共享的计数。
这一过程独立于IBD片段的长度进行:1-2 cM、2-7 cM和7 cM以上。
我们使用IBDNe33(2018年5月7日发布版本)估计有效人口数量轨迹。
使用IBDseq(r1206版本,默认设置)识别IBD片段。
为了避免潜在的偏差,如Browning和Browning 201888建议的,剔除有过多IBD的区域,主要组织复杂区(MHC),特别是在染色体6(chr6:26291527-33464061)中。
因此,我们将染色体6分为两个连续部分。
为了在不同的IBD片段大小上评估有效人口大小轨迹的稳健性,我们改变了mincm参数,即设置使用IBDNe的最小IBD片段长度。
mincm的值应考虑到SNP阵列的密度。
稀有变异分析
我们采用双重基因(仅在两条染色体上存在的等位基因或小等位基因计数MAC = 2)和WGS数据集中MAC在3到10之间的变异来进行等位基因共享模式分析。
我们首先随机从每个数据集选择100万个位点,并通过对来自布列塔尼和卢瓦尔河地区的不同个体的染色体之间共享的所有变异进行加和计算得到等位基因共享矩阵。
结果绘制为热图,并用层次聚类(在R中使用hclust函数,方法为”complete”)识别高度相关的等位基因共享簇。
结果树以多个水平(k = 2-10)进行切割,并在省地图上绘制每个省分配到替代聚类的个体比例。
这些分析使用R统计包及以下库执行:ComplexHeatmap, rgdal, sp, broom, ggplot2和scatterpie。
有监督的混合分析
使用ADMIXTURE vs1.3软件进行有监督的聚类分析,涵盖843个WGS数据集中的法国样本,未开展PCA。
我们假设现代法国人口源自三个人口来源:西班牙、德国和爱尔兰,它们在PCA中现代法国个体分布的极端位置。
考虑到样本数量的差异(见部分“可用的西欧数据集”),我们将来自德国和爱尔兰的源人口均降至350个个体。
移除链关联失衡的SNP,按照软件手册中的推荐实践,即PLINK选项–indep-pairwise 50 10 0.1。
仅分析缺失基因型率<10%位点。
GLOBETROTTER下的祖先状况
为了进一步调查外部人口对法国遗传构成的贡献,我们使用GLOBETROTTER软件估算他们与邻近欧盟国家的祖先贡献。
该方法通过提供入基因组组表示亲属关系,对最近(=1且 0.05,同时混合比例在0和1之间的模型表示良好的拟合。
我们执行qpAdm分析,以估计与三次主要的欧盟迁移的贡献, 使用西西伯利亚的早期农民(EF)、青铜时代的草原游牧人(SP)为“左”人口,结合古代和现代法国人群。
基于推断的祖先比例将古代个体分组为西西伯利亚的早期农民(73、42和17)。
通过将结合TEMP/SV和RC加权(以需考虑古代个体),来对选取古代个体进行多样性估计。
为了给出有大样本量的古代语言水平,我们包含了来自5世纪BCE至古代的几乎所有伊比利亚的样本(直到10世纪中叶)。
我们也测试了古代法国遗传同一性是否为一个连续的数据集。
在古代法国中,我们利用了与近邻尔形成相关的单一来源(没有后期新石器期样本随机,这将包括该位置)。
在现代法国传统上从古代法国的历史中得出了一组右群体,包括古代法国人的传统与现代人的混合。
现代法国在QP的方法中表现得更为多样,建模充分考虑古代西西伯利亚语言存在的多样性。
报告摘要
关于研究设计的进一步信息见与本文相关的自然科学报告摘要。