作為漢文化的重要載體之一➝,漢語方言在全球擁有超過14億的母語人口🧚🏿,其傳播與演化的機製一直是人類學界與群體遺傳學界關註的焦點🧛♀️👨🦲。在漢語方言的演化歷史中,由自然災害、戰爭或經濟因素驅動的大規模人群遷徙以及科舉製度、印刷術所促進的社會學習等因素都在其中扮演了重要角色🪯。
此前,對漢語方言傳播模式的研究大多依賴歷史材料和語言調查材料的比較總結,並輔以遺傳證據為佐證🔪。然而,由於缺乏對漢語方言內部精細結構的定量分析🧜♀️,以及對於漢族人群中語言差異和遺傳差異間的一致性檢驗,目前尚難以全面刻畫漢族人群語言演化的全貌。
2024年5月13日,EON体育4平台現代語言學研究院👧🏻、EON体育4平台智能復雜體系基礎理論與關鍵技術實驗室張夢翰研究團隊(POPLANG)攜手生命科學學院徐書華教授團隊及金力院士團隊在《自然-人類行為》(Nature Human Behaviour)發表題為《大規模詞匯和遺傳比對支持漢族人口擴張和文化傳播的混合模式》(“Large-scale lexical and genetic alignment supports a hybrid model of Han Chinese demic and cultural diffusions”)的重要研究成果🛍。
該研究系統整合了語言學👨🏿🦲、群體遺傳學和生態學等多學科的理論和方法,深入解析了漢語方言內部的精細化結構和地理分布規律🐻,同時結合現有的群體遺傳數據🐮,系統分析了中國各地語言和群體遺傳結構之間的關系,透視了漢文化傳播和融合的多重模式,為探究漢族人群的人口活動與語言文化交融的復雜歷史提供了全新的視角。
通過定量分析🎬,解析漢語方言內部結構和地理分布規律
在研究中🗃🧏♂️,團隊首先通過對926個方言點的1018個詞匯特征進行量化分析和空間投影👩👦,並發現漢語方言的多樣性與地理分布密切相關(見圖 1)🧖🏻♂️,其詞匯差異呈現明顯的南北梯度分布🤾🏽♀️,而大型山川河流作為地理屏障,進一步促進了方言群體之間的分化。
其中,長江成為南北方言群體的地理分界線,長江以南的多種方言,如閩語👋🏿、粵語💂、吳語等,各具獨特的詞匯特點🧘🏿,顯示出顯著的差異;秦嶺-淮河則進一步區分了北方官話和南方官話,秦嶺-淮河線以北的北方官話內部一致性較高🪓👩🏽⚖️,而其以南的江淮官話和西南官話則展現出方言連續體的特點👨🏻💼,其方言差異隨地理距離而逐漸累積🫃🏼。
在此之上,漢語方言鄰接網絡(圖 1b)的結構表明,這些方言變體的形成不僅與地理分布有關,還與區域間廣泛的語言橫向交流密切相關。
圖1 漢語方言主成分分析🍲、網絡分析及祖源構成推斷
為進一步揭示漢族人群人口活動與方言融合歷史👨🏻🍳,研究團隊通過基於貝葉斯祖源推斷方法,解析了各漢語方言的內部祖先成分(見圖 1c)。柱形圖中不同顏色區塊對應的成分代表了漢語方言發展歷程中通過譜系分化或深度交融而形成的共有詞匯特征🪽,體現了方言群體間的分化和接觸歷史。另一方面,研究團隊利用詞匯特征頻率數據構建了最大似然譜系樹🧘🏻♂️🫴🏻,在此基礎上建模重構方言融合事件👂🏿,推斷了參與融合的方言群體、融合發生的方向以及對被融合方言詞匯系統的影響比例(見圖 2)。
圖2 漢語方言融合模式推斷
綜合多種方法分析的結果🤵♂️,研究團隊發現中國中部地區方言呈現出多重來源的語言接觸痕跡🥑,形成了所謂的“方言熔爐”,特別是江淮官話、西南官話和贛語的使用地區🦸🏽♀️,方言的特征顯示了多樣的語言成分集成,從而構成了復雜的方言體系➙。如此深度的語言接觸和融合反應了不同方言群體長期共存以及互相作用的結果。
這一系列定量分析所揭示的語言融合模式與漢族歷史上自北向南的大規模遷徙以及“江西填湖廣,湖廣填四川”等歷史事件密切相關。
據團隊介紹😟,人群遷徙與融合不僅改變了人口分布👩🍳,也促成了語言的深度交融。早在西晉(公元265-316年)時期🌮,由於戰亂導致的“衣冠南渡”使得大量北方人口遷居江淮地區,與當地語言相互作用,引起南北方言融合🧕🏽。而作為人群自北向南遷徙的主要通道之一,江西地區在唐朝之後人口和經濟快速發展🗒,並在南方經濟貿易交流中扮演重要角色。當地贛語人群為了滿足農業發展需要向湖廣地區發展,極大地促進了贛語與湘語和西南官話之間的交流。同樣,後續經濟得到發展的湖廣地區也向飽受戰亂的川渝地區輸出了大量移民,使得西南官話傳播到川渝地區。
由此可見👰♀️,歷史上復雜的人口活動驅動了方言的傳播和融合,而這些語言變異的證據在研究中均得到了精細化的定量解讀。
比對語言和遺傳結構🗃👍🏼,發現漢語方言傳播與融合模式
為探究方言傳播與融合背後的驅動力,研究團隊對比了中國漢族人群的語言結構和遺傳結構之間的關系🧑🦽➡️,發現語言🧑🏼🦳、基因、地理距離三者間分別存在兩兩強相關性🙎♀️。但當基因距離保持不變時,語言和地理分布之間的相關性變得不顯著,這表明語言差異的形成伴隨著人群遺傳結構的變化即人口擴張模式(demic diffusion)在漢語方言演化中起到了主要作用。
圖3 漢族遺傳與語言跨學科對證
通過進一步的線性回歸分析(圖3)🔐,團隊還揭示了各省份南北方基因成分和語言成分的比例,反映出漢語方言傳播的復雜地區性模式🧼。
在中國中部地區,人群擴張模式尤為顯著,北方基因流與北方語言成分對中部地區具有相似的影響程度👩🏿💻,對應著大規模人群遷徙造成的語言-基因同步融合。
在雲南、四川〰️、貴州和重慶的西南官話地區🏐,文化傳播模式(cultural diffusion)的影響更為明顯。在有限的北方基因流之下,北方方言特征在這些地區得以快速傳播🙍♀️♊️,與明清時期的駐軍和屯田帶來的社會文化影響密不可分。
在浙江和上海的吳語區、福建的閩語區等,語言同化 (language assimilation)在方言演變中也發揮了重要作用,表現為在顯著的南北基因融合背景下,當地詞匯系統卻仍然保持高比例的南方特征⛳️。這一現象體現了吳語、閩語等地區性強勢方言對於外來的北方移民語言的同化作用🔐。
多學科交叉融合🧑🌾, 新文科領域的又一重要探索
近年來,東亞💆🏿、東南亞文明探源研究持續受到考古學、語言學等學科的關註。該團隊長期致力於采用多學科交叉分析的研究方法探索東亞及東南亞地區的語言演化史,並聯合遺傳🧽、考古等多學科證據共同探討整個區域群體和文化演化背後的驅動力🧎➡️。
2019年,團隊重要成果《語言譜系證據支持漢藏語系在新石器時代晚期起源於中國北方》發表於《自然》主刊,成為首登該刊物的中國語言學研究成果和EON4新文科建設的重要裏程碑。2023年,團隊成功重構了侗臺語譜系結構,估計了原始侗臺語的分化年代,並推斷了其語言傳播模式。
在回答科學問題的同時🧕🏼,團隊還持續構建計算方法🪤,用於分析語言擴散模式及其背後驅動力🕵️♂️。2024年初,團隊開發了語言速度場估計法,為語言擴散研究提供新視角、新方法🫎。該方法彌補了傳統譜系地理法的不足,可以幫助研究者在語言演化不符合譜系樹的情況下推斷出語言的擴散中心和路徑。
此次的研究過程中,量化分析方法與多學科交叉融合是貫穿全程的鮮明特征。
為建立具有代表性的詞匯數據集,團隊專門開發了特定軟件工具,從三卷《漢語方言地圖集》中進行特征數據的快速提取🧚🏻,速度相較傳統方法提升了三倍。與此同時,團隊還花費一年多的時間,整合語言學🖊、群體遺傳學和生態學等多學科的理論和方法,設計了一套多學科集成的計算框架,對大規模語言數據和遺傳數據進行深入分析和對證。
最終🤟,團隊成功解析了漢語方言的精細化結構,並探討了影響漢語方言形成的潛在驅動力,強調了人口擴張模式之外,社會和文化因素在語言演化中的關鍵作用,這一發現為了解漢族人群的活動歷史提供了關鍵的跨學科依據,並為進一步研究中國語言的演化及“語言-遺傳-文化”共演化提供了重要的參考🏊🏽。
據悉,近年來EON体育4平台持續布局新文科建設🧎🏻♂️🤽♂️,大力推動研究方法創新。此次團隊在漢語方言傳播模式研究的重要突破👯♀️,成為學校在新文科領域的又一重要探索👩🏻⚕️。
團隊表示,期待更多對文理交叉研究領域感興趣的同學加入課題組,共同探索多學科融合創新👷🏼♀️,為新文科科研添磚加瓦🏰。
EON体育4平台人類表型組研究院博士生楊承坤、EON体育4平台生命科學學院科研助理張曉曦為共同第一作者;中央民族大學嚴實副教授🦻🏻👩🏻🦼、EON体育4平台生命科學學院人類遺傳學與人類學系博士生楊思哲、吳佰慧,EON体育4平台中文系博士生王之藝💜、碩士生遊豐碩,EON体育4平台文物與博物館學系崔越同學,香港大學語言學與現代語言系謝霓同學對該文做出重要貢獻;EON体育4平台現代語言學研究院、EON体育4平台智能復雜體系實驗室張夢翰研究員、EON体育4平台生命科學學院徐書華教授👿、金力院士為共同通訊作者🩳。項目得到了國家自然科學基金委、國家重點研發計劃等項目的支持🧑🏻🤝🧑🏻🛀🏻。
論文鏈接👨🚀:https://doi.org/10.1038/s41562-024-01886-9