2026/3/13 3:39:26
网站建设
项目流程
咸阳鑫承网站建设,上门做睫毛哪个网站,win7 建设网站服务器,太原如何做百度的网站导语人类语言具有独特的系统性结构#xff0c;话语会拆分为有独立意义的词汇#xff0c;这些词汇再组合成短语。本研究表明#xff0c;类自然语言的系统性#xff0c;会在受预测信息#xff08;又称超额熵#xff09;约束的编码中形成。预测信息是衡量随机过程中#xf…导语人类语言具有独特的系统性结构话语会拆分为有独立意义的词汇这些词汇再组合成短语。本研究表明类自然语言的系统性会在受预测信息又称超额熵约束的编码中形成。预测信息是衡量随机过程中过去信息对未来事件可预测程度的统计指标本质反映过去与未来的互信息。模拟实验发现最小化预测信息的编码会将信息拆分为近似独立的特征组以系统、局部的方式表达对应语言中的词汇与短语。跨语言语料库研究进一步验证人类语言在语音、形态、句法及词汇语义层面均能产生更低的预测信息。该研究建立了语言统计结构与代数结构的关联证实这类结构是普遍认知约束下交流过程的产物。关键词预测信息Predictive Information、系统性Systematicity、认知约束Cognitive Constraints、跨语言实证Cross-linguistic Evidence来源集智俱乐部作者赵思语审校赵思怡论文题目Linguistic structure from a bottleneck on sequential information processing论文链接https://doi.org/10.1038/s41562-025-02336-w发表日期2024 年 11 月 1 日论文来源Nature Human Behaviour核心谜题人类语言为何偏爱 “系统性”人类语言最显著的特征是系统性systematicity与局部性locality二者共同构成了人类语言的核心结构内核——所谓“系统性”指语言能将完整意义拆分为独立的基础成分如词汇再按固定规则组合生成新表达所谓“局部性”指语言形式与意义成分呈精准的局部对应关系不会出现意义与形式的跨成分混乱匹配。当描述 “一只猫和一只狗在一起” 的场景时英语使用者会自然地说出 “a cat with a dog”其中 “cat” 对应猫、“dog” 对应狗完美契合“局部性”的意义-形式精准对应同时这些词汇按“冠词名词介词冠词名词”的固定规则线性拼接又体现了“系统性”的组合逻辑最终形成逻辑清晰的表达。这种结构模式的优势十分明确能让人类轻松理解和生成无限多的新语句实现高效的创造性交流。图1. 英语与多种假设语言描述图像的示例语句。a. 展现自然局部系统性的英语语句。b. 一种非自然系统性语言其中‘gol’表示猫头与狗头的组合‘nar’表示猫身与狗身的组合。c. 一种非局部但具有系统性的语言其语句通过交替使用‘猫’和‘狗’的词汇构成。d. 一种整体性语言其中‘vek’形式表示‘一只猫和一只狗’且形式与意义之间不存在对应关系。但从逻辑上来说语言并非必须如此。我们完全可以构想多种 “非自然语言”一种是 “非自然拆分” 的语言用 “gol” 同时指代猫的头部和狗的头部用 “nar” 指代猫的身体和狗的身体表达同样场景时会说 “A gol with a nar”另一种是 “交错排列” 的语言将 “a cat”“with”“a dog” 的字母打乱交错形成 “waitacdahogt” 这样难以解析的表达还有一种是 “整体化表达” 的语言用 “vek” 这样一个无内部结构的词汇直接指代 “一只猫和一只狗在一起”就像霍夫曼编码Huffman codes那样追求编码效率却缺乏系统性。但从逻辑上来说语言并非必须遵循这种“系统性局部性”的结构。我们完全可以构想多种 “非自然语言”一种是 “非自然拆分” 的语言用 “gol” 同时指代猫的头部和狗的头部用 “nar” 指代猫的身体和狗的身体打破了“局部性”的意义-形式精准对应另一种是 “交错排列” 的语言将 “a cat”“with”“a dog” 的字母打乱交错形成 “waitacdahogt” 这样的表达破坏了“系统性”的有序组合规则还有一种是 “整体化表达” 的语言用 “vek” 这样一个无内部结构的词汇直接指代 “一只猫和一只狗在一起”既无系统性也无局部性就像霍夫曼编码Huffman codes那样追求编码效率却缺乏核心结构特征。这些假想语言在理论上同样能完成交流任务为何人类语言却最终演化出系统性和局部性的结构这一问题不仅关乎语言本身的本质更涉及人类认知与语言进化的深层关联。传统理论认为语言的系统性源于语言学习者需要对未见过的意义进行泛化但这类解释无法说明为何语言的拆分方式是 “自然” 的也无法解释局部性特征。而另一类理论则依赖于语言学习者的先天归纳偏置或意义的心理表征假设缺乏跨语言、跨认知场景的普遍解释力。理论基石预测信息最小化的认知逻辑一预测信息的核心概念为破解 “人类语言为何选择系统性结构” 这一谜题研究团队引入信息论中的预测信息Predictive Information作为核心度量工具该指标又称超额熵excess entropy。简单来说预测信息描述的是在一段随机符号序列中要准确预测后续内容需要从前面已出现的内容中提取多少信息。对应到语言场景它的本质是衡量 “根据前文猜后文” 的难度预测信息数值越低说明语言序列的局部可预测性越强人类理解话语、组织表达时所需投入的认知资源比如记忆负荷、注意力分配、大脑加工成本就越少反之预测信息越高语言加工越费力。这一概念的提出源于对人类认知局限的精准洞察。研究团队基于三点基础观察构建逻辑第一人类话语本质是一维离散符号序列比如构成语言的音素、词汇需按顺序依次呈现第二这些符号在短时间尺度内的可预测性会直接影响语言理解与表达的难易程度第三人类大脑在预测序列内容时认知资源是有限的无法同时处理大量杂乱无章的信息。基于上述观察研究团队提出核心假设人类语言的系统性、局部性结构本质是为了最小化预测信息—— 通过将完整意义拆分为近似独立的特征组对应语言中的词汇、短语再以有序、局部对应的方式组合让语言序列更适配人类有限的认知资源实现高效加工与交流。二理论推导从认知约束到语言结构预测信息的独特属性为语言结构提供了关键解释。当预测信息较低时符号能够依赖附近的上下文被准确预测这意味着语言无需依赖长距离的整合信息就能让使用者顺畅理解。为了实现这一目标语言需要将意义分解为 “近似独立的特征”—— 因为独立特征之间的统计依赖性低表达这些特征的符号序列也更容易被局部预测。同时这些特征需要以局部的方式组合即相关的符号保持连续而不是交错分布。否则符号之间的统计依赖被拉长预测难度随之上升。这种逻辑自然催生了语言的系统性和局部性意义被拆分为独立成分每个成分对应一个词汇系统性词汇按顺序拼接形成短语和句子局部性就像搭积木一样既保证了表达的灵活性又降低了预测难度。而那些不遵循这种局部、系统组织方式的“非自然语言”无论是非自然拆分还是交错排列都会破坏局部可预测性导致预测信息升高超出人类的认知处理能力。实证支撑模拟实验与跨语言验证的双重印证为了验证 “预测信息最小化塑造语言结构” 这一假设研究团队采用了 “模拟实验” 与 “跨语言语料分析” 相结合的研究方法从理论和现实两个层面提供了坚实证据。一模拟实验预测信息如何催生系统性模拟实验的核心思路是构建不同的意义集合设计多种可能的语言编码方式计算每种编码的预测信息观察哪种编码方式的预测信息最低是否与自然语言的结构一致。图2.硬币翻转分布的语言模拟。a、两种系统化表达方式3表示完全系统化语言0表示完全无歧义语言用于表示由三次加权硬币翻转构成的意义。整体语言。插图框放大显示低预测区域。在系统化语言中每个字母对应一个信息源的输出结果。d、e中使用的语言及示例源其中包含硬币翻转信息。在整体语言中不存在自然的系统化关系互信息I[M2:M3]≈0.18比特。e、形式与意义之间不同预测信息量。b、计算不同互信息水平下硬币翻转M2与源语言及a中两种语言的预测信息。系统化语言具有较低的预测信息M3参见正文。零互信息对应b和c。‘自然’信息。c、所有双射映射从意义到语言的预测信息。M2和M3共同整体表达语言。‘非自然’语言对应长度为3的二进制字符串用于表示a中的意义和源语言。语言共同整体表达M1和M2。按预测信息排序并按硬币翻转次数着色。在第一个模拟实验中研究团队构建了 “三次硬币翻转” 的意义集合每个硬币翻转的结果正面或反面是独立的意义特征。实验设计了两种编码方式一种是 “系统性语言”每个硬币翻转结果对应一个独立的符号如 “a” 代表正面“b” 代表反面语句由这些符号按顺序拼接而成另一种是 “整体化语言”每个意义组合对应一个无内部结构的符号串不进行特征拆分。结果显示系统性语言的预测信息显著低于整体化语言且在所有可能的编码方式中只有系统性语言能实现预测信息最小化。这一结果表明当意义特征独立时拆分特征并系统表达是降低预测信息的最优选择。在第二个模拟实验中研究团队调整了意义特征的性质让部分特征高度相关如第二次和第三次硬币翻转的结果始终一致。此时模拟结果发生了有趣的变化最优编码方式不再是完全的系统性拆分而是将高度相关的特征 “整体化表达”形成一个统一的 “词汇”而独立特征仍保持系统性表达。这一发现恰好解释了自然语言中 “词素的任意性”—— 例如 “cat” 这个词其内部没有拆分但它所指代的 “猫” 的各项特征毛茸茸、哺乳动物、有尾巴等高度相关整体化表达这些相关特征能降低预测信息而 “数量” 这一相对独立的特征则通过 “-s” 这样的后缀系统性表达形成 “cats”。此外针对局部性和层级结构的模拟实验也得出了一致结论。在针对 Zipf 分布意义集合的实验中保持词汇连续拼接的编码方式预测信息显著低于词汇交错排列的编码而在具有层级结构的意义集合如 “[猫 狗]”“[蓝色 方形]” 这样的嵌套特征组中“特征组连续嵌套” 的编码方式类似自然语言的句法层级预测信息最低进一步印证了局部性对降低预测信息的重要作用。二跨语言实证人类语言确实具有低预测信息模拟实验验证了理论逻辑的合理性但自然语言是否真的遵循这一规律为解答这一问题研究团队分析了 61 种语言的大规模语料库涵盖语音、形态、句法、词汇语义四个层面通过与 “非自然结构基线” 的对比检验真实语言的预测信息是否更低。图3.研究证实自然语言在音系学、形态学和句法学层面具有减少预测信息的结构特征。a. 选定语言中音系形式的预测信息计算将实证形式与保留发音方式的随机排列形式进行对比。b. 名词形态的字母级预测信息黑色垂直线与四个随机基线的预测信息值对比样本密度为10,000详见正文。P值表示基线样本中预测信息低于实证形式的比例。c. 12种语言形容词-名词对的字母级预测信息与基线对比。非局部基线始终产生远高于实证形式的预测信息故未予展示。在语音层面人类语言均存在特定的语音规则phonotactics即对语音组合有固定限制例如英语中 “blick” 符合语音规则是可能存在的词汇而 “bnick” 违背规则无法成为合法词汇。为验证语音规则与预测信息的关联研究团队设计了对照实验将每种语言的词汇语音序列打乱仅打乱组合顺序保留单个语音的发音方式不变以此构建 “打乱基线”再对比真实词汇语音序列与打乱序列的预测信息差异。实验结果明确显示61 种语言的真实词汇语音序列其预测信息均显著低于对应的打乱基线这一统一结果证明自然语言的语音规则并非随机形成本质是为降低预测信息而演化存在的。在形态层面研究团队分析了匈牙利语、阿拉伯语、芬兰语、拉丁语和土耳其语五种语言的名词变格系统。这些语言的名词通过后缀变化表达 “数”“格” 等语法特征具有明显的系统性。研究团队构建了三种基线一是 “非局部基线”打乱后缀的字母顺序二是 “非自然基线”打乱形态与语法特征的对应关系三是 “长度匹配非自然基线”在保持后缀长度不变的前提下打乱形态 - 特征对应。结果显示五种语言的真实形态系统预测信息均显著低于所有基线即使是阿拉伯语中存在的非连续形态如 “broken plurals”其预测信息依然低于基线说明这种有限的非连续结构仍符合预测信息最小化原则。在句法层面研究团队分析了 12 种语言的形容词 - 名词组合如英语 “blue square”。通过构建 “词汇交错” 和 “形态 - 意义错配” 的基线发现真实语言的形容词 - 名词组合预测信息更低。而在名词短语语序的研究中团队分析了不同语言中限定词D、数词N、形容词A和名词n的排列顺序发现跨语言中更常见的语序如英语 D-N-A-n、西班牙语 D-N-n-A其预测信息显著低于罕见语序说明语序的跨语言分布也受到预测信息最小化的约束。在词汇语义层面研究团队利用兰卡斯特感觉运动规范Lancaster Sensorimotor Norms分析了英语名词的语义特征。结果显示名词的核心语义特征如 “是否毛茸茸”“是否为哺乳动物”之间高度相关而 “数量” 特征与这些核心特征的相关性较低。这恰好符合模拟实验的结论相关特征整体化表达于一个词汇中独立特征则系统性表达从而实现预测信息最小化。同时研究还发现同一词汇内的语义特征相关性显著高于不同词汇间的特征相关性进一步印证了 “相关特征聚类表达” 的原则。跨学科启示语言、认知与人工智能的交汇这项研究的意义远超出语言学领域它建立了语言结构与信息论、认知科学、机器学习、神经科学等多个学科的桥梁为相关领域提供了全新的研究视角。在认知科学层面研究揭示了人类语言与认知约束Cognitive Constraints之间的深层关联。长期以来研究者们知道人类认知资源有限但如何具体影响语言结构尚不明确。该研究表明预测信息最小化是连接认知约束与语言结构的关键纽带语言的系统性、局部性等核心特征本质上是人类为了适配有限认知资源而进化出的最优解。这一发现也为理解 “语言习得” 提供了新视角儿童学习语言时可能会本能地偏好预测信息更低的系统性结构Systematic Structure从而加速语言习得过程。在机器学习领域研究为自然语言处理提供了理论启示。大型语言模型的核心任务是根据前文预测下一个词而这项研究表明自然语言的结构本身就是为了降低这种预测难度而设计的 —— 这正是大型语言模型能够取得成功的重要原因。同时研究中 “预测信息最小化” 的原则也为构建更高效的语言模型提供了参考未来的模型设计可以更注重语言的局部可预测性和特征独立性从而提升模型的效率和可解释性。此外研究还解释了为何大型语言模型难以学习 “非自然语言”—— 这类语言的预测信息过高超出了模型的学习能力。在神经科学领域研究与大脑的语言加工机制相呼应。神经科学研究发现大脑在处理语言时会对可预测的词汇产生更高效的神经响应。而这项研究表明自然语言的低预测信息特征恰好与大脑的这种加工偏好相适配。预测信息最小化意味着语言序列的局部可预测性更高这能减少大脑加工语言时的认知负荷提升交流效率。这一发现为理解 “语言与大脑的协同进化” 提供了重要线索。局限与未来未竟的探索之路尽管这项研究取得了突破性进展但仍存在一些局限为未来的研究指明了方向。首先研究主要关注单个语句内部的预测信息而语言交流往往是多语句的语篇层面。未来的研究可以探究语篇层面的预测信息是否同样受到最小化约束以及如何解释语篇的层级结构如话题组织。其次研究假设语言是意义与形式的一一对应映射但自然语言中存在大量歧义现象如多义词、歧义句。歧义是否会影响预测信息语言如何在歧义与预测信息最小化之间权衡这些问题值得进一步探索。此外自然语言中也存在一些看似违背局部性的结构例如长距离指代如 “The girl who met the boy yesterday likes music” 中“who” 指代 “the girl”二者相距较远。这些结构为何会存在它们对预测信息有何影响是否存在其他认知约束与预测信息最小化相互作用这些问题需要更深入的实证研究来解答。最后研究尚未探讨语言进化过程中预测信息最小化是如何具体发挥作用的。是通过个体交流中的效率压力还是通过语言学习者的认知偏好抑或是群体层面的文化进化厘清这些机制将有助于更全面地理解语言结构的起源与演变。阅读最新前沿科技趋势报告请访问欧米伽研究所的“未来知识库”https://wx.zsxq.com/group/454854145828未来知识库是“欧米伽未来研究所”建立的在线知识库平台收藏的资料范围包括人工智能、脑科学、互联网、超级智能数智大脑、能源、军事、经济、人类风险等等领域的前沿进展与未来趋势。目前拥有超过8000篇重要资料。每周更新不少于100篇世界范围最新研究资料。欢迎扫描二维码或访问https://wx.zsxq.com/group/454854145828进入。