笔趣阁

少年文学>群星大百科 > 第66章 破译外星文献的方法1(第2页)

第66章 破译外星文献的方法1(第2页)

启明星的建议非常中肯和理性。

饭要一口一口吃,路要一步一步走。

自己目前连人类文明本身的技术都还没吃透,现在就急着去逆向外星科技确实是有些好高骛远。

“知道啦知道啦。”白牧辰点了点头,表示自己理解:“那么,接下来进行下一项议题——关于目前已经收集到的那些b星人文献资料的整理、解读、与翻译问题。”

在白牧辰目前所面临的诸多挑战与困境之中,对外星文献资料的整理、解读、与翻译工作,反而是其中最简单,也最容易解决的一个。

其根本原因在于从星舰残骸中收集到的文献资料数量实在是太过庞大。

面对如此海量级的未知语言数据,想要依靠传统的人工翻译方法去逐字逐句地进行破译,无异于痴人说梦,其所需耗费的时间和精力将是难以估量的。

但对于掌握了先进人工智能技术的白牧辰而言,这个问题却有着一个更为高效和巧妙的解决方案——

将所有收集到的b星人文献资料,与人类文明现有的全部文献数据混合在一起,共同作为训练集,去从头开始训练一个新的、专门用于跨语言理解与翻译的多模态大语言模型!

现代先进的多模态大语言模型,其核心能力之一,便是在其内部的神经网络中构建出一个极其复杂和高维度的“概念空间”。

在这个概念空间之中,来自不同语言、不同文化、甚至不同感知模态的各种信息,例如文字、图像、声音、乃至更抽象的符号和逻辑关系。

都可以被有效地映射和关联到一些共同的、具有普适性的“概念点”上。

这章没有结束,请点击下一页继续阅读!

举一个简单的例子来说明这个过程。

当一个多模态大语言模型仅仅只使用人类文明的数据进行训练时。

它会通过学习海量的文本、图像、和音频数据,逐渐理解到——

英文单词dog、中文词语“狗”、一张毛茸茸的四足犬类生物的照片、以及一段汪汪叫的狗吠声……

所有这些看似形态各异的信息,其实都指向了其内部概念空间中的同一个核心“概念点”,也就是我们通常所理解的“狗”这个生物。

在这个高维的概念空间之中,这些不同形式的信息在数学层面上是彼此紧密关联,甚至可以说是等价的。

现在,如果将所有收集到的b星人文献资料也一并加入到训练数据集中。

并假设在这些外星文献的某一条数据之中,恰好包含了一个外星语中用于指代“狗”这种生物的特殊符号或声音。

我们暂时用“xxx”来表示它。

与此同时,这条数据还非常贴心地附带了一张与地球上的狗在外观形态上极其相似的外星生物的图片。

那么,当大语言模型在处理这条全新的外星数据时,它会先识别出图片中的那个生物。

由于这个外星生物的形态特征与它在之前学习人类数据时所形成的关于“狗”这个生物的内部概念模型高度重合。

模型便会很自然地将这个外星语词汇xxx也一并链接到其概念空间中代表“狗”的那个核心概念点之上。

喜欢群星:舰与灵能的太空歌剧物语请大家收藏:dududu群星:舰与灵能的太空歌剧物语小说网更新度全网最快。

已完结热门小说推荐

最新标签