据AI杂志:大型语言模型如ChatGPT中发现的不可逆转的缺陷、退化和模型崩溃,原因是数据堆积如山。
LLM 是否存在致命缺陷?
研究人员发现,在训练中使用模型生成的内容会导致模型出现不可逆转的缺陷,原始内容分布的尾部会消失。研究人员将这种效应称为模型崩溃,并表明它可能发生在变异自动编码器、高斯混合模型和LLM中。他们表示,“我们建立了这一现象背后的理论直觉,并描绘了它在所有学习生成模型中的普遍性”。他们还指出,如果我们要保持从网络上获取的大规模数据进行训练所带来的好处,就必须认真对待模型崩溃现象。研究人员还指出,“事实上,在从互联网抓取的数据中存在由LLM生成的内容的情况下,收集到的有关人类与系统真正交互的数据的价值将越来越大”。 LLM和生成式人工智能实际上可能是退化式人工智能的隐身衣。自从OpenAI的ChatGPT和谷歌的Bard等大型语言模型(LLM)最近公开发布以来,人们的固有假设一直是,这些模型会不断进步。但在LLM等系统中发现的内置模型崩溃现象否定了这一假设,并让专家们开始讨论系统本身可能不可避免的退化问题。
以下是LLM潜在崩溃机制的概述:扩展训练数据和参数目前的LLM,包括ChatGPT和其他大型语言模型,都依赖于可公开访问的互联网数据进行训练。这些数据来源于日常消费、写作、推特、评论和评论信息的个人,让我们可以深入了解信息的来源。有两种广为接受的方法可以提高LLM模型的效率。第一种是增加用于训练的数据量,第二种是增加模型考虑的参数数量。参数代表与模型所学主题相关的独特数据点或特征。
传统上,模型使用人类生成的各种形式的数据,包括音频、视频、图像和文本。这些语料库展示了: 1.真实的语义 2.多种多样的出现 3.多样性它包含了丰富的微妙之处和细微差别,使模型能够开发出逼真的数据分布,不仅能预测最常见的类别,还能预测不常出现的类别。LLM退化:机器生成数据的威胁研究表明,机器生成数据的引入,如法律硕士撰写的文章或人工智能生成的图像,对上述“多样性”构成了重大威胁。这个问题比最初看起来要复杂得多,因为它会随着时间的推移而不断加剧。研究人员强调,这个问题在遵循持续学习过程的模型中尤为普遍,影响也更大。与从静态数据分布中学习的传统机器学习不同,持续学习能够适应连续提供的动态数据。这种方法,无论是基于任务还是无任务,都会经历逐渐变化的数据分布,而没有明确的任务界限。
模型崩溃和“数据中毒”:模型崩溃是影响生成模型世代的退化过程。这是一种新发现的LLM问题。当生成的数据污染了后续模型的训练集,导致对现实的误解时,就会发生模型崩溃。从广义上讲,数据中毒指的是任何导致产生不准确反映现实的数据的因素。研究论文利用可管理的模型来模拟法律硕士的数学模型,以证明这一问题在法律硕士中的严重性和持久性。 保持真实性和规范数据使用正如论文所建议的那样,解决这一问题的方法主要是维护内容的真实性,并通过合作者的额外审查来确保数据分布的真实性。此外,规范机器生成数据在LLM培训中的使用也至关重要。考虑到从头开始训练LLM所需的成本高昂,大多数组织都依赖预先训练好的模型作为起点。随着生命科学、供应链管理和内容产业等关键行业在日常任务和建议中越来越多地采用LLM,LLM开发人员必须在保持真实性的同时不断改进模型。
