企业想让人工审核员给AI应用把关

权衡生成式人工智能(AI)技术风险和益处的企业，正面临着社交媒体平台长期以来一直在努力应对的挑战：防止技术被恶意利用。
借鉴这些平台的经验，商业技术的领先者正开始将基于软件的“护栏”与人工审核员相结合，以将其使用限制在规定的范围内。
类似OpenAI旗下GPT-4这样的AI模型是经由大量互联网内容训练的。在正确的提示词作用下，大型语言模型可以生成大量受到网络最黑暗角落启发的有毒内容。这意味着内容审核需要发生在源头（即AI模型被训练时）以及它们大量生成的输出上。
总部位于加州山景城的TurboTax软件开发商财捷集团(Intuit Inc., INTU)最近发布了一款基于生成式AI的助手Intuit Assist，它为客户提供财务建议。目前该助手仅供数量有限的用户使用，依靠的是经过互联网数据训练的大型语言模型以及根据Intuit自有数据进行了微调的模型。


Intuit首席信息安全官Atticus Tysen

该公司首席信息安全官Atticus Tysen表示，公司目前正计划组建一支由八名全职审核员组成的队伍，负责审查进出这个由大型语言模型驱动的系统的内容，包括帮助防止员工泄露公司敏感数据。
Tysen表示：“当我们试图围绕财务问题做出真正有意义、具体的回答时，我们并不知道这些模型的效果如何。所以对我们来说，在这个回路中加入人工是非常重要的。”
Tysen表示，Intuit自己开发的内容审核系统使用一种单独的大型语言模型来自动标记它认为令人反感的内容，比如脏话，该系统目前处于早期阶段。他说，例如，如果客户询问与财务指引无关的问题，或试图发起提示词注入攻击，该客户也将被系统自动封禁。这些攻击可能包括诱使聊天机器人泄露客户数据或它的运作方式。
然后，人工审核员会被提醒审查该文本，并能将其发送给模型构建团队，从而提高系统屏蔽或识别有害内容的能力。如果Intuit的客户认为他们的提示词被错误标记，或者如果他们认为该AI助手生成了不恰当的内容，他们也能够通知公司。
虽然目前还没有专门从事AI内容审核的公司，但Intuit正在用受过社交媒体内容审核培训的承包商来补充自己的员工队伍。与所谓的提示词工程师一样，AI内容审核员可能会成为AI创造的新一类工作机会的一部分。
Tysen说，财捷集团的最终目标是让其AI审核模型为其AI助手完成大部分内容审核工作，从而减少人类会接触到的有害内容。但他说，就目前而言，生成式AI还不足以完全取代人工审核员。
诸如Facebook和Instagram母公司Meta这样的社交媒体公司长期以来一直依靠外包的人工审核员来审核和过滤平台上的攻击性帖子，这为AI审核的未来发展路径提供了最佳实践和警示。
近年来，像OpenAI这样的AI公司已招聘人员来审核并分类处理从网上获取的以及由AI自身生成的有害文本。这些经过分类的段落被用于为ChatGPT创建AI安全过滤器，防止该聊天机器人的用户接触到类似内容。
OpenAI还与其合作伙伴兼最大支持者微软(Microsoft)合作，开发微软所称的Azure AI Content Safety服务，该产品利用AI自动检测包括仇恨、暴力、性和自残内容在内的不安全图像和文字。微软正利用其安全服务来防止自己的生成式AI工具中出现有害内容，这些工具包括GitHub Copilot和用于Office软件的Copilot。
微软AI平台企业副总裁Eric Boyd说：“这些AI系统确实相当强大，只要有正确的指令，就能做各种不同的事情。”
其他科技领军人物正在研究人工审核的潜力，或者投资于像微软那样的第三方软件。分析师称，内容安全过滤器将很快成为企业注册使用任何供应商所售生成式AI工具的必备条件。
位于北卡罗来纳州莫里斯维尔的生物制药服务公司Syneos Health的首席信息和数字官Syneos Health表示，该公司将考虑在明年的某个时候聘用内容审核员。在此期间，AI模型使用的训练数据将通过人工反馈被逐一审核。
Pickett说：“我们将以一种外科手术的精准方式来做这件事，但从更广泛的意义上来讲，某种程度的审核和监督是有很多益处的。”
Forrester的分析师Brandon Purcell聚焦于负责任与有道德的AI使用问题，他说，人们对“负责任的AI”越来越感兴趣，其目的是让AI算法更加透明或可审计，并减少AI带来的意外负面后果。
他说：“大家都对此感兴趣，因为他们意识到，如果在这方面没做好，就会面临声誉风险、监管风险和收入风险。”

浏览过的版块