BBC公開了實驗過程，研究人員要求這些AI工具以BBC的文章為來源回答100個問題。然后，讓專門研究相關主題領域的BBC記者對答案進行評分。

結(jié)論是，大約五分之一的答案在數(shù)字、日期或陳述方面引入了事實錯誤，幾乎一半的回答被判定為“存在某種形式的重大問題”。

這些錯誤包括，里?！ぬK納克仍然是首相，尼古拉·斯特金仍然是蘇格蘭的首席大臣，以及伊斯梅爾·哈尼耶在伊朗被暗殺數(shù)月后成為哈馬斯領導層的一員等等。

關于產(chǎn)生這些錯誤的原理，研究人員的觀點是：“AI難以區(qū)分觀點和事實”。所以在實驗階段，AI才會多次將意見或過時的檔案誤認為是最新事實。

最后，BBC通過采集到的所有樣本對比，得出結(jié)論，“微軟Copilot和谷歌Gemini比OpenAI的ChatGPT和Perplexity存在更嚴重的問題?！碑斎?，Apple Intelligence早在1月就已經(jīng)翻車，該項研究也是在Apple多次生成虛假新聞摘要之后進行，所以對比中并沒有它。

事后，這些發(fā)現(xiàn)促使BBC的新聞首席執(zhí)行官黛博拉·特內(nèi)斯警告說：“這些AI工具正在玩火，很有可能破壞公眾對事實的信任?！?/p>

必須承認，BBC的研究對AI在「人文領域」的發(fā)展有很大幫助，此前關于AI的研究都停留在“理工科”領域，現(xiàn)在終于開始審視AI生成的內(nèi)容準確性了。

在BBC的研究結(jié)果公布之后，OpenAI的發(fā)言人第一時間表示，他們尊重所有網(wǎng)絡媒體內(nèi)容，如果有需要，網(wǎng)站可以使用robots.txt來管理OAI-SearchBot，拒絕AI使用該頁面。robots.txt是網(wǎng)頁代碼中的一條指令，它可以要求AI不要在搜索結(jié)果中使用該頁面。

無論如何，這項研究結(jié)果都將產(chǎn)生巨大的漣漪，尤其在AI創(chuàng)作領域更為明顯。但是，有些局限性似乎很難改善，比如如何用代碼來區(qū)分觀點和事實，畢竟連人類都難以區(qū)分二者。

點個贊1032

發(fā)表評論注冊|登錄

熱點資訊

好物推薦