BBC公開了實驗過程,研究人員要求這些AI工具以BBC的文章為來源回答100個問題。然后,讓專門研究相關主題領域的BBC記者對答案進行評分。

結(jié)論是,大約五分之一的答案在數(shù)字、日期或陳述方面引入了事實錯誤,幾乎一半的回答被判定為“存在某種形式的重大問題”。

這些錯誤包括,里?!ぬK納克仍然是首相,尼古拉·斯特金仍然是蘇格蘭的首席大臣,以及伊斯梅爾·哈尼耶在伊朗被暗殺數(shù)月后成為哈馬斯領導層的一員等等。

2.jpg

關于產(chǎn)生這些錯誤的原理,研究人員的觀點是:“AI難以區(qū)分觀點和事實”。所以在實驗階段,AI才會多次將意見或過時的檔案誤認為是最新事實。

最后,BBC通過采集到的所有樣本對比,得出結(jié)論,“微軟Copilot和谷歌Gemini比OpenAI的ChatGPT和Perplexity存在更嚴重的問題?!碑斎?,Apple Intelligence早在1月就已經(jīng)翻車,該項研究也是在Apple多次生成虛假新聞摘要之后進行,所以對比中并沒有它。

3.jpg

事后,這些發(fā)現(xiàn)促使BBC的新聞首席執(zhí)行官黛博拉·特內(nèi)斯警告說:“這些AI工具正在玩火,很有可能破壞公眾對事實的信任?!?/p>

必須承認,BBC的研究對AI在「人文領域」的發(fā)展有很大幫助,此前關于AI的研究都停留在“理工科”領域,現(xiàn)在終于開始審視AI生成的內(nèi)容準確性了。

4.jpg

在BBC的研究結(jié)果公布之后,OpenAI的發(fā)言人第一時間表示,他們尊重所有網(wǎng)絡媒體內(nèi)容,如果有需要,網(wǎng)站可以使用robots.txt來管理OAI-SearchBot,拒絕AI使用該頁面。robots.txt是網(wǎng)頁代碼中的一條指令,它可以要求AI不要在搜索結(jié)果中使用該頁面。

無論如何,這項研究結(jié)果都將產(chǎn)生巨大的漣漪,尤其在AI創(chuàng)作領域更為明顯。但是,有些局限性似乎很難改善,比如如何用代碼來區(qū)分觀點和事實,畢竟連人類都難以區(qū)分二者。


點個贊1032
分享到:

發(fā)表評論注冊|