AI模型海量使用數據

  ChatGPT(OpenAI):

  來源:網絡上的書籍、網站和新聞文章等來源的大量文本數據,收集截至2021年9月。

  容量:ChatGPT包含1750億參數,其升級版GPT4包含1.8萬億參數。

  Gemini(谷歌)

  來源:互聯網的文本、圖像、音頻、視頻等數據,包括YouTube 94億分鐘內容。

  容量:訓練參數達萬億,約達到GPT4的兩倍。

  Grok(X)

  來源:截至2023年第三季度的互聯網數據和xAI的訓練人員所提供的數據。

  容量:Grok-1參數達3140億,是目前參數最大的開源模型。

  Claude 2

  來源:截至2023年8月的互聯網數據。

  容量:訓練數據為40萬億,Claude2的參數數量超過1300億。

  Llama 3(Meta)

  來源:截至2023年12月的互聯網數據。

  容量:15萬億。

  文心一言(百度)

  來源:自於公開的互聯網數據,包括新聞、論壇、博客等。

  容量:萬億網頁數據、數十億搜索圖片數據、百億級語音數據等。

  大公報整理