感谢IT之家网友 航空先生 的线索投递!

IT之家从博客获悉,OpenAI 称:“为了最终使 AI 变得更加安全且造福于全人类,我们希望 AI 模型能够深入理解所有主题、行业、文化和语言,这需要尽可能广泛的训练数据集。”
作为数据合作伙伴计划的一部分,OpenAI 表示,它将收集“反映人类社会”且目前不易在线访问的“大规模”数据集。虽然该公司计划跨多种模式开展工作,包括图像、音频和视频,但它特别寻求跨不同语言、主题和格式“表达人类意图”(例如长篇写作或对话)的数据。
OpenAI 表示,如有必要,它将与组织合作,结合使用光学字符识别和自动语音识别工具,对训练数据进行数字化,并在必要时删除敏感或个人信息。
OpenAI 希望创建两种类型的数据集:一个可供任何人在 AI 模型训练中使用的公开开源数据集,以及一组用于训练专有 AI 模型的私有数据集。
OpenAI 表示,私有集适用于希望保持数据私密性但希望 OpenAI 的模型更好地理解其领域的组织;到目前为止,OpenAI 与冰岛政府和 Miðeind ehf 合作,提高了 GPT-4 说冰岛语的能力,并与自由法律项目合作,提高其模型对法律文件的理解。

广告声明:文内含有的对外跳转链接(包括不限于超链接、二维码、口令等形式),用于传递更多信息,节省甄选时间,结果仅供参考,IT之家所有文章均包含本声明。
未经允许不得转载:新聚网 » OpenAI 寻求合作伙伴生成用于训练 AI 模型的数据集

新聚网
哈佛大学开源 AI 训练数据集“Institutional Books 1.0”,涵盖馆藏 98.3 万本图书
Android XR 智能眼镜 XREAL Project Aura 重要参数公布:双芯驱动,70+° FoV
全球首个儿科大模型在北京荣华医院落地,诊断准确率优于主治医师平均水平
小米米家前开盖旅行箱 18 英寸开启众筹,369 元
共建韩国最大 AI 数据中心、容纳 6 万个 GPU,亚马逊 AWS 与 SK 集团合作
OpenAI Codex 人工智能编程工具推出新功能:可一次生成多个方案
性能提升 90%,Anthropic 首次公开多智能体系统构建全流程





