从通讯设备到保险业都在用的「保密」AI 创新推手:合成资料
【为什麽我们要编译这篇文章】「合成资料」(synthetic data)指的是透过电脑模拟或演算法,人为产生的加注资讯。近年,越来越多企业采用合成资料来训练人工智慧模型,正因为它的优势是「物美价廉」。
下文将带你认识合成资料,以及随着合成资料市场的成长,市场上有哪些领导者。(责任编辑:游绒绒)
成功部署任何 AI 应用之前,企业组织需要先取得大量资料,用以训练演算模型,然而取得合适且充足的机器学习数据并不容易,因此成本合理且有效的「合成资料」(synthetic data)越来越受到业界重视和采用。
♦ TO 延伸阅读:【给 AI 产业工作者的 2023 预言书】五大趋势与问题,等你们替全世界人类解决!
什麽是合成资料?
合成资料指的是透过电脑模拟或演算法,人为产生的加注资讯;换言之,合成资料是数位世界的生成物,而非取自真实世界的数据蒐集或量测。
AI 实务领域中,用合成资料来建立精确人工智慧模型的比例愈来愈高,尤其当既有资料集在品质、数量或多样性方面有所不足时,就会选用合成资料来填补训练数据的缺口。
尽管此资料类型是「合成的」,它在演算或统计上,仍旧足以反映真实世界的数据,相关研究也证明在 AI 模型训练历程中,比起代表实际物体、事件或群体的数据,合成资料可能表现一样好,甚至可能更好。
日前 Gartner 发表了一份相关报告,预测到了 2030 年,合成资料将成为绝大多数的 AI 模型训练基础,数据来源可能是演算法规则、统计模型、电脑模拟等方式;报告更直接指出,未来「倘若没有合成资料参与,将无法打造出高品质、高价值的 AI 模型」。
面对国际市场快速发展的 AI 技术趋势,台湾企业应当采取什麽策略?
→ 立即下载《TechOrange 2023 趋势观察报告》
♦ TO 延伸阅读:盘点 4 个机器学习资源,晋升 2023 年高薪热门职业!
为什麽合成资料如此受到重视?
软体开发历程中,大量且经妥善标注的数据集不可或缺,当学习数据越多元,最终训练出的 AI 模型往往也会越精确,然而这类资料取得和数据标注,通常耗时且所费不赀,相比之下,合成资料显得物美价廉──若使用数据标注服务,一张图像的报价可能是 6 块美金,选择人工合成的话,约莫只要 0.06 元。
数据取得成本之外,合成资料的优势还在於能保护原始资料所可能带有的隐私或机敏资料,避免因法规或现实之限制而无法取得或利用研究所需资料的情况,也降低资安外泄的风险。
再者,由於真实环境资料并不能确保原始(pristine)无杂质,甚或出现人为蓄意操弄的情形,相比之下,合成资料能移除数据偏见,更有助於工作流程自动化,以及赋能预测性模型(predictive modeling)。
♦ TO 延伸阅读:全球景气大萧条,OpenAI 却大举投资千万美元!OpenAI CEO:没有比现在更好的创业时机
市场领导者有哪些?
随着合成资料的市场需求增长,有越来越多家技术供应商投入此领域的开发,例如创立於 2017 年,总部位於奥地利的「Mostly AI」、去年被 Facebook 母公司 Meta 收购的新创平台「 AI.Reverie」、专精於生成式模拟、云端技术与深度学习的「Sky Engine AI」,以及为电脑视觉提供合成图像资料集的「Datagen」等。
最新加入的还有全球数据工程领先品牌「Innodata」,不仅为企业端提供合成资料解决方案,更针对一般消费者推出电商入口网站,往後消费者将能依照个人需求,购买可立即用来训练模型之合成资料集。
♦ TO 延伸阅读:【人工智慧 vs. 人类天才】回到 AlphaGo 打败棋王那天,AI 战胜人脑的内幕是什麽?
日益丰富的合成资料应用场景
Innodata 之所以推出合成资料交易网站,最终目的是要推展第三方 AI 训练资料集,且类型不限於文件,还会包含图像、影视、音讯,以及迎接对话式 AI 趋势的语音数据;这些资料集应用也将横跨多元产业,例如通讯设备、运输物流、能源服务、制药、旅宿、保险、零售、健康照护等,在语言支援上也将更不受限,未来世界各地的数据科学家都能借助合成资料,催生出更多人工智慧领域创新。
♦ TO 延伸阅读:AI 领域创新脚步不停歇,跟上专家一致看好的 2023 年三项趋势!
》下载 TechOrange 2023 趋势观察报告《
(本文开放夥伴转载,参考资料:VentureBeat、nvidia,图片来源:Shutterstock)