互联网爱好者创业的站长之家 – 南方站长网
您的位置:首页 >运营 >

Sama旨在用新的7000万美元为数据集的人群标记带来更大的平等

时间:2021-11-16 10:57:19 | 来源:

Sama 是一家提供数据以训练机器学习系统的公司,在由 CDPQ 牵头的 B 系列中筹集了 7000 万美元,First Ascent Ventures、Salesforce Ventures、Vistara Capital Partners 和现有投资者也参与其中。首席执行官 Wendy Gonzalez 表示,该公司将利用这笔资金通过新产品发展其平台,“使团队能够管理完整的 AI 生命周期”。

据Anaconda 称,数据科学家将大约 45% 的时间花在数据准备任务上,包括加载和清理数据。Alation的另一份报告发现,97% 的数据领导者都遭受了忽视数据的后果,要么错失了新的收入机会、预测绩效不佳,要么投资不当。另一项研究——由 MIT Technology Review Insights 和 Databricks 委托——表明机器学习的业务影响在很大程度上受到管理其端到端生命周期的挑战的限制。

由 Leila Janah 创立,总部位于加利福尼亚州旧金山的 Sama(前身为 Samasource)于 2018 年与合作伙伴交付中心建立了首批关系,专注于数据输入、情感分析和数据转录。2009 年,该公司推出了其技术平台 SamaHub 的初始版本,并开始了一系列商业项目——包括提供微软用来构建公司Xbox Kinect 的图像和注释。

冈萨雷斯通过电子邮件告诉 VentureBeat:“Janah 认为,提供有意义的、有薪水的工作是让人们永久摆脱贫困的最佳方式。”“迄今为止,我们是唯一一家拥有负责任的培训和就业计划的 AI 培训数据提供商,该计划为服务欠缺的社区提供可操作的职业技能,使我们更接近更公平的 AI 未来。”

数据平台

如今,Sama 拥有一个众包平台,公司可以通过该平台获取标记数据以训练 AI 模型,例如视频、图像、计算机生成的形状、雷达和自然语言。运输和导航、零售和电子商务、机器人和制造等行业的客户为数据集付费,而“众包”提供注释以换取 Sama 的付款。

Sama 与市场上的许多数据标记和注释平台竞争,包括DefinedCrowd、Appen(以前的CrowdFlower)、Labelbox、Superb AI和Scale.ai,以及 Amazon Mechanical Turk 等老牌公司。但该公司声称,它通过每月跟踪 1.6 亿个事件来改进其平台和流程,例如用于众包工作人员的机器学习辅助注释工具,从而提供卓越的产品。

Sama 在其网站上解释说:“我们的贴标员平均任期为三年,并且是与我们的客户合作以确定边缘情况并推荐注释最佳实践的主题专家。”“抽样向质量经理提供反馈,以确保团队高效地工作,同时‘暂停’任务和高级脚本在管道早期检测错误。”

当一家公司与 Sama 签订合同时,Sama 的平台会创建“微模型”,用于生成预先标记的数据以帮助标记者进行注释。注释者验证机器学习生成的标签,而 Sama 与公司合作识别边缘情况并推荐注释最佳实践。

在注释和部署之后,Sama 可以提供持续的反馈并监控生产中的模型。除此之外,该平台可以生成关于“帧级”注释和边缘情况的数据,生成旨在帮助将模型更快推向市场的报告。

影响

监督学习——需要标签进行训练的模型类型之一——是企业中最常见的机器学习形式。在最近的 O'Reilly报告中,82% 的受访者表示他们的组织选择采用监督学习,而不是无监督(不需要标签)或半监督学习(只需要少量标签)。而根据Gartner的调查,监督学习仍将是机器学习的类型组织通过利用最2022。

然而,标签可以带有不平等的特征。例如,估计不到 2% 的机械土耳其工人来自全球南方国家,其中绝大多数来自美国和印度。ImageNet——一个对计算机视觉的最新进展至关重要的数据集——如果没有数据标签者的工作就不可能实现。但 ImageNet 工人本身的工资中位数为每小时 2 美元,只有 4% 的工资高于美国联邦每小时 7.25 美元的最低工资——这本身就与生活工资相去甚远。

Sama 声称它支付比竞争对手更高的注释员费率——大约每天 8 美元——其使命是为服务欠缺地区的社区提供机会。在麻省理工学院和创新扶贫行动组织进行的一项为期三年的随机试验中,肯尼亚内罗毕的众包工作者与仅接受培训的众包工作者相比,接受过培训并被纳入 Sama 招聘库的众包工作者失业率较低,平均月收入较高。

该研究没有将 Sama 的众包工作人员的结果与其他数据标记初创公司的工作人员的结果进行比较。但冈萨雷斯表示,结果“指向了无可争辩的事实”并“证明了 [Sama 的] 影响模型对全球社区的价值。”

Sama 拥有 120 名全职员工和 3,500 名注释员,其客户遍布谷歌、英伟达、通用汽车、沃尔玛、盖蒂以及超过 25% 的财富 50 强企业。仅在 2020 年,其众筹人员就对 15 亿个数据点进行了注释,并使用最新的数据在本轮融资中,Sama 的总融资额接近 8500 万美元。

“我们的客户包括财富 2000 强公司,”冈萨雷斯说。“值得注意的是,谷歌最近利用 Sama 的......训练数据为其Project Guideline 的AI 算法提供动力,该算法可帮助视力障碍者独立运行。凭借我们高质量、准确的训练数据,该应用程序能够准确地估计跑步者的位置并提供音频反馈,以便跑步者可以自我纠正。现在,我们正在努力扩展 Project Guideline,目标是使该解决方案成为盲人 [和] 视障社区的可访问选项。”

郑重声明:本文版权归原作者所有,转载文章仅为传播更多信息之目的,如有侵权行为,请第一时间联系我们修改或删除,多谢。