• 13
专注于AI数据,BasicFinder为企业提供一站式数据采集与标注服务
统计 阅读时间大约5分钟(1900字)

2017-07-31 08:21:00 专注于AI数据,BasicFinder为企业提供一站式数据采集与标注服务

BasicFinder平台想作为一个专注于AI数据的供应商,变成AI的加速器,从数据源开始加速。

【猎云网(微信:ilieyun)北京】7月31日报道(文/都保杰)

人工智能三大支柱:数据、计算能力和算法,数据作为首要因素,是人工智能技术持续进化不可或缺的动力原料,然而在获取数据的过程中,无论是科学家还是企业的AI工程师都不能绕开一个现实问题:怎样获得大量干净的可用数据?

对于很多科学实验室和AI公司来讲,数据的采集、清洗、标记过程严重拖慢研发效率,耗费大量人力时间,而且数据标出来如果不规范,量不够大,难以满足专业化的应用需求,所以在人工智能产业链上,专业化的AI数据供应商便应运而生。

北京深度搜索科技有限公司(BasicFinder)注册成立于2015年2月,BasicFinder的初衷含义是希望能在人工智能世界中找到万物之间最本真、最基础的那一层关系,进而用数据将万物连接。BasicFinder创始人兼CEO杜霖说:“数据是人工智能系统的动力源,我们想作为一个专注于AI数据的供应商,变成AI的加速器,从数据源开始加速。在数据这条产品线上,直观一点讲,我们将提供包括众包采集数据,清洗数据,结构化标记数据甚至是模型训练等一套完整的闭环解决方案。”

插图

杜霖是一个连续创业者,在上海交通大学计算机系ACM班读大二的时候,就开始了第一次创业经历,当时开发了一款基于数据挖掘技术的SEM搜索引擎自动化营销工具,后以300万美金的价格打包卖给了一家土耳其电子商务网站。2010年大学毕业后,杜霖跟几个朋友成立了一家早期TMT行业投资公司,从事了数年创投工作。

计算机视觉一直是杜霖十分感兴趣并持续关注的领域。2015年初,当时较为有效的深度学习识别框架刚刚兴起不久,杜霖预感到深度学习在未来在各行各业都将会有巨大的拓展能力。未来随着AI技术的成熟与普及,算法的壁垒会越来越小,而大数据作为人工智能中不可或缺的一块,会有持续的巨大需求并将成为瓶颈,于是,BasicFinder成立了。

BasicFinder旨在打造一个从数据的定义、采集,加工,到训练迭代的一个专业众包平台,形成人机监督、反馈与迭代训练的闭环,从而将大量的人的智慧转化为计算机的智慧。这个平台给AI客户的便利是在该平台可以轻松定义自己的数据任务,有任何数据需求,从数据的采集,爬虫技术和人员获取,到数据加工,我们会把数据任务智能化分配到数据车间,比如人脸的数据我们会分发给做过人脸识别项目数据的车间,语音我们就发给专门处理语音的工厂,数据工厂操作员在我们平台上进行操作,客户在后台就能及时监控这些数据任务,看看数据是否合格,是否要及时返工,最后保证会输出一批最干净最纯的数据进行训练。

在数据这个行业需要人做的事情很多,据杜霖透露,BasicFinder目前拥有12家下辖数据工厂及2000余名数据操作员,这些数据工厂有些是参与投资,有些是深度合作的模式,所覆盖的行业和应用场景也比较广泛,BasicFinder基于自己的平台把数据的采集、清洗、标记变成了专业化的产品服务。

插图

杜霖举例说:“假如有客户要研发一个算法,需要采集三万张不同姿态的人脸照片,BasicFinder就会通过系统分配给符合条件的数据工厂进行众包采集,工厂每一位数据操作员通过自己的客户端进行数据采集与上传,采集完数据汇总到BasicFinder平台,根据客户的算法模型来标记所有像素大于80*80 的人脸位置、表情及关键点信息,我们会先进行一遍数据清洗,把不达标的照片略掉,再利用我们的标记平台任务分配机制分配给有经验的工厂和个人,利用专业的标记工具做标记,最后完成数据交付。这块有两个分支,如果客户自己做模型的话,数据直接给他,可以直接在我们平台下载数据用来训练它的识别模型去做它们的AI技术。如果客户没有算法能力的,可以用我们的系统平台去做算法,训练模型,我们会把训练结果反馈给他,进行模型的应用实施。”

客户任务的发布和管理,只是前端的事情,BasicFinder在后端也做了很多事情。一个任务发过来如何分发到合适的工厂,到了工厂管理员如何去把任务分配到操作员个人,整个过程如何做到效率的监管,质量的把控,还有品检,错误的修改,所有的这些事情在BasicFinder后台都已经实现。

模式会不会很重?“我们做的是平台,运营的是这套高效的数据众包系统,将众人的智慧化为AI的训练燃料。我们是在运营这个平台的过程中给客户提供了便利,给工厂提供了便利,最后把最高质量的数据交给客户。”

为什么选择专业数据操作员而不是互联网网民?“互联网网民由于没有受过专业化培训,外加是兼职操作,在质量和数量都难以满足专业化的数据加工需求。我们有很多客户之前都是在网民平台无法得到优质有效的数据于是选择了我们,其中有医学影像数据、高精度自动驾驶数据、专业语音数据以及涉及到细分行业的智能问答语义数据,等等。我们在语音标记的培训周期是100天,淘汰率达到70%;我们的业务员经过培训可以无障碍处理300年前古德文族谱手写体数据,现在的很多德国年轻人都不认得了。这些数据都是网民群体难以上手的。”

据悉,BasicFinder整套产品预计会在9月份正式上线,没有上线之前业务基本靠口碑传播,目前已经帮助很多客户解决数据问题,服务的客户有中国科学院、京东、搜狗、云之声以及一些国外知名院校和科学机构等。BasicFinder已经获得过两轮融资,最近一次融资是2017年2月份,完成了一千多万元pre-A轮融资,计划今年底或明年初再进行A轮融资。

 

产品:BasicFinder平台
公司:北京深度搜索科技有限公司
官网:http://basicfinder.com/#firstpage

1、猎云网原创文章未经授权转载必究,如需转载请联系官方微信号进行授权。
2、转载时须在文章头部明确注明出处、保留官方微信、作者和原文超链接。如转自猎云网(微信号:ilieyun
)字样。
3、猎云网报道中所涉及的融资金额均由创业公司提供,仅供参考,猎云网不对真实性背书。
0
评论
推荐阅读
记者名字
{{item.author_display_name}}
{{item.author_user_occu}}
{{item.author_user_sign}}
×