这家公司用人工智能技术识别网页内容
来源:腾讯科技 发布者:纪振宇 发布时间:2015-3-31
[摘要]Diffbot通过人工智能技术,让“机器”识别网页内容,抓取关键内容。 |
腾讯科技 纪振宇 3月31日硅谷报道
当你每天打开电脑,浏览新闻获取信息时,不经意间,你的大脑实际上已经做了很多复杂的信息处理工作,例如识别文章的标题、作者、正文内容、图片等信息。一家名为Diffbot的公司,已经可以通过人工智能技术,让“机器”来进行上述工作,并将上述信息转化为软件能够识别的结构化数据。
人工智能领域初创公司Diffbot于30日宣布,将解锁识别论坛、产品评测和问答以及文章评论页面的API。
Diffbot是一家人工智能公司,通过人工智能技术,让“机器”识别网页内容,抓取关键内容,并输出软件可以直接识别的结构化数据。
其创始人兼首席执行官Mike Tung 30日在接受腾讯科技专访时表示,目前Diffbot能够帮助很多开发者获取产品开发所需的关键数据,省去了他们过去所需要经历的复杂中间环节。
“例如你作为开发者,想要开发一款基于Yelp上数据的产品,在过去你需要向Yelp发出API调用,但通过Diffbot,你就可以很容易获取数据。”Tung说。
在Diffbot的主页上,你可以在其输入框中输入任意网页地址,测试其识别网页内容的实际效果。
例如,在输入框中输入腾讯科技文章“微信回应谣言:没有推出会员制度计划”的页面链接,按下回车键后,系统在进行了大约4秒左右的分析后,将提取出“标题”、“日期”、“作者”、“全文内容”、“图片”(包括格式大小)、“语言”等这些信息数据,将菜单栏、广告栏等信息自动去除。
Tung说,Diffbot现在做的,相当于人类在浏览网页文章时所做的事情,找出页面中最核心的相关信息。
与其他很多“高调”创业公司不同,Diffbot自2009年成立以来,大多数时间都在进行技术研发,仅在2012年进行了一轮200万美元的融资,团队也一直保持极其精简,目前仅有12人。
Tung介绍说,Diffbot项目最早诞生于斯坦福大学校园内,当时他正在人工智能实验室就读。Diffbot是第一个获得斯坦福孵化器Stanford StartX支持的项目,随后又获得了包括Sun联合创始人、谷歌(微博)投资人Andreas Bechtolsheim等人的投资。
目前,Diffbot服务的客户包括三星、eBay、思科、美国在线等。根据需求不同,Diffbot提供了4种收费服务模式:一是14天免费试用,包括1万次API调用。二是每月299美元,包括25万次API调用,超出部分每次调用价格为0.001美元,功能增加了支持电子邮件、“爬虫”、“搜索API”等,三是每月4999美元,包括500万次API调用,超出部分每次调用价格为0.0009美元,新增功能包括电话支持等。
Tung说,Diffbot现在每月收到的API调用已经达到“数十亿”量级,公司目前已经实现盈利,未来希望将人工智能的功能进一步提升完善。
“现在我们只是在很初级的阶段,”Tung说,“识别网页内容是基础的人工智能的应用,未来的远期目标是让‘机器人’达到人类识别的级别。”