电话:
朱婷婷 0648-5001357
Email:
desdev@vip.qq.com
地址:
河南省安阳市日照工业园88号
数据“搬运”成风 互联网企业集体沉默
2020-03-02 07:51 浏览:131

  在;北京798艺&#;术区对面的一栋办公楼里,马蜂窝旅游网总部的运营!一切,如常,丝毫看不出其受到此前“点评数据造假”事件的影响;。

  10月下旬,自媒体公众。号“小声比比”以《估值175亿的旅游独角兽,是一座僵尸和水军构成的鬼城;?》为题发表文章,披露马蜂窝网站上21;00!万用户点评、数据中,有1800万,是通过机器人从;其他竞争对手网站里“搬运”而来的。在后续文章中,该公&#;众号还指出,马蜂窝网站的游记里,也夹杂了不少营销水军和软广。

  作为一家正在迅速成长的旅游平台,马蜂窝“被捅”,按理说会激!起强烈反响。但事件发生后,除马蜂窝!发表一则声明外,包括投资人、被爬取数据!网&#;站在内的各方均保持了“沉默”。

  在马蜂窝事件之前,还有!大众点评网站未经授权搬运小红书AP、P近,百万篇用户笔记;甚至就在两三年前,马蜂窝用,户的游记也被其他网站;抄袭,为此马蜂窝官方微博还出面帮助维权。

  “为了获得好看的数据和足够的资金;,数据!互爬和造假在行业内是公开的秘密。”采、访中,,业内人士的一句话道出了各方沉默的内在原因。

  在大量“需求”之下,“;刷流量”和“刷单”已形成了产业链。由于现有法;律对互联网数据;所有权和使用权的规;范还不完善,因此虽然上述行为给用户获取真实信息带来困扰,但目前&#;还缺乏有效的解决方法。

  爬。虫无处不在

  创立于、2006年的&#;马蜂窝是一个分,享型的在线旅游社区,用户可以在网站上写游记和攻略。,是典型的将“用户原创,内容(UGC)”作为核心竞争力的互联网企业。在国内,与之类似的还有合并前的大众点评网、豆瓣网等公司。对这些企业来说,&#;优质、的原创内容既是它们获得资本青睐的重要原因,也是决定。存亡的生命线。

  “越是依靠内容的产品,越容易出现网络爬虫。”在某互;联网企业担任数据工程师的陈立(化名)告诉。所谓网络爬虫,是一种按照一定规则!,自动抓,取互联网信息的程序或者。脚本。此次马蜂窝被指“搬运&#;”数据,也是通过爬虫技、术爬取而、来。

  “对初创公司来说,如何实现‘冷启动’是让人头疼的;事情。”陈立曾;在一家餐。饮点评网站就职,刚上线时,!由于没有用、户,网站里就没有原。创内容;缺乏内容,又无法吸引用户。面;对“死循环”,从别处爬取内容、填充网站成了最便捷的选择。

  数据搬运早不是新鲜事。天涯社区是中国最早的、一批内容平台、,其早期创始人李胜兵,曾公、开表示,早在那时,阻止爬虫和机器灌水就是程序员的日常工作之一。

  即使是已拥有一定用户量的企业,!也难免在数据上“动手脚”。有业内人士告诉,大部。分互联、网企业早期都难以实现盈利,因&#;此除了营收,增长。数据。就成了衡量企业未来潜力的重要因素,这将在很大程度上决定!企业能否获得投资人的青,睐。

  刷出产业&#;链

  作为一名普通的用&#;户,北京白领李嘉觉。得手机里的某个点评、APP“越来越看不懂了”。为了美发,李嘉最近对公司和家附近的美发店进行了搜索,让她没料到的!是,在APP上,这些、店几乎都是清一色&#;的好评,;“。点评动辄写上两三百字,还要配上五六张照片”。在为数极少的中评和差评中,用户多是抱怨店里的实际服务和点评中的描述有较大差距。

  根据经验&#;,李嘉认为,大多数好评都可能是由商家刷单而来。“看来看去、,反而更难选择了。”

  正面的评价;和数据能够影响消、费者的选择,无论是平台还是商家,对刷!单、刷量都有极大需求。不少线下营销公司根据这种需求,已经把刷单发展成一条产业链。

  在淘宝网上以“马蜂窝、、旅游”为关键词进行搜索,能够发现多家代写游记,、客栈或餐厅推广的店;铺。以火锅店店主的;身份进行咨询,一家店铺提供了3种服务:直接从别处抓取非原创评论、店铺工作人员原创评论、店铺创作游记并在其中嵌。入火锅店信。息。相对于点评一条3~5元的价&#;格,游记推广的价格则高达300~500元。店主承诺,游记会在目的地网页“占据显眼位置”,并提供长期维护。

  除马蜂窝以外,也有推广公司提供;途牛、穷游等平台的,推广服务。在微博平台、视频网站平台,刷单、刷量也同样存在。报价方、面,以视频点击量为例,。根据达到的效果不同,1万次点击量的“售价”从2元到8;0元不等。

  陈立告诉,对商家的刷量、刷单行为,平台都&#;心知肚!明,但刷单既给商家带来了客流,又为平台免费提供了;内容数据,还让营销&#;公司获利,“皆大;欢喜,利益链条由此完整”。

  与商家一!样,平台自身也需要“刷。量。”。此前,在“知乎”社区中,有用户指出,蜻蜓FM后台有自启代码,不仅。可以在用户手机的后台启动无窗透明界面,伪造日活跃用户数,还能自主触发广告商的。广告,并回传给第三方数据公司,从而完成“!用户自主点击广告”;的操作。

  沉默背后是法规的;缺位

  有爬虫就有&#;反爬虫。

  “普通用户最常见的就是验证码技术。”携,程技术中心曾专门举行了主题为“爬&#;虫VS反爬虫,一场没有硝烟的战争”的技术培训活动,并在活动中表示:我们、所处的互联网,是一个爬虫的世界。

  陈立介绍,由于受!高利润的驱使,爬取方总是能不断升级技术突破反爬虫,因此这场战争中胜者几乎总是爬虫。不&#;少从业人员都用“道&#;高一尺,魔高一丈”形容双!方的交锋。

  在程序员互相比拼技术的背后,是法律条款的缺失。网络爬。虫作为一种技术本是合法中立的,但其获取的网络信息的所!有!权以及获取信息后的使用范围,在目前的法律条款中,还没幸运28有明确的规定。

  这或许也是此次马蜂窝“被捅”后,相关企业集体沉默的原因之一。在透明!且缺乏版权意识与法律规范的网络世界中,爬虫是谁都可、以钻的漏洞。有业内人士甚至表态、:几乎,没有任何互联网企业的数据和内容是完全“清白”的。

  除了爬虫,造成不公平竞争以及给;消费者带来困扰的刷单与刷量行为,目前也缺乏有效的约束方法。;即使是平台;公司。有意、维权,也面临着举证难和成本高的障碍。今、年8月,国内首起因视频网站刷。量而引发的不正当竞争案宣判,爱奇艺虽胜诉,但50万元的赔偿能起到的震慑作用微!乎其微。

  “抄袭的人得到好处,守规矩的人变得弱势,这是不公平的。”李,胜兵表示,未来,要依靠互联网的“自滤”功能和法律法规的不断完善,才有望破解“数&#;据造假”的,难题。(罗筱晓)