机器之心报导
参加:张倩、泽南、蛋酱
维基百科上的词条内容,或许会被人修正并谋取私利,并且这一状况就发作在 AI 学术圈。
「遇事不决先谷歌」现已是现在许多人查找信息的规范起手了。假如查找一个词条,百科网站的成果一般会被显现在最显眼的方位。这种人人皆可修正的网站存储着海量信息,尽管或许不行谨慎,但也被许多人作为重要的信息、常识来历。
不过,最近人工智能的研讨者在维基百科上发现了不少「夹藏私货」的词条,比方 Reddit 网友发现的「SGD(随机梯度下降)」一词。
这位发帖者表明,ta 原本计划读一些关于梯度下降的资料,但却发现维基百科有关这一主题的词条就像一条广告。
为什么这么说呢?咱们先来看一下这个词条的结构。除了惯例的布景、示例、使用等介绍外,词条还包括 SGD 的「扩展和变体」,这部排列出了 RMSProp、Adam 等闻名算法和一些「二阶办法」。
「SGD」词条的结构。上图为前史版别,新版别不包括图中的 5.7。前史版别链接:https://en.wikipedia.org/w/index.php?title=Stochastic_gradient_descent&oldid=945132087
问题就出在这部分「扩展和变体」。要按说,能和 RMSProp、Adam 并排,这儿列出的办法必定都不差。但发帖者却发现,这部分包括了一篇比较冷门的论文(上图中的 5.7),文中说到了一种根据 Kalman 的随机梯度办法。
词条前史版别中对上述办法的介绍。
上文中说到的论文。数据来历:Google Scholar。
这是一篇 2016 年的论文,被引证量只要 22 次。要知道,与其并排的 Adam 在 Google Scholar 上的引证量高达 3 万 9 千屡次。
这事儿就十分可疑了,所以他决议进一步发掘信息。这是一篇 2017 年 2 月增加的文章,被增加进词条的时分,该论文的引证量似乎是 0,增加者是一位用户名为「Vp314」的用户。恰巧的是,论文作者的 gmail 用户名也是「Vp314」。
并且,这位用户对「SGD」词条的仅有奉献便是增加他的这项技能:第一次是将「Kalman-based Stochastic Gradient Descent」增加到「扩展和变体」;第2次是稍加改动;第三次是被删去之后从头增加,被删的理由是「最近几乎没有被学术界引证。」「这个词条出现在维基百科上使其看起来像是一种老练的技能,但其实并不是。」
「梯度下降」这种概念在机器学习范畴必定是必需要懂的常识,修正这个词条颇有点修正教科书的意味。更令人忧虑的是,这很或许仅仅是被单个研讨员/学者歹意修正内容的一小部分。
机器学习范畴自我宣扬的竞赛现已到了这样的程度,不由令人感叹。
其实在维基百科上,还有许多类似的奇葩操作,或许仅仅咱们都没发现。
比方有一位留言者回忆起自己读大学的时分,他的室友成功修正了维基百科词条,说自己是网球的发明者。在这之后,有一些文章和书本在征引资料时,就真的将此人视为网球发明者……
当然,这种恶作剧并未给篡改者自己带来直接利益,更多的人或许安排会使用词条来获取商业利益。
「假如你对维基百科满足了解,就会发现这儿面充满了政治、个人成见、SEO 内容、学术广告等等。比较其他,IT 范畴的词条内容质量还算能够的,由于这个范畴的人都通晓计算机(emmm 这么说如同上世纪 90 时代的说法),他们一般都会查看来历或许屏蔽废物内容。可是其他科学范畴的词条会更糟糕,充满着许多的无用内容。」
这位留言者以为,在现实正确性和清晰度方面,维基百科乃至还不如高中教科书,更不能和正规的百科书本混为一谈。
早在 2005 年,《Nature》就曾对维基百科和代表传统百科全书的《大英百科全书》各自全书间的 41 篇科学内容做过查询,最终得出结论,在科学文章这一范畴,维基百科与《大英百科全书》有着类似的精确度,但两者在内容上都有某些特定的程度上的「严峻缺失」。但至少,《大英百科全书》无法让恣意一个人「自在修正」。
有一位留言者说到,他最近听说了一种针对维基百科词条优化的「收费服务」,费用大概是 600 美元或许更多,或许让你具有、编撰维基百科的词条,一起及时修正其他任何人所做的修正。你还能够使用这项服务编撰支撑或对立某个人/观念/安排的文章,然后发布相关报导和文章作为参阅来历。
这类工作在其他范畴也常常发作,一位留言者是信号处理范畴的研讨者,他指出,许多页面上的参阅文献和办法都不是最新技能,并且内容也经常犯错。假如命运好,你或许还会为难偶遇自己的搭档在维基百科上「大吹大擂」。
他还说到了一个不算 ML 范畴但也很有意思的事,2007 年的 Asilomar 大会上,他遇见了 James D. Johnston,James 从前担任微软音频工程师,此前在 AT&T 贝尔实验室声学研讨部工作过。
其时 James 在会上宣布了一篇标题为《感知音频编码的发展史及时间线》的正式论文。James 说他写这篇论文的原因,其实是由于维基百科页面的过错。每次 James 企图更正维基百科页面的时分,都会被问「您对此了解多少?」,然后每次都会被拒。
现在,在维基百科上共有超越 110 万个词条。除学者之外,许多公司和安排都有投入资金和精力在维基百科上修正对自己有利信息的状况。尽管从长远来看,人们总是会倾向于阅览真实有价值的内容,但代表特定利益的内容总是令人难以承受的,并且有时分它们还会停留在网页上很长一段时间。
看来在查找重要内容的时分,咱们还需要愈加谨慎,至少要使用不同的信息来历进行一些比照。在这方面,你有更好的办法吗?
参阅链接:
https:///r/MachineLearning/comments/fhveru/d_researcherprofessor_possibly_using_wikipedia/
本文为机器之心报导,转载请联络本大众号取得授权。
------------------------------------------------