社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  Git

这个项目没有一行代码,却登上了 GitHub 趋势榜榜首

机器学习算法与自然语言处理 • 5 年前 • 451 次点击  
公众号关注 “ML_NLP
设为 “星标”,重磅干货,第一时间送达!

大数据文摘出品
作者:曹培信

截至 2 月 8 日 24 时,据 31 个省(自治区、直辖市)和新疆生产建设兵团报告,现有确诊病例 33738 例(其中重症病例 6188 例),累计治愈出院病例 2649 例(黑龙江核减 1 例),累计死亡病例 811 例,累计报告确诊病例 37198 例,现有疑似病例 28942 例。

谁都不知道这场疫情会持续多久,但我们都知道,我们正在亲历历史

相比 17 年前的非典时期,我们拥有更多的信息,留给以后来研究这一切的发生和结束,但是在这个微博热搜排行榜一分钟就能改变的时代,信息快速的出现、爆炸而又消失是常态。


我们需要一个地方,认真记录好这段时间发生的事情

最近,一个特殊的项目登上了 GitHub 趋势榜榜首。


项目名叫 nCovMemory,上线几天,已经有了超过 4000 星标,超过 500 Folk。值得一提的是,在这个项目中,你看不到代码,参与者们共同维护的,是一个个从疫情开始到现在不断更新的新闻报道链接


项目地址
https://github.com/2019ncovmemory/nCovMemory

广泛收录疫情相关资料,全部截图留存

这个项目收录了 2020 年新型冠状病毒感染的肺炎(2019-nCoV)深度报道和非虚构作品的地址、截图、存档。




项目作者们声明,这个项目的目的是建立一个方便广大网友及研究人士(如自然语言分析、疫情防治)取用相关资料的语料库,并无其他特别考量。

而在介绍中,项目的作者们更希望该项目能 “有助于理解疫情及其影响下的每一个人,并为观察内地传媒如何呈现这场疫情做初步的资料收集”。

所以在收录的范围上来看,项目选材比较广泛,如果资料详尽细致或角度新颖,且来自较可信赖的传媒,原则上均予收录,尤其重视对一线、基层(不只是最受关注的,而是包括各地、各群体、各行业)的非虚构写作和描述性报道,也收入摄影报道。

项目结构如下。


项目欢迎所有人参与贡献,除了不接受付费阅读的项目,还要求在建立一个完整条目时要包含四个要素:日期,原始 URL,archive,截图

为了防止链接失效,项目还提供了了截图的插件和链接,对文章内容进行截图留存。


目前该项目已经收录了三十多家媒体的数百篇报道,包括南方周末、三联生活周刊等,并且还对一些海外的报道进行了翻译和留存。

技术 + 媒体,记录不该被忘记的事

技术从业者们在用这样的方式,和媒体人一起努力,共同记录、保存历史。

无论是传统媒体,还是自媒体,作者们都不希望自己记录下的文字和影像只是昙花一现,便在信息海洋中归于沉寂,以后再也不会被发现。

这样的项目也为后人的查看提供了详细、完善整理的资料。当疫情后平静的世界再想研究这次疫情的发生、传播和结束,再想去系统的观察疫情中的医务人员、公务人员以及各行各业中的普通人的经历,都可以在这个地方找到丰富的资料。

项目的原作者是为了这个项目单独开的小号,我们不知道这是一位媒体人还是一位经常使用 GitHub 的程序员,但是在这个满是代码的平台上,不止这一个项目在用共享代码的技术,共享并保存着 2019nCov 的相关信息。


为了不让信息沉寂,“技术 + 媒体” 是很好的选择。

去年,端传媒主编张洁平在香港创办了区块链新项目 “Matters.news”,用区块链技术让内容永久保留、不能篡改,当内容 “上链” 之后,知识产权将会得到很好的保护,讨论也都将有据可查。


区块链是通过分布式记账的方式将数据信息记录在一个不可篡改的公开账本上,所有用户都能够享受到真实可靠的信息。这项技术不仅有助于文创行业确权、流通、追溯交易,对于内容生产、传播、以及内容变现、收益分享、内容监管等都有极大的促进作用。

通过区块链技术在媒体行业的应用,可以帮助创作者和投资人更快更好地实现价值的生态化创造和价值转化,这也是整个行业的突破点。

国外也有类似的项目,如 BM 创办的 Steem,作为一款基于区块链技术的内容激励社交网络,2016 年上线运行,最高注册用户数达 100 万。

17 年前,我们没有 GitHub,也不知道区块链是什么;17 年之后,我们记录了更多的内容,还有人在为了更好的保存这些内容在努力。

记录是为了不再遗忘,希望这次犯过的错误,下一个 17 年之后,我们不会再犯。


推荐阅读:

深度解析LSTM神经网络的设计原理

图卷积网络(GCN)新手村完全指南

论文赏析[ACL18]基于Self-Attentive的成分句法分析

Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/54787
 
451 次点击