社区所有版块导航
Python
python开源   Django   Python   DjangoApp   pycharm  
DATA
docker   Elasticsearch  
aigc
aigc   chatgpt  
WEB开发
linux   MongoDB   Redis   DATABASE   NGINX   其他Web框架   web工具   zookeeper   tornado   NoSql   Bootstrap   js   peewee   Git   bottle   IE   MQ   Jquery  
机器学习
机器学习算法  
Python88.com
反馈   公告   社区推广  
产品
短视频  
印度
印度  
Py学习  »  机器学习算法

【他山之石】基于深度学习的网络语言规范智能把关模式

赛立信媒介研究 • 3 年前 • 102 次点击  

 
导  读

应用人工智能技术建立智能规范模式的探索,为网络语言规范治理提供一种新的思路与手段。

“网络语言实际上会对语言安全、文化安全、意识形态安全带来负面影响,需要高度警惕。”[1]网络语言规范不仅是语言生态文明的治理范式,也是国家发展战略的文化需求。目前对网络语言规范的研究大多是思辨式的讨论,缺少可以用于治理的管理模式和技术手段,本文尝试应用人工智能技术建立网络语言规范智能管理模式,以供网络语言规范的社会治理使用。

网络语言规范治理与人工智能应用

网络语言是指从网络中产生或应用于网络交流的一种语言,包括中英文字母、标点、符号、拼音、图标(图片)和文字等多种组合。这种组合往往在特定的网络媒介传播中表达特殊的意义。网络语言产生于20世纪90年代初,网民们为了提高网上聊天的效率或诙谐、逗乐等特定需要而采取的方式,久而久之就形成特定语言了。进入21世纪的二十多年来,随着互联网技术的革新,这种语言形式在互联网媒介的传播中有了极快的发展。目前,网络语言越来越成为人们网络生活中必不可少的一部分。但是由于部分网络语言并不符合我们现代汉语的语法规定,因此并不具备教学意义,教育部门规定网络语言不能引进教学领域。传统媒体也对网络语言使用进行限制。
有学者认为,网络语言“是一种特殊的言语现象,也是一种社会现象、文化现象,语言学尤其是社会语言学应当重视它,研究它,不能视而不见,或者简单地予以排斥”。[2]那么,网络语言到底是一种什么样的语言呢?它是不是一种独立形态的语言呢?学界众说纷纭,有人认为:“虽然网友们在网上聊天的语言称不上是一门新的语言,它确实已经有了自身鲜明的特点,可以说是一种新的社会方言。”[3]也有人认为网络语言是一种全新的语言模式。[4]
网络语言也是网络文化的产物。“伴随计算机传播媒介而衍生的网络语言是一种典型的青年亚文化现象,它的创制和使用既体现了青少年网民的生理—心理特征,同时更为重要地反映出亚文化与主流文化之间暧昧复杂的结构性关联,它们之间既对立又有着潜在一致性的辩证关系决定了创制网络语言的两种方式,即拼贴与同构。”[5]网络语言由此引发种种网络乱象,如网络语言暴力、网络谣言等会扰乱网络社会秩序,会引发群体性危机事件。各种不规范的语言行为对网民心理和网络安全产生影响,这些都会涉及网络法规和伦理道德,需要加大网络社会治理,而网络语言规范和治理则是其中重要的一部分。由此可见,网络语言已经广泛渗透到人类社会的各个角落,从学习到生活再到工作。笔者认为,对网络语言的研究应该提高到一个战略发展高度,有必要建立网络语言学,运用多学科理论和视角来系统研究网络语言。而在当下,网络语言规范与治理恐怕是当务之急。
“语言文字事业具有基础性、全局性、社会性和全民性的特点,事关国民素质提高和人的全面发展,事关历史文化传承和经济社会发展,在国家发展战略中具有重要地位和作用。”[6]我国对语言文字有相应的法规进行规范,如《国家通用语言文字法》《国家语言文字工作委员会语言文字规范标准管理办法》《国家中长期语言文字事业改革和发展规划纲要》等, 2017年国家新闻出版总局就印发《关于进一步加强网络视听节目创作播出管理的通知》,明确规定:各类网络视听节目必须规范使用国家通用语言文字。不得使用不规范的网络语言和错词别字。[7]“语言本身的不规范现象,指的是网络中使用的字、词、句等语言成分打破了既有的中国语言文字系统规则,以及不遵守语言法规、规范和标准。”[8]然而,网络语言是一种社会语言,传统的语言文字规范不一定适用,因此,网络语言治理需平衡“放松管理”与“过度管理”的关系,根据网络社会现实进行“适度管理”。如何管理?科技发展为网络语言规范提供“把关”的技术手段。人工智能和深度学习使得机器可以应用于网络语言规范管理,“数据呈现多源异构,传统机器学习的表征学习性能不佳,深度学习逐步代替传统机器学习实现深层表征学习”。[9]利用深度学习技术的高弹性、灵活性及可用性,对网络语言进行多层面的内容把关,而这一智能管理模式将为网络语言的社会管理提供有力的技术支持。

基于深度学习的

网络语言规范智能管理模式 

1.建立生态语言学视域下的网络语言语料库
“网络语言是语言生态环境下语言多样性的体现。”[10]网络语言因应网络而产生而发展,“自由创造、使用和传播,但使用中约定成俗”是其典型特征。“网络语言不再作为单一的网络术语而存在,它以实时或相对延时的形式,以文字、数字、字母和符号为主要载体,存在于具有共享性与开放性的网络聊天室、网络社区、博客中,是网络语言中最为活跃和网民们约定俗成的表达方式。”[11]2014年,我国第一部全面贯彻《通用规范汉字表》的语文词典《现代汉语规范词典》再版,其中收录了诸多网络流行词,如“吐槽”“失联”“正能量”等,而一些不符合语法规范生造的缩略形式的网络热词没有被收录,仅少数网络语言能够进入主流媒体。多样性的网络语言的规范需要制订明确的标准体系,因此,首先根据国家汉语语言规范标准,建立大规模网络语言语料库是网络语言规范的基础与前提。因应网络语言的快速发展,我们首先要建立当下流行的网络语言语料库。
大规模语料库的平台建构可从生态语言学视域中的多层次研究路径入手,对其进行宏观的系统性分析研究。“对积极的、有利于网络语言生态环境形成的语篇进行定性或定量分析,分析其概念意义、人际意义和语篇意义的具体特征,系统凝练出有利于网络语言生态文明建构的语篇特点。”[12]在生态语言学的视角下,从具体的词汇、语法、章句的微观,到语境的语篇意义、概念意义、人际意义等的中观,再到社会、文化等宏观的网络语言生态环境进行多层次的深入研究,为网络语言规范制定全面而具体的标准体系提供参考。
2.多模态的网络语言语义语境的自动匹配
网络语言不只是变异字、生僻字等语言符号的呈现,标点符号、数字谐音、表情符号、视频、图像等多模态的表现形式体现了网络语言多样性的特征。基于大规模网络语言语料库的标准,对于失范用语、非规范的网络语言可以进行分类与识别。基于深度神经网络的模型可以自动学习网络语言的深层表示,对文本、图像等多模态信息特征提取,进行多模态融合模块建构,包括模态间信息交互模块、模态内信息增强模块的信息传播。使用深度学习模型对于文本、视觉、声音等多元异构数据的深层特征的数据体,进行自动学习与深入学习具有极大的优势。网络语言使用需要语义语境的界定,满足网络空间交际场景的不同需求,加强全民语言对网络语言的引导示范作用。如“逼格”“V5”“YYDS”等,在特定行业领域作为一种具有正向意义的网络语言在使用,但在其他场景是不规范用语。人们进行信息检索、使用语言及语义理解天然具有偏好的特征,因此,可以利用语义语境进行自动匹配。针对文本相似性度量进行匹配的任务,“主要通过生成基于WordNet的知识学习生成任务引入语言学知识,并与外部任务进行联合训练”,[13]提高文本匹配性能。此外,利用语言偏好信息进行双边匹配任务,“语言偏好信息下稳定匹配的定义和稳定匹配约束条件,通过将双边主体的语言偏好信息转化为匹配满意度,在考虑稳定匹配约束条件的基础上,以最大化每方主体的满意度为目标,建立双边匹配模型”[14]。通过网络语言语义与其所处的现实语境进行匹配,为最后的内容识别提供依据。
3.网络语言中不规范内容识别与检测
随着社交媒体的飞速发展,人际传播、大众传播、网络传播等融合传播是势不可挡的传播现状。在网络语言中存在大量语言暴力、低俗语言以及各种随意拼贴的不通用的语言等不规范语言内容,特别是在社交平台的评论中,针对某一事件或某一人物,出现长期或短时的大规模暴力、低俗语言现象,甚至会延至线下,对社会造成不良影响,影响公共事件进程。另外,比如,有关政治术语和敏感词的网络语言,基于意识形态和文化安全的考量,都是属于规范治理的内容。因此,社交媒体的网络语言规范化管理同样需要重视,并加以监督过滤与引导。因为社交评论数量的大数据特征,构建初始数据集,采用Python程序进行数据清洗,应用深度学习分类模型建立网络语言分类样本集,经过清洗标注后得到网络非规范用语小样本数据集,选择不同的分类算法选取最优模型,进行内容识别与检测,以可视化形式呈现。在选择分类模型时可以比较选择,如长短期记忆网络(Long Short-term Memory,LSTM)是“深度学习中针对股票、文本这样的序列数据提出的模型,很适合用来解决文本分类问题”[15]。传统二分类法是初级分类,进一步使用细粒度情感分析对网络暴力、低俗用语中的每一层级再做细致分类,探析成因、影响因素、事件节点等多维度的影响要素及结果,从而更有针对性地进行评论语言网络空间净化,引导网络语言正向发展与传承。
综上所述,我们可以建立起网络语言规范智能把关模式,基本原理和流程如下页图1。


网络语言规范与融合创新发展

科技赋能助力网络空间治理,而网络语言治理是一项长期的复杂的社会系统工程。在当今网络社会中,大众传播、组织传播、群体传播、人际传播等融合传播,愈发模糊传播边界。因此,本研究并未严格区分传播类型,尤其是因应社交媒体所产生的社会影响,将大众传播、群体传播、人际传播等产生的网络语言规范治理把关模式作为本研究重点,利用深度学习技术方法与应用建构内容分类、内容识别、语义语境自动匹配等模式。在进一步的研究中,可以将包括政府、社区、社会组织、网络媒体、个人等主体作为具体的研究对象进行细化分析,进行多层次的治理模式探析,建立健全科学化、规范化、标准化的评估机制和指标体系。
同时,机器学习、深度学习等技术与应用在不断更新变化,能够解决问题的应用方法也愈发多样,因此,发现问题是关键,能够及时跟踪、评价、反馈和及时调整规范治理体系。深度学习能够高效地学习异构数据特征之间的交叉信息,如Deep FM的模型架构,可用于点击率(Click-Through Rate,CTR)预测。因此,在进一步的研究中,通过深度学习模型应用于网络新词、热词的排行榜、使用率的预测,可作为网络语言规范推荐与引导的利器。此外,随着智媒场景时代的到来,万物皆媒、人机共生、自我进化的特征催生媒体变革,要处理好技术的科学逻辑与人文伦理的关系,更要确立主流价值观引领智能传播的观念,建设多种治理引导传播机制,推动网络社会健康有序新发展。
“作为一种历史必然性出现,人们呼吁语言满足社会对它的要求,它反映了社会状况,并为社会的进步做出了积极贡献,这是语言与社会之间的辩证关系。”[16]网络语言是独特的网络文化,随着互联网的飞速发展与社会影响,其仍在不断创新变化中,成为中国文化软实力不可分割和难以忽略的一部分,“强国必强语”。文化软实力集中体现了一个国家基于文化而具有的凝聚力和生命力,以及产生的吸引力和影响力。伴随网络语言的发展对语言文化的影响,语言与文化的影响相辅相成,尤其是外来语及不同文化的语言词汇,也加入本土语言传播中对传统文化带来冲击,“食洋不化”、肆意扭曲,语言文化规范问题事关重大。当前“网络空间与现实空间深度融合,网络问题向政治、经济、社会、文化等领域传导渗透,成为影响各国主权、安全和发展及国际关系调整的重要变量”。[17]在新网络安全理念下,网络语言的问题已是社会问题。作为“精神家园的互联网”所产生的传播力与影响性,尤其是网络失范用语对青少年容易造成不知本义、张冠李戴、错误认知的负面影响,这是亟待解决的文化危机。因此,我们要持续推进“中国语言”的文化力量,夯实国家文化软实力的根基。“创新是媒体融合发展的强大动力,规范则是网络语言承载健康内容有效传播的根本保障。”[18]在人工智能赋能网络语言治理的同时,还须提高全民网络语言素养,通过政府积极的教育引导,促进公民网络用语规范意识的提升,推动网络语言规范治理体系构建。
【本文为教育部人文社会科学研究项目“网络视频‘青少年防沉迷系统’的优质内容体系构建及智能把关模式研究”(编号:20YJA860011)、中央高校基本科研业务费专项资金资助“基于情感分析的公众网络舆论正向引导机制研究”(编号:HIT.HSS.201845)阶段性成果】

参考文献

[1]成丕德.净化网络语言[J].新闻战线,2018(12).

[2]郑远汉.关于“网络语言” [J].华中科技大学学报 (人文社会科学版),2002(06).

[3]邝霞,金子.网络语言——一种新的社会方言[J].语文建设,2000(08).

[4]毛力群.网络语言:一种全新的语言模式[J].浙江师范大学学报,2002(06).

[5]肖伟胜.作为青年亚文化现象的网络语言[J].社会科学研究,2008(11).

[6]教育部国家语委.国家中长期语言文字事业改革和发展规划纲要(2012-2020年).

[7]总局进一步加强网络视听管理 强调价值取向、语言规范、统一管理、主体责任[J],广电时评,2017(06).

[8]张黎.网络语言,到底该规范什么[N].光明日报,2019-07-13.

[9]刘华玲,马俊,张国祥.基于深度学习的内容推荐算法研究综述[J].计算机工程,2021(07).

[10]梁海英.从生态语言学视角研究网络语言[N].中国社会科学报,2019-12-10.

[11]高莹.语言文化学视角的俄语网络流行语发展与规范[J].现代交际,2021(03).

[12]梁海英.从生态语言学视角研究网络语言[N].中国社会科学报,2019-12-10.

[13]周烨恒,石嘉晗,徐睿峰.结合预训练模型和语言知识库的文本匹配方法[J].中文信息学报,2020(02).

[14]张迪,孙涛,陈晔,万良琪.基于语言偏好信息的稳定双边匹配决策方法[J].运筹与管理,2019(02).

[15]洪巍,李敏.文本情感分析方法研究综述[J].计算机工程与科学,2019(04).

[16]高莹.语言文化学视角的俄语网络流行语发展与规范[J].现代交际,2021(03).

[17]全国干部培训教材编写指导委员会组织编写.全面推进中国特色大国外交[M].北京:人民出版社,党建读物出版社,2019:193.

[18]任静,其其格,张洪霞,刘东.新媒体时代网络语言的吸纳与规范[J].中国广播,2016(05).



(谭天:广州华商学院特聘教授、暨南大学教授;司峥鸣:哈尔滨工业大学副教授)【文章刊于《青年记者》2021年第15期】


转载于:青年记者丨作者:谭天、司峥鸣

    特别声明:本文仅代表作者个人观点
责编: 李倩宇   | 审核:佘晓珊
往期推荐
【他山之石】基于媒介进化视角的网络语言问题与治理
【他山之石】扩界、出圈、适配:体育新闻融合创新路径
【他山之石】后人类时代新闻传播教育的新内涵
【他山之石】新发展阶段新闻内容的供给侧改革
【他山之石】新媒体时代做好党报调查报道
【他山之石】融媒时代的视觉设计创新
【他山之石】图像媒介与东北早期马克思主义大众化传播
【他山之石】没有分寸感,或是言说的灾难

END


Python社区是高质量的Python/Django开发社区
本文地址:http://www.python88.com/topic/118912
 
102 次点击