• 当前位置: > 生活资讯 > 正文>>

    飞车辅助吧解密“黑箱”:看看机器人到底怎么写新闻

    axa-minmetals.com.cn 时间:2018-08-08 19:54dnf私服
    解密“黑箱”:看看机器人到底怎么写新闻,机器人 新闻 算法

    (原标题:解密“黑箱”:机器人怎么写新闻)

    近两年来,国内外新闻业界和学界都在热议“机器人新闻”(Robot journalism)、“自动化新闻”(automated journalism)、“算法新闻”(algorithmic journalism)、“计算机生成内容”(computer-generated content,CGC)。还有预测称,“机器人生成内容”(CGC)很快将与“专业新闻记者生成内容”(PGC)以及“用户生成内容”(UGC)一起构成数字化新闻和信息的三大主体。那么,机器人新闻生产背后的逻辑是什么呢?

    所谓“新闻机器人”,实际上是一套软件或算法语言(algorithm),它自动采集数据,然后撰写成人类可读的内容。“算法”指包含一系列非常复杂的数学规则、能通过预先设定的步骤解决特定问题的计算机程序。

    机器人(算法)是如何生产新闻的?这个过程如一个“黑箱”,公众很难对之进行评判和监督。机器人新闻算法源代码的专利为谷歌专有,同时已被授权给包括“叙事科学”(Narrative Science)、“自动洞见”(Automated Insights)、“耶索”(Yseop)、“CBS互动”以及“未来幻象记者”(Fantasy Journalists)等公司使用。这些公司将谷歌的基础算法投入到具体应用中,因此对公众而言该技术的神秘性也逐渐降低。

    undefined

    为了增加公众对机器人(算法)生产新闻流程的理解,哥伦比亚大学新闻学院Tow数字新闻中心曾以“叙事科学”公司的机器人(算法)新闻为例,对其进行“解剖”。这个流程主要包括个5步骤:1.读入大量结构化和标准化数据;2.测量数据中的“新闻性”;3.找出合适的报道角度,如果有多个角度,则按照重要性排序;4.将报道角度与数据中的具体事实(storypoints)相匹配;5.生成报道文本。

    我们在此将以上五步详细解读如下:

    第一步,所有机器人新闻算法都需要先读入大量数据。因此,凡是数据丰富而“干净”(结构化和标准化)的领域(如天气和地震预报等)往往最容易开发出具有实用价值的自然语言自动生成系统。在财经报道和体育报道领域,由于数据较为“干净”,因此也是机器人新闻蓬勃兴起的领域。如今,随着传感器嵌入的遍在化,大量“干净”数据出现,因而催生了所谓“传感器新闻”(sensorjournalism)?,而传感器新闻可以被视为机器人(算法)新闻的初级版本。这也说明,机器人新闻是否可行,同时取决于数据的数量和质量。

    第二步,数据读入完成后,算法就开始测量数据的“新闻性”(newsworthiness)。一般而言,算法会挑出数据中最“反常”的方面,例如NBA赛事中的数据种类包括:得分总数、投篮命中率、三分命中率、罚篮命中率、篮板数、助攻数、抢断数、盖帽数、失误数、上场时间数、参赛场次数等等。算法会监测和比对历史数据,一旦发现“反常”,例如以上各数据种类中出现的“最高纪录”或“最低纪录”,或者在财经新闻中,股价或汇率变化高于或低于预期(无论这一预期是算法自己计算得出的,还是外部人员提供的),那么算法就认为此数据具有“新闻性”。

    第三步,在确定“新闻性”后,算法接下来就会找出报道该新闻的“角度”(angles)。这些角度实际上是人类记者事先已经确定好的报道框架,供算法选择。例如,对体育赛事报道的典型框架包括:“旗鼓相当的拉锯战”、“震撼全场的个人英雄主义”、“同仇敌忾的团队合作”和“后来居上的反击战”等等。算法在选择具体框架时,往往会参照前一步的“新闻性”特征。如果存在多个角度(框架),算法会结合“新闻性”给各个框架打分(1~10分),然后选择使用得分最高的框架。

    第四步,报道角度(框架)确定后,算法接着从数据中选择相关部分,即所谓“故事点”(storypoints),如球员名字、得分等,以支持该框架。算法还可以结合比赛场地、球员背景等信息,按照“接近性”原则优先或重点报道相关球员的表现,包括自动从数据库中检索该球员的照片并自动嵌入报道等等。

    第五步,对自动生成的新闻稿件从自然语言角度进行润色。这是技术含量最高的一步。“叙事科学”公司的算法会不断地回顾审读其所使用的框架以及相关的支撑性“故事点”,并将句子与人类自然语句相比对和替代。这一步的主要目的就是让算法生成的枯燥文字变得更加可读。有的算法(如“自动洞见”公司的算法)还会在报道文本的生成过程中加入随机因素,并且可以选择多种复杂的叙事语气(如“冷漠的”、“自信的”、“悲观的”和“充满激情的”等等)以让文本显得更多样。还有的算法(如“耶索”公司的)则能结合元数据(metadata),使得基础故事模板能够更加灵活,玩出花样,例如算法能根据主语的单复数而配套使用相应的动词形式,或者变换使用同义词,从而使文本读来不那么枯燥。

    数据经由以上复杂的算法处理后产出的财经和体育类新闻报道,大多数读者都无法将其与人类记者生产的新闻区别开来。这说明,尽管机器人新闻也许会让很多人从感情上难以接受,但只要这些新闻能满足我们的信息需求,纠缠“作者是机器还是人”这个问题也许意义不大了。

    undefined




    关键字 新闻 机器人 算法

    相关文章
  • 切水果游戏来了!2018年浙江高考作文题目揭晓!你会怎么写?
  • 一连卡盟什么是新闻?校园新闻怎么写?
  • 至尊卡盟新闻专业技术工作报告示例 李宜航:向思考型专业型记者转化
  • 单机游戏破解版下载环江供电局开展培训提高新闻写作水平
  • 洛克王国旋风辅助最新版北京理工大学新闻网稿件上传办法与规范(2017.4.27)
  • ps3中文游戏新闻宣传工作要主动适应新形势新要求(图)
  • 游戏名字情侣博展教您撰写纯正地道的英文稿件
  • 游戏开发河南省公安厅公布打击网络违法犯罪十大典型案例-地方新闻-时政频道-中工网
  • dd373游戏交易平台官网曝光:部队新闻报道员是怎样炼成的?
  • 麒麟游戏悟透头条写好稿


  • 相关图文
    4399小游戏大全女生dnf辅助装备任务完成方法
    4399小游戏大全女
    梦幻诛仙游戏开挂并不可耻 CF玩小刀的真实原因
    梦幻诛仙游戏开挂
    游戏外挂下载英雄联盟游戏主播直播使用挂机脚本 呼吁腾讯整治
    游戏外挂下载英雄
    网易宣布重拳流星辅助打击《荒野行动》外挂
    网易宣布重拳流星
    宫斗游戏《王者荣耀》如果有外挂,你会用吗?
    宫斗游戏《王者荣
    lol游戏加速器杀手游戏怎么玩?《推理学院》教你如何入门一款杀手游戏
    lol游戏加速器杀
    5173游戏交易平台原版蓝光光盘加国语配音加中文字幕及解说字幕保留弹出菜单傻瓜版教程
    5173游戏交易平台
    国王的勇士4修改流量变革来袭,盛天网络合作同桌游戏布局Game+产业链
    国王的勇士4修改

    ------分隔线----------------------------
    ------分隔线----------------------------