用大数据处理文字,他让计算机协助人类来办公|向上向善好青年
2020-05-06 青年

受访者/图

青年报·青春上海记者 郭颖/文 吴恺/图(除署名外)

酷爱阅读的陈运文常笑言自己的名字就已注定与文字为伍的“宿命”:“运文,运文,运用文字。”

随着人工智能、大数据、云计算等技术的蓬勃发展,越来越多科学家将创新成果转化,从单一的学者成为科学企业家,达观数据创始人陈运文便是其中之一。五四青年节来临之际,在共青团中央公布的2020年“全国向上向善好青年”名单中,他荣获了“创新创业好青年”称号。

让计算机协助人进行文字自动化阅读理解

达观数据做的是让计算机协助人进行文字的自动化阅读理解、分析写作等工作,使各行各业的从业者从繁重的文字处理当中解脱出来。

如何让计算机对文本数据进行挖掘分析?陈运文用“632,127,4.9”这3个数据,来解释“数字背后的语文含义”。“这3个数字单独看,不知其含义,其实632米是上海中心的高度,127是楼层,把它们相除,得出平均层高4.9米。”陈运文科普道,“我们把数字背后的含义进行理解,把数字和语义结合在一起,让计算机来解读,可以把繁琐重复的工作自动化。比方说,财务报表的分析很枯燥,通过训练计算机对财报的分析能力可以协助我们进行财报审核;在文章中找错别字,也是用数学的方式来解读语文,这就是日常工作中创新智能化的技术。”

2008年毕业于复旦大学计算机系并获得博士学位的陈运文,履历醒目:2008至2015年,先后在百度、盛大、腾讯等公司负责大数据研发和团队管理工作,研究大数据、人工智能及自然语言处理。

在百度的时候,陈运文主要负责百度搜索引擎的算法研发,因此能看到每一个网民在百度上的搜索行为数据。他发现,每年年底,“年终总结”的搜索量都能飙升到百度后台搜索量的前十名。这让陈运文萌发了一个创新的想法:能否开发一个系统,代替人来完成枯燥的文字写作工作?

2015年,陈运文与来自百度、盛大、腾讯、阿里等公司的核心大数据部门的管理团队,成立了大数据人工智能公司——达观数据。

陈运文是幸运的。他在一位盛大老同事的牵线下认识了真格基金的投资人,很快获得了1000万的天使轮融资,有了资金支持,他们就能放开手脚去做技术研发,尽快把产品推向市场。

眼下,陈运文创办的达观数据,累计融资额已超2亿元,刷新了中国自然语言理解领域的融资纪录,是中国文本处理领域累积融资金额最高的企业。

受访者/图

创新成果服务于各大企业和政府单位

陈运文在人工智能领域拥有丰富的创新成果,是复旦大学与上海财经大学聘任的校外研究生导师,也是QCon、CSDN 等技术社区的兼职讲师,在IEEE Transactions、SIGKDD、International Conference on Pattern Recognition等国际定级学术期刊和会议上发表了数十篇高水平科研成果论文。    

他的复旦博士毕业论文《形状识别与图像分割方法研究》中首先提出了一种称为Radon 组合透射特征的形状特征描述新算法,被上海市教委评为上海市研究生优秀成果(学位论文),是当年唯一一篇入选的计算机应用研究的论文。

通过技术创新研发,陈运文眼下已成功申报70多项国家发明专利,内容涵盖自然语言处理、推荐算法和搜索算法等众多创新性技术,并成功运用于金融、智能制造、政府、媒体资讯等领域。他带领团队将文本智能处理最先进的科研成果率先实现商业落地,产品入选中国人工智能产业发展联盟首批人工智能年度优秀案例,编选进《人工智能浪潮》图书。

“我们利用先进的自然语言理解、自然语言生成、知识图谱等技术,为大型企业和政府客户提供机器人流程自动化(RPA)、文档智能审阅、垂直搜索、智能推荐、客户意见洞察等智能产品,大幅提高企业效率。可以预见,十年后将有超过50%的基础性办公工作由机器人流程自动化完成。”对于未来,陈运文踌躇满志。

青年报·青春上海记者 郭颖/文 吴恺/图(除署名外)

编辑:梁文静

来源:青春上海News—24小时青年报

返回上页 回到首页

青年报社 版权所有

广告热线:021-61173717 | 违法和不良信息举报电话:021-61177819 / 61177827 举报邮箱:services@why.com.cn    测试版