基于自然语言处理和机器学习的文本分类note1

2018-02-10 21:04:21 一兒口山石

先行条件：有高速的计算机，先进的体系结构，精湛的制作工艺，高速的处理器，延迟的不断减少，带宽容量不断增大，成本不断降低的内存；信息的存储有海量高保真的各种存储设备。

应用场景：图像处理技术帮助医务人从医学影像中获得更多有价值的知识帮助诊断，数据挖掘在金融领域帮助从业人员从已有的股票数据中获得某种模式，分析影响走势的因素等等。

文本分类是文本自动分类（ATC Automated Text Classification）的简称，是指用计算机程序自动确定指定文档和预先指定类别的隶属关系。比如指定一篇文档属于体育类别，或者属于有音乐类别，政治类别等预先设定好的一个或多个类别。

历史上出现了两种研究体系来解决文本分类问题。一种是基于规则的方法，文本分类任务作为一种特殊的专家系统出现。具体而言，就是由专家根据自己的先验知识，制定很多用于分类文本的规则。用此类规则去计算文本应属于的类别。这样的方法显然缺陷很明显，首先在于规则的制定是非常困难和难以检验的，从某种意义来说，这甚至比让专家自己去分类文本代价还大。另一种现在普遍使用的方法是学习的方法。在准备输入学习机器的向量时会结合到自然语言处理的方法，把文本表示成向量。这是机器学习和自然语言处理的一个很好的应用。

在第二种学习的方法中，文本分类一般存在两个阶段完成。第一阶段是文本的处理。把文本表示成第二阶段进行分类计算所需要的向量形式。第二阶段则是对这些代表文本的向量进行分类。

第一阶段三个步骤：1.文本预处理指的是把文本转化为原始特征空间中元素的序列。换句话说，这一步主要的工作就是分词。2.特征降维指的是对在经过预处理的这些序列的词语进行空间进行降维，即减少要用来表示文本的特征的数量，以降低计算的代价同时去掉对于表征文本特征不重要甚至起反作用的词，提高整个分类的效果。3.最后一步就是按照确定的这些特征项的一种度量，计算文本在这些特征上这些度量下的值，最后形成文本的向量。

分享到:

閱讀更多 一兒口山石 的文章

關鍵字: 音乐带宽专家系统

我来数科：数字经济时代到来，金融业正迎来重大机遇

4.1亿！又一“AI新贵”拿下E轮融资！

黑马+硬核！百融云创深化AI研发应用，加速智能金融创新转型

03.04 黑马+硬核！百融云创深化AI研发应用，加速智能金融创新转型

2020：人工智能+金融风控领域面临的机遇与挑战

02.26 2020：人工智能+金融风控领域面临的机遇与挑战

B轮获投4亿元“创新奇智”用AI技术服务企业成立两年融资近10亿

11.25 人工智能语言服务商传神语联冲刺科创板

华夏银行ESG理财产品规模破百亿正在构建ESG数据库

06.14 爱奇艺董事会调整：陆奇退出，王海峰等进入

三峡水利重组获有条件通过整合区域电网推动电改

证券时报e公司讯，4月15日晚间，三峡水利发布公告，根据证监会并购重组委会议审核结果，三峡水利此次重大资产重组事项获得有条件通过，该公司股票自4月16日开市起复牌。

翠屏区统筹推进抗击疫情期间招商不断链

四川新闻网宜宾4月15日讯近期，翠屏区经济合作和外事局为应对疫情带来的相关影响，多措并举统筹推进抗击疫情期间招商不断链。

年内净息差恐整体收窄定存利率难现逆势上涨

近期，监管层通过定向降准、降低负债端综合成本等方式屡屡出拳，意在引导银行加大对实体经济的信贷支持，合理引导全社会融资成本下降。

39家基金公司业绩曝光平均净利润4.17亿

据证券时报记者统计，目前已经有39家基金公司去年经营情况浮出水面，去年平均净利润4.17亿元。业内人士表示，伴随着行业发展越来越成熟，行业龙头的地位越来越稳固，越来越多的优秀人才涌进行业龙头公司，这些公司也受到市场追捧，而小型基金公司面临发展困局，弯道超车的难度越来越大。

四川印发《优质白酒产业2020年重点任务》：力争酿酒专用粮基地建设超100万亩

五粮液酿酒专用粮基地4月13日，记者从四川省经济和信息化厅获悉，根据2020年全省优质白酒产业振兴发展推进会精神，近日，四川省印发《优质白酒产业2020年重点任务》。

全面提升和保障白酒质量四川省酒类产业计量测试中心落户泸州

4月9日上午，四川省酒类产业计量测试中心揭牌仪式在泸州举行，这是四川省首家通过验收的产业计量测试中心。

今年泸州加快推动47个酒类重点建设项目，力争白酒营业收入突破1000亿元

4月14日，泸州日报记者从市酒业发展局获悉，今年，我市将加快推动总投资1721.74亿元的酒类重点建设项目47个。

我炒股遇到的大坑

这男的边哭边说，我哭的不是这个，我哭的是自己三四十岁的人，还在为一两茶叶半斤小米这点小利折腾，感觉自己太失败。

投资医药股的“锦囊妙计”

欢迎关注“红星资本局”公众号这段时间，医药股涨势如虹，今日，在上证指数微跌的状态下，居然有红日药业、以岭药业等17只医药股涨停，这段时间，医药股成为市场最大的热点，接过了科技股的接力棒，蹭蹭地往上涨。

“我会一直在”！汉堡王中国称与破产的新西兰公司不是同一加盟商

4月15日，汉堡王官微在此事刷屏后，还发布了一条“I‘mfine thank you and you”内容，并借用网上流行语称“小朋友你一定有很多问好”。

美年健康收到关注函，借壳上市以来首亏，还剩41亿元商誉安全吗

关注函披露，2019 年 10 月，监管部门曾在半年报问询函中问询美年健康未计提商誉减值准备的原因和合理性，该公司答复称“下半年整个行业环境仍然良好，公司预计能较好的完成 2019 年年初预算指标，实现承诺业绩，未发现明显的减值迹象”。

上汽集团营收利润双降董事长降薪近20%

《电鳗财经》赵超/文2018年下半年以来，汽车行业持续遇冷。全年国内市场销售整车2590.5万辆，同比下降8.0%;其中，乘用车销售2154.9万辆，同比下降9.1%，商用车销售435.6万辆，同比下降2.2%;新能源车市在购置补贴退坡后也出现阶段性调整，全年销售120.4万辆，

孙正义跌下神坛！软银利润暴跌99%，领投的2家公司均已破产

不仅公司利润暴跌99%，连他领投的两家公司都已经宣告破产。本来以为今年能够好一点，谁成想又被领投的两家公司给"坑"了，真是流年不利。

疫情期间盒马速度不减，一个月内开出6家新店！

疫情下大量餐饮门店降速发展，盒马鲜生却是速度不减，一个月内连开6家新店。疫情期间，盒马一直坚持线上线下同时营业，并积极拓展新的线下场景，尽全力满足消费所需。

掏空式分红！上市前百亿分红、财务数据打架，如今股价却超260元

近期，伴随着海底捞复工后涨价遭网友“讨伐”的同时，海底捞张勇身为新加坡首富的宝座也被人夺走了，新晋的新加坡首富是A股创业板“一哥”、国内最大医疗器械龙头迈瑞医疗的实控人、董事长李西廷。

这家大型券商APP遭吐槽，一家公司运行两套交易系统！升级策略也遭质疑：热衷添加边缘功能

“一家券商两个交易系统登录，这叫什么重组？”日前，有个人投资者在股吧发帖吐槽，自己在交易的过程中，发现申万宏源软件中包含原申万和原宏源两套交易系统，导致自己账号被冻结并遭遇投资损失。

资本动物世界里的「做空」简史

浑水的创始人Block 在 The China Hustle 这部纪录片中，聊到了为什么把自己的公司起名为「浑水」，水至清，则无鱼，「中国人用『浑水摸鱼』比喻利用混沌不明的局势赚钱。

原公司法定代表人拒不配合工商变更，拒不返还公司公章，怎么办？

私信或评论区咨询法定代表人基于法律的规定代表着公司。在公司权利能力和行为能力范围内，原则上可以在公司一切对外事务中代表着公司。

净利润环比暴增3659%！预盈预增概念，还有100%上涨空间？

工程承包及建筑装饰;建筑装饰材料、钢材、木材、机电设备、黄金及矿产品销售;房屋租赁;在法律、法规规定的范围内对外投资。二.热点个股解读：600766业绩增长：年报公布净利润环比3659%.概念题材：贵金属黄金概念壳资源融资融券山东板块经营范围房地产开发及经营、物业管理

会计要记住：这样筹划税收万万不可！看看这10种方式

方式一：公司为了让股东少交甚至不交分红的20%的个税，让股东从公司以借款名义拿走巨额的分红，会计挂账在“其他应收款-自然人股东”中。方式二：公司为了少缴25%的企业所得税，把取得的收入人为挂账在“预收账款”科目中，隐匿营业收入。

棉花周度策略分析

国内下跌主因是前期涨幅过大，国内外棉花差价不断扩大，即时国内有纺织订单不断增加的事实，但随着棉花价格上涨，采购开始谨慎，新疆籽棉收获接近尾声，棉花上涨驱动籽棉收购价格.上涨的螺旋上涨难以持续，并且ICE 棉花涨幅一旦跟不上国内内涨幅，压力自然产生。

打造航母券商中信和中信建投合并或引爆行情

【打造航母券商中信和中信建投合并或引爆行情】今天市场的最大亮点就是午后券商股的发力，市场的人气还是要靠科技和证券来打，早盘科技股有表现，但是经过这两二个月科技股的回落，大家对于科技股的追捧热情早就没有了，甚至很多人开始不相信科技股的未来了，所以科技股的上涨，对人气的贡献度并不大

揭秘——主力资金怎样一股力量？数据告诉你这股力量有多强大

4月14日，主力资金净流入131.45亿元，当日上证指数上涨1.59%，创业板指大涨3.24%，。与之相对的是，4月10日，主力资金净流出507.72亿元，当日上证指数下跌1.04%，创业板指下跌2.37%。

A股修复行情还没结束！股民注意，别“漏”了这2个积极信号

昨天晚上美股大幅上涨，但我们今天低开低走，下午大盘直接跳水，今天一跌，可能很多朋友又在担心，行情是不是要结束了？

涨价概念还是市场的方向

可以交易行业板块医疗保健、农林牧渔、建材、、食品饮料、商业连锁、医药、工程机械、纺织服饰、造纸、酿酒市场交易环境上证指数交易环境 ☆☆☆ 压力位2828支撑位 2756创业板指数交易环境 ☆☆☆压力位1967 支撑位 1892 ETF基金游戏代码510500 500ETF

涨停板学深度教程 11：关于市场资金量的大局观

理解资金关系是市场根本，抓住资金这个根本，才能洞悉市场的一切行为和涨跌关系炒股最核心和根本的分析就是资金。

广州，太平洋电脑城，你为什么不早点转型

随着11月15日广州市天河区农村集体资产交易中心公告一则中标公示，太平洋电脑城A场也宣告易主。这是继今年2月28日广州太平洋数码广场B场宣告结业后，被称为“太平洋电脑城”的A场也即将退场。

15热点追踪

附最近几日暴跌妖股，最近几日暴涨妖股。暴跌妖股再次提醒，妖股技巧在仓位管理，不是技术也不是心态的博弈。

你领到消费券了吗？即日起至6月30日遂宁拟分期投放1亿余元消费券

日前，记者从市商务局获悉为统筹做好全面夺取疫情防控和经济社会发展双胜利遂宁市拟分期投放10095万元消费券助推经济复苏市民得实惠政府企业送“礼包”“我们三个闺蜜逛街，到饭点了就直接在万达三楼吃了点东西，总共费用是130元，我们在网上参加了万达的抢券活动，抢到了50元的餐饮券，加上

小米集团战略入股TCL,强强联合提升大家电供应链能力？

宣布小米集团战略入股TCL集团。TCL表示，此次入股有利于加深小米和TCL两个产业集团的合作深度，构建更为紧密的战略合作伙伴关系。

全球富豪榜出炉：中国猪肉生产商占两席；马化腾马云并列中国首富

中国网科技4月7日讯昨日，胡润研究院发布《疫情两个月后全球企业家财富变化特别报告》（以下简称《报告》）显示，全球百强企业家近两月财富损失2.6万亿人民币，即13%，蒸发了过去两年半所创造的财富；前十名损失1.4万亿人民币。

戴德梁行：短期承压商办市场回暖在望

实体零售遭遇遏制转型升级助力市场焕发生机2020年一季度，北京零售市场优质零售物业总存量为1 219万平方米，占比达86.3%。 412万平方米，其中购物中心存量达1

穗一季度吸引投资额近1.4万亿元

4月14日，在广州第77场疫情防控新闻发布会上，广州市商务局副局长吴尚伟公布了最新的招商引资成果：广州一季度签约、动工、投产项目超800个，涉及投资总额13899.64亿元，预计达产年产值/营收10902.72亿元。

一季度广州签约动工投产亿元以上产业项目超800个

记者14日在广州市政府新闻办举行的发布会上获悉，一季度广州签约、动工、投产亿元以上产业项目超800个，涉及投资总额13899.64亿元。

4月15日9:45，央行宣布降息，拆叔速评

早上9点45分，中国人民银行宣布1000亿中期借贷便利MLF操作，并下调中标利率20个基点至2.95%，此前为3.15%。此前在3月31日，央行已经率先下调逆回购利率20个基点。

叶檀：中国发达城市都应该来抄抄上海的作业

文/叶檀☞财经女侠 | 毒舌善心三年之后，上海是怎么样的，长三角是怎么样的？三年之后，哪座城市年轻人多，哪座城市房价高，这样的比较毫无意义。一切取决于，科技的发展。在上海的特斯拉会像当初富士康在东莞一样，需要百万名员工吗？不要。根据特斯拉和临港的规划，最多也就吸引1万多人。上海特

芒格：“所有聪明的投资都是价值投资”

图/视觉中国《财经》特约作者傅喻 | 文发自美国奥马哈2018年4月，经过半年思考，我给沃伦·巴菲特的老搭档、伯克希尔哈撒韦公司董事会副主席查理·芒格写了一封信，希望94岁高龄的他能够再度接受我专访。早在三年前，我曾经和芒格的助理商量过这个想法，但他助理认为，采访拍摄有诸多不便

三强两促力夺半年红｜鳌江落实“一项目一专班”制度，“保姆式”服务助力项目落地

日前，记者从鳌江镇获悉，该镇通过实行“一项目一专班”工作制度，为项目提供“保姆式”服务，完成了亲子主题教育商业综合体、滨江高等级酒店等2个项目的土地挂牌所有前期准备工作，助力项目加快落地。

朱是西会见中国长城科技集团股份有限公司河南分公司赵伟建一行

驻马店广电融媒体消息：4月15日上午，市委副书记、市长朱是西亲切会见了中国长城科技集团股份有限公司河南分公司执行董事、总经理赵伟建一行，双方围绕加强务实合作、推进项目落地驻马店进行了深入交谈。

兴嘉房开司举办“每周一课”，凝心聚力谋发展

4月10日下午，乐山城投集团下属兴嘉房开司举办了第一期“每周一课”学习活动。尤其是下一步小地块的项目开发，更让兴嘉房开司的年轻人兴奋不已，积极献言献策，希望能通过这些项目的落地，让兴嘉房开司真正实现凤凰涅槃。

@所有人｜今晚21:20 e修鸽邀您观看天津卫视《创业中国人》

从白手起家到独角兽企业联合创始人，从“独自打拼”到“带着团队拼杀商场”，在瞬息万变的商业战场中，总有一些人能够破思想之“茧”，乘改革之“风”，呈飞跃之“势”，用自己的节奏，从零开始把e修鸽旗帜插遍全国。他就是e修鸽联合创始人——胡海威。一生一世只做一件事，一生都会致力于做这样的事

曹德旺提示: 疫情过后可能会迎来全球产业链的去中国化

在采访过程中，新京报向曹德旺提出了多个问题。问题一：疫情暴露了当前全球化产业链存在的风险，待疫情退去，是否会造成全球产业链的改变。

【财经下午茶】申万宏源APP运行两套交易系统致股民账号被冻结

申万宏源APP运行两套交易系统致股民账号被冻结日前，有个人投资者在股吧发帖称，自己在交易的过程中，发现申万宏源软件中包含原申万和原宏源两套交易系统，导致自己账号被冻结并遭遇投资损失。

千城：您的企业值多少钱？

这是一个关于企业价值的话题，说到这里，一大堆专业术语从眼前飘过：MM理论、预期自由现金流现值、折现率、PE、PB、ROE…

千城：教你认识财务杠杆-成也萧何败萧何

度娘会告诉你财务杠杆的定义：财务杠杆又叫筹资杠杆或融资杠杆，它是指由于固定债务利息和优先股股利的存在而导致普通股每股利润变动幅度大于息税前利润变动幅度的现象。

【数据流】疫情中，你最关心什么？10大担忧，中国对比国外

No.1家人身体健康My family’s health不出所料，多数人都是最关心自己家人的健康，挣钱不就是为了家人可以健康快乐么？

漯河市科协邀请苏州客商考察我市医疗用品企业

4月15日上午，在漯河市顺康医疗用品公司负责人张红喜的带领下，苏州客商一行深入企业生产车间、物料车间及仓库进行实地参观，了解企业生产经营状况。

被疫情激活的人工智能，如何逐浪新基建

撰文/李季编辑/ 陈邓新4月7日，南昌三中义坊学校门口摆放了一台人脸识别测温机，复课的初三学生不用摘下口罩，就可以识别在校师生的身份及测量体温。

疫情过后，中国3月风投规模回升，是2月份的6倍多

据英国《金融时报》网站4月14日报道，根据《亚洲创业投资期刊》数据，中国初创企业和科技企业在3月筹集了超过25亿美元，是2月4.1亿美元的六倍多，创下纪录。

IMF：自上世纪30年代最严重经济大萧条！未来2年损失9万亿美元

2020年4月14日4月14日，国际货币基金组织在线上春季年会期间发布了《世界经济展望》，预测2020年全球增长率降至-3%，与1月的预测相比下调幅度高达6.3个百分点。

基于自然语言处理和机器学习的文本分类note1

相關文章:

我来数科：数字经济时代到来，金融业正迎来重大机遇

4.1亿！又一“AI新贵”拿下E轮融资！

黑马+硬核！百融云创深化AI研发应用，加速智能金融创新转型

03.04 黑马+硬核！百融云创深化AI研发应用，加速智能金融创新转型

2020：人工智能+金融风控领域面临的机遇与挑战

02.26 2020：人工智能+金融风控领域面临的机遇与挑战

B轮获投4亿元“创新奇智”用AI技术服务企业 成立两年融资近10亿

11.25 人工智能语言服务商 传神语联冲刺科创板

华夏银行ESG理财产品规模破百亿 正在构建ESG数据库

06.14 爱奇艺董事会调整：陆奇退出，王海峰等进入

三峡水利重组获有条件通过 整合区域电网推动电改

翠屏区统筹推进抗击疫情期间招商不断链

年内净息差恐整体收窄 定存利率难现逆势上涨

39家基金公司业绩曝光 平均净利润4.17亿

四川印发《优质白酒产业2020年重点任务》：力争酿酒专用粮基地建设超100万亩

全面提升和保障白酒质量 四川省酒类产业计量测试中心落户泸州