活動丨運籌微信學術羣友交流精華語錄第四期

活動丨運籌微信學術群友交流精華語錄第四期

運籌學愛好者快點看過來在這裡一定會有你所感興趣的話題,讓你茅塞頓開。

在學習運籌學過程中遇到問題的小夥伴也要看過來在這裡你一定會有所收穫。

這裡還有大牛經典語錄以及學界、業界前沿動態定會讓你滿載而歸。

隨著由『運籌OR帷幄』建立的微信學術群的發展與壯大,越來越多的各界OR從業者和愛好者也加入進來,與大家一起聊學術和技術,為大家帶來了很多經典的、實用的想法與建議;也會跟大家閒聊一些名人軼事,帶大家在輕鬆的氛圍里長知識。

截止現在,我們的『運籌OR帷幄』微信學術群已經有10個,共計3500+人,群成員為全球華人Operations Research, Optimization, O.M., I.E., SCM,Data Scientist,Machine Learning, Computer Vision等方向的researchers,包括常青藤教授,各大Top互聯網公司大佬,世界各地知名大學OR相關的碩博,加群方式詳見文章底部。

前幾期的群友交流精華語錄受到了大家廣泛的關注與好評,我們會為大家持續整理微信學術群中的精華語錄,請持續關注我們公眾號,會不定期舉行各種活動哦!

由於微信學術群有很多學界和業界大佬參與,因此我們在文末做了一個關於群聊語錄稱呼是否匿名的投票,希望大家參與給我們反饋意見。也希望大家對【活動】板塊提出寶貴的意見,讓我們為大家提供更優質的學習交流平臺。

下面就來看看我們第四期是整理了哪些話題吧

2018年8月19日 時間序列的預測方法

(出自微信群:【3】Global O.R./OM/IE Community)

胡-NE-OR-Quantitative Research:有LSTM用的比較熟悉的朋友嗎?有試過金融或經濟數據沒?謝謝!

郭-合肥工大-機器學習:試過,但效果不行。主要是多步預測。

胡-NE-OR-Quantitative Research:我看有人說,預測步數少一些會好些?還有人說,LSTM仍然要像傳統的VAR或ARIMA一樣,輸入是平穩的時間序列才好,

郭-合肥工大-機器學習:對,越長越不靠譜,其實這種時間序列預測,拿特徵工程做效果最好,把時間序列y和對應的特效x做關聯。

Z-Utoronto-OR&ML:純粹拿時間序列數據直接往LSTM裡面套,最終結果基本就是overfitting。

郭-合肥工大-機器學習:這種就是預測效果。

活動丨運籌微信學術群友交流精華語錄第四期

胡-NE-OR-Quantitative Research:你發的這個圖,原文我看過。

郭-合肥工大-機器學習:對,效果幾乎都是這樣。

胡-NE-OR-Quantitative Research:我不覺得LSTM會比VAR或ARIMA差,說實在的,本質上都很類似,只是後者只是簡單的線性,如果要對等比較,LSTM的輸入,也應該是一階差分後的平穩序列。我自己再多試試把。

郭-合肥工大-機器學習:lstm確實未必比var或者arima差,但是和xboost這些方法做預測差一些啊。

胡-NE-OR-Quantitative Research:您是說時間序列的預測方面,xgboost一般說來會比lstm好些嗎?

郭-合肥工大-機器學習:小結一下:預測主要是兩大類,一大類是時間序列預測,就是arima這些,它們根據時間序列本身的特性進行預測,目前在時間序列大賽中表現最好的是theta model,是2002年提出來的。另一大類就是基於機器學習的預測,主要是根據外部特徵對時間序列進行預測,構造一個特徵工程,發現特徵與時間序列的關係,進而進行預測。

有說的不對的地方,請大家多多指出。

S-濰坊-智能調度:本身特性是指那種週期性、季節性嗎?

郭-合肥工大-機器學習:長期趨勢等。 還有一種分類方法是點預測和概率密度預測,點預測就是隻給出一個預測值,概率預測就是給出一系列預測值,完後每個預測值都有個概率,就是個概率分佈

S-濰坊-智能調度:後面那種是貝葉斯思想嗎?我記得prml裡面好像看過,但是沒太看懂,是條件概率嗎?

郭-合肥工大-機器學習:不是,概率密度預測主要是拿分位數迴歸做。prml裡說的是分類裡邊的一種生成模型,是說分類當中每一類對應一個概率,和這個概率密度預測有著本質的不同。

S-濰坊-智能調度:前面有個貝葉斯做多項式擬合,和這個不一樣嗎?這個概率預測我應該找哪個資料看一下?

郭-合肥工大-機器學習:先得看quantile regression,2005年的一本專著。

2018年8月19日 組合優化,多面體凸包

(出自微信群: Global O.R. Optim PhD Community)

Chao-Yahoo!-組合優化:給一個H-polyhedron (say, Ax<=b為input). output這個polyhedron是不是integral的. 用什麼程序?

許-UTDallas-優化組合:http://www.mathematik.uni-kl.de/fileadmin/AGs/opt/Lehre/WS1314/IntegerProgramming_WS1314/ip-chapter4_2_.pdf

活動丨運籌微信學術群友交流精華語錄第四期

楊-電科院-電力系統最優化:啥原理?沒太看懂。

楊-華東理工-組合優化:tdi的驗證用程序不太方便吧。

Chao-Yahoo!-組合優化:我需要程序...

王-澳洲國立-優化系統平臺:@ Chao-Yahoo!-組合優化https://wwwproxy.iwr.uni-heidelberg.de/groups/comopt/software/PORTA/porta.1.3.2.tar

留德華叫獸-海德堡-組合優化AI:我們組(海德堡大學離散與組合優化實驗室)出品

周-北大-通信:check一個任意給定的H-polyhedron是integeral,感覺是NPC……

嗯…我猜想除了枚舉沒有本質上更好的辦法。一個通用的check思路是把H-polyhedron轉換成V-polyhedron,vertex enumeration程序應該有不少。

王-澳洲國立-優化系統平臺:我沒看源代碼,應該是枚舉,這方面發展很慢,一些有用的理論都是conjectures,等待大牛們去證明了。

Chao-Yahoo!-組合優化:是coNP-hard的。

留德華叫獸-海德堡-組合優化AI:Porta貌似是老版本,倆三年前出了個新版本,叫Panda。提高了一些效率,主要是用了分佈計算。

2018年8月19日求解LP或者MIP的Distributed Method

(出自微信群: Global O.R. Optim PhD Community)


魯-MIT-ORC:問一下現在解lp或者mip有啥distributed method嗎?感覺現有solver都是single machine,雖然barrier method可以multi-thread。

周-北大-通信:基本上還沒有特別有效的並行算法框架吧。

留德華叫獸-海德堡-組合優化AI:http://ug.zib.de/ 有兩篇reports/paper。

周-北大-通信:有一篇2012年的論文 Could we use a million cores to solve an integer program。

覃-MIT-OM&ML:@魯-MIT-ORC 如果限定positive LP的話,allen-zhu/di wang是有分佈式工作的,雖然說你主要目標是MIP。

魯-MIT-ORC:謝謝。 Cplex好像說是最多十個machine,之後再多也不會有啥提高了?而且十個machine之內是否會提高還depends on problem。

覃-MIT-OM&ML:@魯-MIT-ORC di wang: https://scholar.google.com/citations?user=gn2qlUoAAAAJ&hl=en

其實我最近有考慮過一點點分佈式LP的事情,我們可以私下討論啊。

崔SH-OPT:大家多讀gurobi或者cpl

ex關於分佈式算法的文檔吧,裡面寫的很清晰。

https://www.ibm.com/support/knowledgecenter/SSSA5P_12.8.0/ilog.odms.cplex.help/CPLEX/UsrMan/topics/parallel_optim/distribMIP/01_distributed_mip_title_synopsis.html

2018年8月20日 傳統統計中的方法 VS 機器學習

(出自微信群:【3】Global O.R./OM/IE Community)

胡-NE-OR-Quantitative research :Tianqi & Carlos: XGBoost A Scalable Tree Boosting System,關於XGBoost,這篇論文如何?

郭-合肥工大-機器學習:這是陳天奇的論文啊,當然好,方法就是他創的

張-清華IE-OM:機器學習和統計中用到的一些方法究竟是啥區別啊?

胡-NE-OR-Quantitative research:看來大家都有這方面的困惑

小陌-碩士-山理工-無人駕駛:嗯?統計學習中的方法和機器學習中的方法難道不一樣嗎??比如訓練、應用的時候,還會有很大的差別嗎?以前從沒有考慮這個哎。

劉-CQU-智能調度與數據挖掘:傳統的機器學習就是基於數據的統計模型擬合問題,Google的工程師這麼認為的。

郭-合肥工大-機器學習:不一樣,統計的模型理論上都需要拿極大似然這一套計算出來參數,而且要保證參數有好的性質,機器學習是從損失函數的角度對參數進行求解。但是呢,又有一部分模型,既可以拿極大似然求解,也可以拿機器學習裡邊損失函數求解,比如迴歸,logistics 迴歸。但是共同的這一部分很小,但是影響力有大。比如線性迴歸解決不了非線性擬合,就發展出來多項式迴歸,樣條迴歸,非參數迴歸。但是機器學習為了擬合非線性現象,發展出來神經網絡。

劉-CQU-智能調度與數據挖掘:概率模型,那個是統計學上的貝葉斯學派的方法,頻率學派又有其他方法。機器學習EM算法、K-means算法和邏輯迴歸的損失函數都用到了極大似然估計。

郭-合肥工大-機器學習:是都用到了,但是不是全部。它是通過極大似然得到損失函數,再通過優化算法求解,而不是拿極大似然一步到位。

還有一個是,機器學習為了解決方差和誤差的權衡,發展出VC維理論。而傳統統計模型則是把重點放到要估計的參數的性質上了。

胡-NE-OR-Quantitative research:它是通過極大似然得到損失函數,再通過優化算法求解,而不是拿極大似然一步到位”——這裡的“拿極大似然一步到位”,你指的是傳統的統計嗎?

郭-合肥工大-機器學習:對。這裡的一步到位不是真的就一步。

胡-NE-OR-Quantitative research:它憑什麼一步到位?咱們知道,很多函數其實是非凸?非凸,它如何做到一步到位。

郭-合肥工大-機器學習:這個都已經不算純統計模型範疇了,算機器學習了,具體我也說不清。

胡-NE-OR-Quantitative research:我覺得這個是核心。也許前提假設和方法論的根本區別在這兒?

郭-合肥工大-機器學習:我剛才那句話是說,最早我們沒有那麼多優化算法,傳統統計模型都是拿極大似然算參數,如果很複雜,這個時候統計方法是無法求解的。現在界限很不清楚了,都叫統計學習理論了。有些問題也是直到80年代以後才慢慢解決的。

只要模型涉及到優化算法,一般都不能算純統計了,因為純統計模型一定要保證參數的各種性質,比如無偏性啥的,一旦你拿優化算法把這個參數求出來,這個性質談都沒法談了。

胡-NE-OR-Quantitative research:那我要求LSTM的輸入時間序列必須是平穩的,是不是也是犯了類似的錯誤?

郭-合肥工大-機器學習:LSTM是標準的機器學習模型。

胡-NE-OR-Quantitative research:時間序列迴歸,要求輸入時間序列必須具有平穩性,這個是傳統統計的要求,但我之前只是純粹為了對比兩個模型,LSTM和VAR。因為VAR要求輸入為平穩序列,所以我覺得要公平對比的話,LSTM的輸入也必須為平穩序列

留德華叫獸-海德堡-組合優化AI:極大似然估計最後不就是個優化問題麼?

郭-合肥工大-機器學習:從迴歸角度看是這樣,等價的,但是其他模型都不是這樣了,兩者出現分歧了,但是迴歸的這個等價影響非常大。反應出一個非常本質的東西。但是存在很大不等價的,但是影響又是很小。如果大家看了多項式迴歸,樣條迴歸,或者其他半參數模型,你就發現迴歸裡邊的那個等價有多大的意義了

saraki-濰坊-智能調度:李航的那本書挺好的,全書貫徹三個東西,模型 策略 算法。給出模型和策略,就給出目標函數,通常是無約束優化問題,用普通一階梯度法就能求解,但是分析了目標函數之後,人們又針對各種問題,給出不同的優化算法,em,smo,但是還是基於梯度法。模型思想要很重要。還有an introduction to glm,prml都挺不錯。

小陌-碩士-山理工-無人駕駛:那李航老師的《統計學習方法》還適合機器學習入門嗎??

郭-合肥工大-機器學習:適合。

2018年8月19日 彩蛋:滴滴數據公開了

(出自微信群: Global O.R. Optim PhD Community)

石-順豐科技:滴滴在kdd發的,贊!

活動丨運籌微信學術群友交流精華語錄第四期

L-大連理工-組合優化:滴滴數據公開了?在哪裡能down?

葉-滴滴:follow這個步驟就可以申請。

活動丨運籌微信學術群友交流精華語錄第四期

近期收到小夥伴的反饋,建議我們增開【數據科學|挖掘】微信學術群,我們後面會盡快上線。歡迎大家在文末留言想和群友交流的OR/AI方向,我們會根據大家的反饋增開微信 | QQ學術群


原文鏈接:https://mp.weixin.qq.com/s/5G5mx18zXm8WPvvnIiX1iA

版權說明:本文由『運籌OR帷幄』編譯整理,不作為商業用途,如有內容侵權,我們將隨時刪除。

歡迎查看原文,獲取更多訊息!


分享到:


相關文章: