hideyoshikato / papers0 Goto Github PK
View Code? Open in Web Editor NEWpaper summary of Association for statistcs
paper summary of Association for statistcs
データ:
対戦相手:
評価指標:
Emergence of large-scale data capturing mass population movement and its applications
https://www.jstage.jst.go.jp/article/jsprs/52/6/52_327/_article
データチャレンジコンテストからの事例、および交通機関、公衆衛生、災害管理などの公共サービス向上への取り組み、アプリケーションにおける課題を紹介している.
携帯電話通信履歴データの利点
・短期的な人口流動の変化を捉えることができる.
・データ収集のための新たな予算を必要としない.
・これまで行ってきた大規模調査の予算削減につながる
・通常の統計では把握できない人口(スラム人口)を捉えることができる
・これまで実態が明らかになっていなかった人口層を含めた,市場開拓のニーズに応えることができる情報を得ることができる
データ
人の動きを継続的に追うことのできる携帯電話を介して蓄積されるデータ
・携帯通信履歴データは匿名化されているので1次的な解析のみしか行えない.
・携帯電話を使っていない高齢者や幼児などのデータが含まれない
・アンケート調査の結果に,交通網のデータや滞在時間等を考慮して時空間内挿することで,データを可視化する試み
・アルゴリズムを用いて,行動に制約をもたらす要因となっている自宅や職場など)を個人レベルで推計する手法
・Mobile Data Challenge2012(スイスのある地区に関する人々が移動する場 所 を 予 測 す る 手 法 の 提 案,大規模人口を対象に意味のある場所を予測する手法の提案,人々の属性を推計する手法の提案)
・D4D Challenge(コートジボワール50万人の携帯電話通信データの利活用に関する大会)
・D 4 D精密解像度データの多視点分析
・携帯電話データセット分析に関する結果のサーベイ(2015)
・人間の移動軌跡からの場所の意味論のスケーラブルでプライバシーに配慮した対話型発見
防災分野では,災害の起きた時間に応じて人口分布をタイムリーに把握できることが当該データの強みである.
Stock Prediction via Sentimental Transfer Learning
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8537894
Xiaodong Li ; Haoran Xie ; Raymond Y. K. Lau ; Tak-Lam Wong ; Fu-Lee Wang
ニュース記事で株価を予測することを考えたとき,ニュースが豊富な銘柄の予測はできるが,ニュースが乏しい銘柄の予測が困難という問題に対して転移学習を用いて解決した論文.
データが少ない銘柄の予測精度が向上した.
センチメンタル転移学習(Sentimental Transfer Learning)
データ:香港証券取引所の株価およびニュース記事(2003年 - 2008年)
手法: SVM
セクター:コマース,ファイナンス,
センチメント転移学習を行わないアプローチをベースラインとして,センチメント転移学習を行ったアプローチを比較して,後者が優れていることを示した.
評価指標:
X. Li, H. Xie, T.-L. Wong, F. L. Wang, "Market impact analysis via sentimental transfer learning", Proc. IEEE Int. Conf. Big Data Smart Comput. (BigComp), pp. 451-452, Feb. 2017.
X. Li, X. Huang, X. Deng, S. Zhu, "Enhancing quantitative intra-day stock return prediction by integrating both market news and stock prices information", Neurocomputing, vol. 142, pp. 228-238, Oct. 2014.
S. J. Pan, Q. Yang, "A survey on transfer learning", IEEE Trans. Knowl. Data Eng., vol. 22, no. 10, pp. 1345-1359, Oct. 2010.
学習とテストに用いる銘柄のセクターを一緒にしている.
移転学習の目的は、ソースドメイン内のタスクから習得した知識をターゲットドメイン内のタスクに移転すること。転移学習アプローチは4つのグループに分類することができ、その中でインスタンス転移技術はソースドメインのインスタンスの一部を再利用し、ターゲットドメインの学習タスクを支援する広く採用されているアイデア。
Anomaly Detection with Robust Deep Autoencoders
https://www.eecs.yorku.ca/course_archive/2018-19/F/6412/reading/kdd17p665.pdf
isolation Forestよりも異常検知精度が高い.
PCAからrobust PCAへの拡張の流れをAutoEncoserにも流用
データ:MNIST
対戦手法:iForest
評価指標: F-score
abst
多くの現実の問題では、大きな異常値と広範囲のノイズが一般的である.
これは,標準的なAutoEncoderではノイズ除去ができないかもしれない.
入力データXを2つの部分 X=LD+Sに分割する.
LDはdeep AutoEncoderによって効果的に復元できる.
Sは元のデータの元データと外れ値を含む.
5.背景
丸澤 英将1 和泉 潔1 坂地 泰紀1∗ 田村 浩道2
本廣 守 2
Hidemasa Maruzawa1 Kiyoshi Izumi1 Hiroki Sakaji1 Hiromichi Tamura2 Mamoru Motohiro2
1 東京大学大学院工学系研究科
1 Graduate School of Engineering, The University of Tokyo 2 野村證券株式会社
2 Nomura Securities Co.,Ltd.
データ
対戦相手:
評価指標:
Detection of Multivariate Outliers
– Regression Imputation by the Iteratively Reweighted Least Squares –
WADA, Kazumi
多変量外れ値の検出~繰返し加重最小二乗(IRLS)法による欠測値の補定方法~
和田かず美
https://www.stat.go.jp/training/2kenkyu/ihou/69/pdf/2-2-692.pdf
データに大きな外れ値がある場合,パラメータの妥当性に問題が生じる問題に対して,果汁最小二乗法を用いることにより,自動的に外れ値の影響を抑えて安定した補定値を得られることを示した論文.
Prediction of Human Emergency Behavior and their Mobility following Large-scale Disaster (大規模災害後の人間の緊急行動とその移動性の予測
https://dl.acm.org/citation.cfm?id=2623628
自然災害の頻度と激しさは過去数十年で著しく増加しており,この傾向は続くと予測されている.これらの予期しない災害に対する人間の緊急行動とその機動性を正確に予測することは,効果的な救済,災害管理,そして長期にわたる社会の再建に重要な問題である.
大規模災害後の人間の緊急行動及びそれらの移動性を正確に予測するために,社会的関係、災害の激しさ、被害の度合い、政府指定の避難所、ニュース報道、大人口の流れの要因を考慮に入れた人間行動のモデルを開発している.
災害時の人間の行動とその動きが以前に考えられていたよりもかなり予測可能であるかもしれないことを示唆している.
東日本大震災と福島原発事故後の人間の緊急行動とその移動性を捉えて分析している.
データ:大規模な人の移動性データベース(1年間で160万人のユーザーのGPS記録)
対戦相手:
評価指標:
Extended Isolation Forest
Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner
(Submitted on 6 Nov 2018)
https://arxiv.org/abs/1811.02141
Isolation Forestの拡張手法
Isolation Forestの2つの状況を改善する為に2つのアプローチを提案している.
Density power divergenceを用いたロバスト能動学習
Robust Active Learning via Density power divergence
http://2012.conf.ai-gakkai.or.jp/webprogram/2012/pdf/455.pdf
ラベル付けが常に正しいという仮定を緩和し,オラクル((専門家や追加実験) )がラベル付けを誤る場合を想定した能動学習手法の提案を行った.
外れ値を含むデータからロバスト推定を行うことができる.
ダイバージェンスを取り入れた点
ロバストなダイバージェンス(β-ダイバージェンス[Basu98],γダイバージェンス[Fujisawa08])を用いている.
提案したクエリ指標を基にした2つの提案手法と3 つの既存手法との比較実験によって有効と検証した.
手書き数字データを提案手法と比較手法にそれぞれ適用しその推定精度を AUC を用いて評価した.
なんで主成分分析で次元を削減したのか?そのままの次元ではできないのか?
ロジスティック回帰に適応しているが,ラベルは多値の場合は考慮しないのか?これでは,1と7の識別しかできないのではないか?
Expected error reduction approach[Roy 01]
β-ダイバージェンス[Basu98]
γダイバージェンス[Fujisawa08]
KLダイバージェンス
漸近解析[Vaart 00]
貪欲法
https://arxiv.org/abs/1901.08746
問題:NLPを生物医学文書に直接適用すると,一般的なドメインコーパスから生物医学コーパスへの単語分布のシフトによって,満足のいく結果が得られない
対処法:pretrainされたBERTによってドメイン適応させる
結果:biomedical named entity recognition1,biomedical relation extraction,biomedical question answering3
BERTを生物医学コーパスのドメイン適応させた点
生物医学コーパスでpre-training
使用データ:生物医学コーパス
対戦相手:BERT (Devlin et al., 2019),BioBERT (þPubMed) ,BioBERT (þPMC),BioBERT (þPubMed þ PMC)
評価指標:F1スコア,MRR
*1 biomedical named entity recognition・・・文章の中から生物医学専門用語を認識して文章を分類するタスク
https://medium.com/@Hironsan/biomedical-named-entity-recognition-5404c4d15c61
*2 biomedical relation extraction・・・生物医学関係を可視化するタスク
https://www.sciencedirect.com/science/article/pii/S1532046418300534
*3 biomedical question answering・・・医学質問への応答を作成するタスク.
https://www.aclweb.org/anthology/W18-5308/
係り受け構造に着目した専門用語自動抽出手法に関する研究
新湯つ統計量を調査した上で適用していないという問題点を専門用語に関するあらゆる統計量を用いた手法を提案することで解決する.
FLR法
3種類の数値例を実行
各クラスに対するF-measureと全体でのmacro F-measureで評価
比較する手法ネスティッドロジットモデルと比較
どんな時に使うの?
専門用語だったらなんでもいいの?
具体的に何に使われるの?
なぜ,後方修飾を示す係り受け構造から明らかにできると考えたのか?
予測のために精度はデータを分割する必要はないんですか?
専門用語が形態素解析の辞書に入っていない場合,専門用語を抽出できなくないですか?
佐藤 ウェブを利用した関連用語の自動抽出
ユニット性:複合名詞の出現頻度
ターム性:
FLR法の特異な点
使用したデータ
用語抽出
専門用語か否かを専門家がラベルづけしたデータを用いた.
今回,日本にはこれしかない.
ガンマpがわからなかった.
全体的に提案手法が低かった.
FLR法は複合名詞には強いことがわかった.
スコアづけは強かった
異常検知技術の概要と応用動向について
吉澤,橋本 2016
https://www.intec.co.jp/company/itj/itj17/contents/itj17_42-47.pdf
異常検知技術をルール学習,クラスタリング,クラシフィケーション,回帰に分類して紹介されている.
外れ値検知の技術について距離に基づく,密度に基づく,統計的分布に基づく,角度に基づく検知手法について紹介されている.
どのようなデータにどの手法を使われるのか応用事例を交えて紹介されている.
先行研究を調査しまとめたものなので,新規部分はない.
時系列を考慮しない異常検知はクラスタリング,クラシフィケーション,回帰.
PN-rule,CREDOSについて考慮する.
[PN-rule]Arindam Banerjee, Varun Chandola, Vipin Kumar, Jaideep
Srivastava,Aleksandar Lazarevic:Anomaly Detection: A
Tutrial, https://www.siam.org/meetings/sdm08/TS2.ppt
[iForest]Fei Tony Liu,Kai Ming Ting, Zhi-hua Zhou:Isolation-
Based Anomaly Detection, TKDD Homepage archive,
Volume 6 Issue 1, March 2012, Article No. 3, (2012)
高岸先輩公聴会
Clustering preference data in the presence of response‐style bias
https://onlinelibrary.wiley.com/doi/full/10.1111/bmsp.12170
カテゴリカルデータの解釈の結果がある程度限定されている
順序カテゴリカルデータへのクラスタリング
CCRSモデル
→問題点
質問内容に関係ないカテゴリの使用傾向
日本人は**,アメリカ人は極端になる傾向
MSCCAモデル
回答スタイルを検知補正する既存手法
Schoonees 2015
回答スタイルバイアスを補正できる
CDS tandemに問題点がある
CDSによる補正の際に1次元削減してしまうから
回答者の意図した内容に関する情報が失われてしまう.
提案手法
内容ベースのクラスタ寝具に必要な情報をできる限り残した上で補正アンド,内容ベースクラスタリングができる
→回答者ごとに異なる補正ができるようような補正のためのモデルを定義する
2段階のアプローチを踏むことで達成可能
CDSをそのまま拡張することでは達成できないから
CCRS補正値
CDS補正値
を定義してしまう.
実データ分析
国ごとに偏りがあるデータをこのままk-meansすると回答クラスタリングになってしまう
比較手法
kmeans(補正なし)
CDS tandem
CCRS(提案手法)
を比較して,回答スタイルベースのクラスターと似ていない回答スタイルクラスターを
補正そのものの精度は検証してないので,本当に結果が妥当なものなのか知りたい.
内容ベースクラスターは主観的
回答スタイルを補正できる手法は他にないのか.この手法を使う必要性は?
→他の手法だと対象数が必要だが提案手法は少なくてもいい手法
→IRtreeは対象数が少なくてもいいのでは?
補正の定義は?
精度の検証は可能だったんじゃないか?CDSとの比較はテーマが変わってしまう.
補正ができるのが評価できるのであれば,局所解に対応できる
川崎先生
回答者に聞いてる質問が極大か極小をひっくり返したらどうなる?
回答項目を15を51にしたらどうなる?
それを混ぜて回答スタイルを作っていいの?
enhancing intertpre
intro
カテゴリカルデータについて
名義尺度
順序尺度
カテゴリカルデータの分析上の扱い
順序尺度
データ分析の際に数値データに変換する
問題点:多くの場合,全対象にとって各カテゴリの解釈が同じという仮定が必要.対象により同意するの程度が異なる.
名義尺度
問題点:割合の時点で既にデータを要約した値になっていてデータ内の目立つ特徴の解釈には強いが,それ以外の特徴の解釈は難しい
カテゴリカルデータの解釈への過程があったり,解釈できる結果が...
博士論文でこれについて扱う.
回答スタイルとは,
1社会的に良いと思われている答えを回答することなど.
2ある特定のカテゴリを選ぶ傾向にあるなど
3その他(不注意など)
博士論文では2に着目する.
回答スタイルのあるデータへのクラスタリングの問題
回答スタイルのあるデータに対しクラスタリングを行うと,内容ベースでなく
この問題を2段階のアプローチを踏むことで達成可能.
Constraide Dual Scaling(Schoonees et al., 2015)
CDS tandem
補正の際にデータの一次元削減を行うため回答者の意図した内容に関する情報が失われてしまう.
提案手法:CCRS
目的:内容ベースのクラスタリングに必要な情報をできる限り残す.
特徴1:回答者ごとに異なる補正ができるような,補正のためのモデルを定義する.
回答スタイルバイアスとは...
回答スタイルを補正する関数(回答関数)とは...
CCRSの目的関数とは
補正値に対してクラスタリング?
CCRSの局所解の問題
k-meansを用いるから局所解の問題がある.
CCRSにおいてはλが大きい.
実データの適用例
アジア間の国際比較調査
比較手法
k-means
CDS tandem
CCRS
評価指標
カテゴリカルデータのクラスタリング
カテゴリカルデータの分析上の扱い
東京都における流動人口データの有効性の検証
http://www.soumu.go.jp/main_content/000630006.pdf
東京都におけるメッシュ型の流動人口データを基地局データと比較し,統計的に分析した結果をまとめたもの.
GPSデータの信頼性や有効性の評価を行った論文.
・時間帯別のGPSデータを国勢調査では把握対象外である通勤・通学以外の勤務中の移動や余暇・消費活動による人の動きを、ビジネス街や住宅地などの地域の特性と整合する形で捉えている。
・GPS データは解像度が高いため、大量の人の動線のハブとなる都心ターミナル駅や海岸沿い等、隣接するメッシュ間の人口差が大きいエリアにおいて、より強みを発揮できる。
相関分析
外れ値分析
差率分析
GPSデータから得られた結果と国勢データとの比較をして考察を行っている.
GPSデータとは...
スマートフォン向けアプリケーションにおいて許諾を得たユーザーから GPS 位置情報を取得し、地域メッシュ単位に推計した人口を収録したもの.地理的な誤差は約 10m であり、高い解像度を保有している.少ないユーザーの属性に依存することから、標本の偏りが発生しやすいという特性がある.
都心ターミナル駅は外れ値
March 2012ACM Transactions on Knowledge Discovery from Data 6(1):1-39
DOI: 10.1145/2133360.2133363
https://www.researchgate.net/publication/239761771_Isolation-Based_Anomaly_Detection
2007年に出したIsolation Forestの論文の改訂版.
密度,距離に頼らない新たな異常検知の手法を提案した.
低い定数と低いメモリ容量だけで機能する.
高効率で異常を検知できる.
検知にかかる時間が短い.
・大規模なデータセットにおける実行時間、検出精度、およびメモリ要件
・マスキングとスワッピングへの効果
・クラスター化された異常を含む堅牢性
・無関係な属性を持つ高次元データを処理する機能。
元のデータセットからサブサンプリングしたデータセットに対して,iTreeも用いること.
平均経路長h(x)を用いたこと.
大規模なデータセットにおいて,LOFとランダムフォレストよりも優れていることを示した.
大規模なデータセットにおいて,ORCA,LOF,RFと比較して,AUC,処理時間共にiForestが良いことで有効だと検証した.
AUCは1に近いほど,高い判別制度だと言える.
7章今後の取り組みで取り上げられている,カテゴリデータとオンラインデータと高次元データを取り扱うことができるモデルはもう出されたのか?
付録,カタラン数とは?
・iForestのローカルな異常にも対応できている.
SCiForest [Liu et al. 2010b]
・距離,密度,モデルに基づく手法
・カテゴリカルデータに対する分割方法
[Quin- lan 1993]
Liu, F. T., Ting, K. M., & Zhou, Z. H. (2008, December). Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining (pp. 413-422). IEEE.
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf
本稿では、正常なインスタンスをプロファイルするのではなく、異常を明示的に分離する異なるタイプのモデルベースの方法を提案している.
本稿では、あらゆる単一インスタンスを分離するためにツリー構造を効果的に構築できることを示している.
現在の論文では,分離の概念を研究されていない.
分離の利用は既存手法では実現不可能な範囲へサブサンプリングを行う提案手法を可能とする.
区別する先行研究
既存のモデルベースの方法[11,2,5]
距離ベースの方法[6]
密度ベースの方法[4]
通常よりも異常を木の根元に近いところで分離する.
低い定数と低いメモリ容量だけで機能する.
高効率で異常を検知できる.
2つの異なる量的特性を利用した.
(1) 少数の実体からなる少数派
(2) 通常のインスタンスとは非常に異なる属性値
効率的なモデルを作るために,トレーニングデータセットの一部だけを利用する.
大規模なデータセットにおいて,LOFとランダムフォレストよりも優れていることを示した.
大規模なデータセットにおいて,ORCA,LOF,RFと比較して,AUC,処理時間共にiForestが良いことで有効だと検証した.
AUCは1に近いほど,高い判別制度だと言える.
インスタンスinstanceって何?ー例,事例
再帰的に分割するとは?
調和数とは?→https://users.encs.concordia.ca/~chvatal/notes/harmonic.html
Ψが2^8,256で本当にいいの?
異常スコアの求め方は?
異常スコアの出し方
[7] D. E. Knuth. Art of Computer Programming, Volume 3: Sorting and Searching (2nd Edition). Addison-Wesley Pro- fessional, April 1998.
(1)統計的手法
[11] P.J.RousseeuwandK.V.Driessen.Afastalgorithmforthe minimum covariance determinant estimator. Technometrics, 41(3):212–223, 1999.
(2)分類ベースの手法
[1] N. Abe, B. Zadrozny, and J. Langford. Outlier detection by active learning. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 504–509. ACM Press, 2006.
(3)クラスタリングベースの手法
[5] Z. He, X. Xu, and S. Deng. Discovering cluster-based local outliers. Pattern Recogn. Lett., 24(9-10):1641–1650, 2003.
(1),(2),(3)は,正常なインスタンスのプロファイルを構築し、次に正常なプロファイルに適合しないインスタンスを異常として識別するアプローチをとる.
LOF:密度ベースの手法
[6] E. M. Knorr and R. T. Ng. Algorithms for mining distance- based outliers in large datasets. In VLDB ’98: Proceedings of the 24rd International Conference on Very Large Data Bases, pages 392–403, San Francisco, CA, USA, 1998. Morgan Kaufmann.
異常は、通常のインスタンスとは異なるデータ特性を持つデータパターンのこと.
(1)統計的手法
[11] P.J.RousseeuwandK.V.Driessen.Afastalgorithmforthe minimum covariance determinant estimator. Technometrics, 41(3):212–223, 1999.
(2)分類ベースの手法
[1] N. Abe, B. Zadrozny, and J. Langford. Outlier detection by active learning. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 504–509. ACM Press, 2006.
(3)クラスタリングベースの手法
[5] Z. He, X. Xu, and S. Deng. Discovering cluster-based local outliers. Pattern Recogn. Lett., 24(9-10):1641–1650, 2003.
(1),(2),(3)は,正常なインスタンスのプロファイルを構築し、次に正常なプロファイルに適合しないインスタンスを異常として識別するアプローチをとる.
(4)[6] E. M. Knorr and R. T. Ng. Algorithms for mining distance- based outliers in large datasets. In VLDB ’98: Proceedings of the 24rd International Conference on Very Large Data Bases, pages 392–403, San Francisco, CA, USA, 1998. Morgan Kaufmann.
(5)[4] M. M. Breunig, H.-P. Kriegel, R. T. Ng, and J. Sander. LOF: identifying density-based local outliers. ACM SIG- MOD Record, 29(2):93–104, 2000.
上の(1)~(5)とは区別しなければいけない.
iTreeとは,データを再帰的に分割する.
異常検出のタスクは、異常の程度を反映したランク付けを提供することです。
したがって、異常を検出する1つの方法は、パス長または異常スコアに従ってデータポイントをソートすること.
異常スコアで降順に並べたときに,上位が異常とみなせる.
コスト考慮型ネスティッドロジットモデルについて
階層構造を持つ持っているときに
人口データからあつクラスに属するで0たが著しく少ない時に提案手法が有効であるを示した.
やりたいこと 個人が他校ロジットモデル
不均衡データの判別
ネスティッドロジットモデル
不均衡なデータに対応できる
3種類の数値例を実行
各クラスに対するF-measureと全体でのmacro F-measureで評価
比較する手法ネスティッドロジットモデルと比較
ネストさせることの意味とは?
普通のロジットではネストを考えられないの?
ネストっていうのは単純にイメージがつかめていない.
順序ロジットがライバルになりませんか?
なんでネストにしようと思ったモチベーションは?
不均衡とはなんですか?
mleの方がいい
Bidirectional LSTMを用いた誤字脱字検出システム
Misspelling Detection by using Multiple Bidirectional LSTM Networks
*高橋 諒
株式会社リクルートテクノロジーズ
蓑田 和麻
株式会社リクルートテクノロジーズ
舛田 明寛
株式会社PE-BANK
石川 信行
株式会社リクルートテクノロジーズ
https://www.jstage.jst.go.jp/article/pjsai/JSAI2019/0/JSAI2019_3C4J903/_article/-char/ja/
Bidirectional LSTMを用いた誤字脱字検出ロジックについてのアルゴリズムとその実験導入結果について記した論文.
・BLSTMを利用することでターゲットとなる文字の前後双方の情報を利用できる
・言語モデルを組み合わせているため,予め考えられない誤字脱字のパラーんに対しても対応ができる
・言語モデルの出力結果を参照することで,誤字脱字判定された文字の代替提案が可能である
・複数のBLSMのモデルの出力の組み合わせにランダムフォレストを利用することで,検出時の閾値設定が容易になった.
Bidirectional-LSTMBLSTM
データ:リクルートが保有するゼクシィの校閲済みの原稿(OK文)とNGパターンを元に作成したNG文
2015年1月から2018年1月に掲載された原稿
対戦相手:LSTM言語モデル,BLSTM言語モデル,BLSTM OK/NG確率モデルⅠ・Ⅱ,アンサンブルモデル
評価指標:TP,FP,ROC曲線
RNNを異常検知の文脈で利用した研究
・BBenjamin J. RadfordLeonardo M. Apolonio, Antonio J. Trias, Jim A. Simpson. Network Traffic Anomaly Detection Using Recurrent Neural Networks. 2018.
・Pankaj Malhotra1, Lovekesh Vig2, Gautam Shroff1, Puneet Agarwal. Long Short Term Memory Networks for Anomaly Detection in Time Series. 2015.
Bidirectional-LSTMBLSTM
・Mike Schuster and Kuldip K Paliwal. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, Vol. 45, No. 11, pp. 2673–2681, 1997.
石島博, 前田章, & 谷山智彦. (2011). 不動産の価格とリスクの評価モデルとその応用. 情報処理学会論文誌数理モデル化と応用 (TOM), 4(2), 1-12.
不動産価格を適切に評価するモデルを提案した論文
線形回帰モデル
データ:リクルート「スマッチ!」より取得した,2010 年 7 月における全国のマン ションの募集価格と属性に関するデータ
対戦相手:
評価指標:
目的変数:不動産価格
説明変数:延べ床面積,築年数,駅徒歩,地方ダミー変数
福井光, 阪井一仁, 南村忠敬, 三尾順一, 木下明弘, & 髙田司郎. (2018). レインズのニューラルネットワークを用いた不動産価格査定について. In 人工知能学会全国大会論文集 第 32 回全国大会 (2018) (pp. 4A203-4A203). 一般社団法人 人工知能学会.
https://www.jstage.jst.go.jp/article/pjsai/JSAI2018/0/JSAI2018_4A203/_pdf/-char/ja
ニューラルネットワークを用いた不動産価格を査定する学習方式を提案した
・不動産の持つ個別性や歪みを考慮している
・線形的なアプローチではない
・
ニューラルネットワーク
データ:レインズ
説明変数:所在地,沿線,駅,方角,用途地域,建物構造,占有面積,所在階,築年数,最寄駅からの距離,
対戦相手:
評価指標:
住宅価格予測のためのハイブリッド回帰法
一戸建ての住宅価格の予測
ハイブリッド
Ridge,Lasso,gradient boosting,重回帰分析,
C:ハイブリッド回帰65%Lasso,35%Gradient
データ:kaggle
説明変数:場所、住宅の種類、規模、建設年、地域のアメニティ
対戦相手:
評価指標:
収入、給料、人口、現地のアメニティ、生活費、 固定資産税、学校、犯罪、マーケティングデータについても考慮するべき
ランダムフォレストの先進的
一般化線形モデルにおける変化点解析へのブートストラップ法の適用
Application of the bootstrap method for change points analysis in generalized linear models
https://link.springer.com/article/10.1007/s42081-018-0023-5
変化点の位置を誤って推定すると、最終的に得られるモデルの予測精度が低下することが予想される.
この問題に対処するために、ブートストラップ法によるHSアルゴリズムの適用して従来手法より予測精度の点で優れた論文.
ブートストラップ法によるHSアルゴリズム
バギングによる予測精度が向上したこと
変化点の推定量の標準誤差のが低減したこと
変化点の信頼区間の構築できたこと
推定量の信頼区間を比較している.
信頼区間の構築方法については、主に2つの方法を比較している。
1)推定量の漸近正規性を仮定する方法
2)経験分布に基づく方法
・論文ではHSアルゴリズムとバギングアルゴリズムを比較しているが,ノンパラメトリックアプローチまたはベイジアンアプローチによって構築されたモデルとも比較が必要.
・変数選択、相互作用の検出、感度分析、線形予測子における説明変数の線形性の確認
HSアルゴリズムの論文
DPアルゴリズムの論文
##メモ
1
一般化線形モデルを考えるとき,データがうまくモデルで説明できないときがある.
それはブレークポイント(変化点)があるときである.
変化点分析の歴史
・Hawkins(1977)、Worsley(1979)、Inclán(1993)、およびChen and Gupta(1997)
正規分布に従う一連の確率変数における変化点の位置の検出
・Hawkins(1977年)およびWorsley(1979年)
尤度手続き検定に基づく方法
・Inclán(1993)
ベイジアンベースのアプローチ
・Chen and Gupta(1997)
ベイジアン情報基準に基づくアプローチ
・Hawkins(2001)
変化点の数に従って変化点の位置の決定を変えることができる動的計画法(DP)アルゴリズム
・Chen and Gupta 2012
変化点の数が未知である場合
・CsörgőandHorváth(1997)Chen and Gupta(2012)
一連の確率変数に対する変化点分析の研究
通常の線形モデル(OLM)
・Quandt(1958、1960)、KimとSiegmund(1989)金(1994)
尤度比に基づく方法
・Broen(1975)James
回帰残差ベースの方法,再帰的残差ベースの方法
・(Smith 1979)
回帰スプラインベースのアプローチ
・(Holbert)
ベイジアンベースのアプローチ
・(Wu2008)
変化点分析と変数選択を同時に行う方法
OLMの変化点分析に関する研究は、Chen and Gupta( 2012)によってまとめられている.
・Stasinopoulos and Rigby(1992)
一変量GLMにおける変化点の検出方法
・Ulm(1991)およびGurevich and Vexler(2005)
疫学的データ分析のためのロジスティック回帰モデルにおける変化点の検出方法
・キュッヘンホフとキャロル(1997)
測定誤差を伴うセグメント化GLMにおける変化点の推定方法
HSアルゴリズムの欠点1
変化点の推定位置はアルゴリズムの終わりまで固定されているため、変化点の最適な組み合わせが見つからない
→ブートストラップ法によるHSアルゴリズムの適用
HSアルゴリズムの欠点2
変化点の推定量の分布は明らかではない
→推定量の信頼区間を比較する。信頼区間の構築方法は、推定量の漸近正規性を仮定する方法と経験分布に基づく方法を用いた.
7まとめ
HSアルゴリズムは、複数の変化点分析があるある場合のアプローチとして広く使われている.
アルゴリズムは実行が簡単で計算効率が良い
推定変化点がMLEにならない.
そのため,一貫性と漸近正規性を持たないというリスクがある.
そのリスクに対して,GLMにおけるHSアルゴリズムに基づくブートストラップ法の適用に焦点を合わせた.
バギングによる予測精度の向上
変化点の推定量の標準誤差の低減
変化点の信頼区間の構築
さらに議論が必要なタスク
・HSアルゴリズムとバギングアルゴリズムを比較したが,ノンパラメトリックアプローチまたはベイジアンアプローチによって構築されたモデルとも比較が必要.
・変数選択、相互作用の検出、感度分析、線形予測子における説明変数の線形性の確認
有価証券報告書からの事業セグメントごとの
業績要因文・業績結果文の抽出
Extraction of causal and result information belong to business segments
from securities reports
高野 海斗 1
酒井 浩之 1
北島 良三 1
1 成蹊大学 〒180-8633 東京都武蔵野市吉祥寺北町3-3-1
有価証券報告書から事業セグメントごとの業績要因文と業績結果文の抽出を行った
事業セグメントごとの業績要因文,業績結果文を抽出できている.
酒井らの手法[5]を用いて,決算短信から業績要因文,手がかり表現
最近傍法
データ:選択した10社の有価証券報告書
対戦相手:なし
評価指標:
10社だけでいいのか?
日本の住宅資産価値に関する研究~その現状と課題について~
早稲田大学理工学部建築学科 北見 卓也
http://www.waseda.jp/sem-ykom/kitami0902.pdf
日本の住宅資産価値の現状とその課題を知るために、データ分析を行った研究
重回帰分析
データ:不動産情報公開サイト
「REINS MARKET INFORMATION」で公開されている2008年1月から
9月の9ヶ月間分のもの
対戦相手:
評価指標:決定係数
説明変数:成約価格,土地面積,占有面積,築年数,間取り(ダミー),地域,駅までの距離
A Survey on Transfer Learning
Sinno Jialin Pan and Qiang Yang Fellow, IEEE
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8537894
多くの機械学習の仮定は,学習と将来のデータは同じ特徴空間にあり,同じ分布を持つということです.しかし、多くの現実では、この仮定は成り立たないことがある.
例えば,ある関心領域には十分な学習データがあるが,別の領域には十分な学習データがない時に通常の学習を行ってもうまく学習が行われないという問題がある.
この問題に対処することが転移学習であり,本論文はその調査である.
この調査では、分類、回帰、およびクラスタリングの問題に対する転送学習の現在の進捗状況を確認することに焦点を当てている.この調査では、移転学習と、ドメイン適応、マルチタスク学習、サンプル選択の偏り、共変量シフトなどの他の関連する機械学習手法との関係について説明されている.また,転移学習研究における将来の潜在的な問題についても調査します.
目次
1.はじめに
2.概要
3.帰納的転移学習
4.伝達の転移学習
5.教師なし転移学習
6.転移境界とネガティブ転移
7.転移学習のアプリケーション
8.まとめ
1.はじめに
多くの機械学習手法は次の仮定で,うまく成り立つ.
トレーニングとテストデータが同じ特徴空間と同じ分布である.
webページ,Wifi,レビューのラベリングの例が紹介されている.
2.概要
2.1転移学習の歴史
2.2ノーテーションと定義
2.3
転移学習は帰納的転移学習,伝達の転移学習,教師なし転移学習の3種類に分類できる.
3.帰納的転移学習
4.伝達の転移学習
5.教師なし転移学習
6.転移境界とネガティブ転移
7.転移学習のアプリケーション
8.まとめ
https://arxiv.org/pdf/1605.07157.pdf
データ
対戦相手:
評価指標:
Robust, Deep and Inductive Anomaly Detection
April 2017
Raghavendra ChalapathyRaghavendra ChalapathyAditya Krishna MenonSanjay ChawlaSanjay Chawla
https://www.researchgate.net/publication/316452084_Robust_Deep_and_Inductive_Anomaly_Detection
RobustPCAからRobust sutoencoderへの拡張
Robust PCA
AutoEncoder
評価指標:AUPRC,AUROC,P@10で比較した.
データ:CIFAR-10の5000枚の犬の画像と50枚の猫の画像を用いて猫の画像
方法:猫の画像に異常フラグを立てるようにする
PCA以外の次元削減の方法ではできないか?
オートエンコーダー はデータ表現が強力なメカニズムだが,ブラックボックス化する性質がある.
1
PCAは異常検知をする際に制限をもつ.
極端なデータが射影の方向を完全に変えてしまう.
マスキング
平均値や標準偏差が外れ値の影響を受けやすく、正常値の範囲を決めるためにこれらを使
用する場合に極端な値が存在すれば正常値とみなされる範囲が広がり、検出すべき外れ値を
見逃してしまう現象が起きる。この現象はマスキングと呼ばれる(Wilcox, 2012)。
外れ値
データの大部分の傾向と異なるもので、必ずしも誤りとは限らな
いが、データ集計や分析の際にその存在が結果の精度を悪化させる可能性があるもの
https://www.stat.go.jp/training/2kenkyu/ihou/72/pdf/2-2-723.pdf
新聞記事からのテキストマイニングによる因果関係を考慮したアナリストレポートの自動要約文生成
高嶺航, 坂地泰紀, 和泉潔, 松島裕康, 島田尚(東京大学), 清水康弘(野村證券)
https://sigfin.org/?plugin=attach&refer=022-11&openfile=SIG-FIN-022-11.pdf
データ:2011 年から 2016 年までの間に発行された 7927 件のアナリストレポートのうち文章内で因果関係表現が抽出できた 7716 件
対戦相手:
評価指標:Precision(精度)
外れ値検出方法論の調査
A Survey of Outlier Detection Methodologies
https://link.springer.com/article/10.1023/B:AIRE.0000045502.10941.a9
異常値の問題には基本的な3つのアプローチがある.
1,データに関する予備知識なしに外れ値を決定する.教師なし学習に似たアプローチ
2,正常性と異常性両方をモデル化する.教師付き分類と似たアプローチ
3,モデルのみの正規性,またはごく少数のケースでのモデル異常.半教師付きに似ている.
A declarative, efficient, and flexible JavaScript library for building user interfaces.
🖖 Vue.js is a progressive, incrementally-adoptable JavaScript framework for building UI on the web.
TypeScript is a superset of JavaScript that compiles to clean JavaScript output.
An Open Source Machine Learning Framework for Everyone
The Web framework for perfectionists with deadlines.
A PHP framework for web artisans
Bring data to life with SVG, Canvas and HTML. 📊📈🎉
JavaScript (JS) is a lightweight interpreted programming language with first-class functions.
Some thing interesting about web. New door for the world.
A server is a program made to process requests and deliver data to clients.
Machine learning is a way of modeling and interpreting data that allows a piece of software to respond intelligently.
Some thing interesting about visualization, use data art
Some thing interesting about game, make everyone happy.
We are working to build community through open source technology. NB: members must have two-factor auth.
Open source projects and samples from Microsoft.
Google ❤️ Open Source for everyone.
Alibaba Open Source for everyone
Data-Driven Documents codes.
China tencent open source team.