hideyoshikato / papers0 Goto Github PK

View Code? Open in Web Editor NEW

0.0 0.0 0.0 9 KB

paper summary of Association for statistcs

paper summary

papers0's People

Contributors

Watchers

papers0's Issues

A hybrid regression technique for house prices prediction

0. 論文

住宅価格予測のためのハイブリッド回帰法

https://www.researchgate.net/publication/323135322_A_hybrid_regression_technique_for_house_prices_prediction

1. どんなもの？

一戸建ての住宅価格の予測

2. 先行研究と比べてどこがすごい？

ハイブリッド

3. 技術や手法のキモはどこ？

Ridge，Lasso，gradient boosting，重回帰分析，
C：ハイブリッド回帰65%Lasso，35%Gradient

4. どうやって有効だと検証した？

データ：kaggle
説明変数：場所、住宅の種類、規模、建設年、地域のアメニティ
対戦相手：
評価指標：

5. 議論はある？

収入、給料、人口、現地のアメニティ、生活費、固定資産税、学校、犯罪、マーケティングデータについても考慮するべき
ランダムフォレストの先進的

6. 次に読むべき論文は？

7. メモ

Isolation Forest

0. 論文

Liu, F. T., Ting, K. M., & Zhou, Z. H. (2008, December). Isolation forest. In 2008 Eighth IEEE International Conference on Data Mining (pp. 413-422). IEEE.
https://cs.nju.edu.cn/zhouzh/zhouzh.files/publication/icdm08b.pdf

1. どんなもの？

本稿では、正常なインスタンスをプロファイルするのではなく、異常を明示的に分離する異なるタイプのモデルベースの方法を提案している．
本稿では、あらゆる単一インスタンスを分離するためにツリー構造を効果的に構築できることを示している．

2. 先行研究と比べてどこがすごい？

現在の論文では，分離の概念を研究されていない．
分離の利用は既存手法では実現不可能な範囲へサブサンプリングを行う提案手法を可能とする．

区別する先行研究
既存のモデルベースの方法[11,2,5]
距離ベースの方法[6]
密度ベースの方法[4]

通常よりも異常を木の根元に近いところで分離する．
低い定数と低いメモリ容量だけで機能する．
高効率で異常を検知できる．

3. 技術や手法のキモはどこ？

2つの異なる量的特性を利用した．
(1) 少数の実体からなる少数派
(2) 通常のインスタンスとは非常に異なる属性値

効率的なモデルを作るために，トレーニングデータセットの一部だけを利用する．

4. どうやって有効だと検証した？

大規模なデータセットにおいて，LOFとランダムフォレストよりも優れていることを示した．
大規模なデータセットにおいて，ORCA,LOF,RFと比較して，AUC，処理時間共にiForestが良いことで有効だと検証した．
AUCは1に近いほど，高い判別制度だと言える．

5. 議論はある？

インスタンスinstanceって何？ー例，事例
再帰的に分割するとは？
調和数とは？→https://users.encs.concordia.ca/~chvatal/notes/harmonic.html
Ψが2^8,256で本当にいいの？
異常スコアの求め方は？

6. 次に読むべき論文は？

異常スコアの出し方
[7] D. E. Knuth. Art of Computer Programming, Volume 3: Sorting and Searching (2nd Edition). Addison-Wesley Pro- fessional, April 1998.

(1)統計的手法
[11] P.J.RousseeuwandK.V.Driessen.Afastalgorithmforthe minimum covariance determinant estimator. Technometrics, 41(3):212–223, 1999.
(2)分類ベースの手法
[1] N. Abe, B. Zadrozny, and J. Langford. Outlier detection by active learning. In Proceedings of the 12th ACM SIGKDD international conference on Knowledge discovery and data mining, pages 504–509. ACM Press, 2006.
(3)クラスタリングベースの手法
[5] Z. He, X. Xu, and S. Deng. Discovering cluster-based local outliers. Pattern Recogn. Lett., 24(9-10):1641–1650, 2003.

(1),(2),(3)は，正常なインスタンスのプロファイルを構築し、次に正常なプロファイルに適合しないインスタンスを異常として識別するアプローチをとる．

LOF：密度ベースの手法
[6] E. M. Knorr and R. T. Ng. Algorithms for mining distance- based outliers in large datasets. In VLDB ’98: Proceedings of the 24rd International Conference on Very Large Data Bases, pages 392–403, San Francisco, CA, USA, 1998. Morgan Kaufmann.

7. メモ

異常は、通常のインスタンスとは異なるデータ特性を持つデータパターンのこと．

(4)[6] E. M. Knorr and R. T. Ng. Algorithms for mining distance- based outliers in large datasets. In VLDB ’98: Proceedings of the 24rd International Conference on Very Large Data Bases, pages 392–403, San Francisco, CA, USA, 1998. Morgan Kaufmann.

(5)[4] M. M. Breunig, H.-P. Kriegel, R. T. Ng, and J. Sander. LOF: identifying density-based local outliers. ACM SIG- MOD Record, 29(2):93–104, 2000.

上の(1)~(5)とは区別しなければいけない．

iTreeとは，データを再帰的に分割する．

異常検出のタスクは、異常の程度を反映したランク付けを提供することです。
したがって、異常を検出する1つの方法は、パス長または異常スコアに従ってデータポイントをソートすること．

異常スコアで降順に並べたときに，上位が異常とみなせる．

A Survey on Transfer Learning

0. 論文

A Survey on Transfer Learning
Sinno Jialin Pan and Qiang Yang Fellow, IEEE
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8537894

1. どんなもの？

多くの機械学習の仮定は，学習と将来のデータは同じ特徴空間にあり，同じ分布を持つということです．しかし、多くの現実では、この仮定は成り立たないことがある．
例えば，ある関心領域には十分な学習データがあるが，別の領域には十分な学習データがない時に通常の学習を行ってもうまく学習が行われないという問題がある．
この問題に対処することが転移学習であり，本論文はその調査である．
この調査では、分類、回帰、およびクラスタリングの問題に対する転送学習の現在の進捗状況を確認することに焦点を当てている．この調査では、移転学習と、ドメイン適応、マルチタスク学習、サンプル選択の偏り、共変量シフトなどの他の関連する機械学習手法との関係について説明されている．また，転移学習研究における将来の潜在的な問題についても調査します．

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

目次
1．はじめに
2．概要
3．帰納的転移学習
4．伝達の転移学習
5．教師なし転移学習
6．転移境界とネガティブ転移
7．転移学習のアプリケーション
8．まとめ

1．はじめに
多くの機械学習手法は次の仮定で，うまく成り立つ．
トレーニングとテストデータが同じ特徴空間と同じ分布である．
webページ，Wifi，レビューのラベリングの例が紹介されている．
2．概要
2.1転移学習の歴史
2.2ノーテーションと定義
2.3
転移学習は帰納的転移学習，伝達の転移学習，教師なし転移学習の3種類に分類できる．

3．帰納的転移学習
4．伝達の転移学習
5．教師なし転移学習
6．転移境界とネガティブ転移
7．転移学習のアプリケーション
8．まとめ

Stock Prediction via Sentimental Transfer Learning

0. 論文

Stock Prediction via Sentimental Transfer Learning
https://ieeexplore.ieee.org/stamp/stamp.jsp?tp=&arnumber=8537894
Xiaodong Li ; Haoran Xie ; Raymond Y. K. Lau ; Tak-Lam Wong ; Fu-Lee Wang

1. どんなもの？

ニュース記事で株価を予測することを考えたとき，ニュースが豊富な銘柄の予測はできるが，ニュースが乏しい銘柄の予測が困難という問題に対して転移学習を用いて解決した論文．

2. 先行研究と比べてどこがすごい？

データが少ない銘柄の予測精度が向上した．

3. 技術や手法のキモはどこ？

センチメンタル転移学習(Sentimental Transfer Learning)

4. どうやって有効だと検証した？

データ：香港証券取引所の株価およびニュース記事（2003年 - 2008年）
手法： SVM
セクター：コマース，ファイナンス，
センチメント転移学習を行わないアプローチをベースラインとして，センチメント転移学習を行ったアプローチを比較して，後者が優れていることを示した．
評価指標：

5. 議論はある？

6. 次に読むべき論文は？

X. Li, H. Xie, T.-L. Wong, F. L. Wang, "Market impact analysis via sentimental transfer learning", Proc. IEEE Int. Conf. Big Data Smart Comput. (BigComp), pp. 451-452, Feb. 2017.

X. Li, X. Huang, X. Deng, S. Zhu, "Enhancing quantitative intra-day stock return prediction by integrating both market news and stock prices information", Neurocomputing, vol. 142, pp. 228-238, Oct. 2014.

S. J. Pan, Q. Yang, "A survey on transfer learning", IEEE Trans. Knowl. Data Eng., vol. 22, no. 10, pp. 1345-1359, Oct. 2010.

7. メモ

学習とテストに用いる銘柄のセクターを一緒にしている．
移転学習の目的は、ソースドメイン内のタスクから習得した知識をターゲットドメイン内のタスクに移転すること。転移学習アプローチは4つのグループに分類することができ、その中でインスタンス転移技術はソースドメインのインスタンスの一部を再利用し、ターゲットドメインの学習タスクを支援する広く採用されているアイデア。

Bidirectional LSTMを用いた誤字脱字検出システム

0. 論文

Bidirectional LSTMを用いた誤字脱字検出システム
Misspelling Detection by using Multiple Bidirectional LSTM Networks
*高橋諒
株式会社リクルートテクノロジーズ
蓑田和麻
株式会社リクルートテクノロジーズ
舛田明寛
株式会社PE-BANK
石川信行
株式会社リクルートテクノロジーズ
https://www.jstage.jst.go.jp/article/pjsai/JSAI2019/0/JSAI2019_3C4J903/_article/-char/ja/

1. どんなもの？

Bidirectional LSTMを用いた誤字脱字検出ロジックについてのアルゴリズムとその実験導入結果について記した論文．

2. 先行研究と比べてどこがすごい？

・BLSTMを利用することでターゲットとなる文字の前後双方の情報を利用できる
・言語モデルを組み合わせているため，予め考えられない誤字脱字のパラーんに対しても対応ができる
・言語モデルの出力結果を参照することで，誤字脱字判定された文字の代替提案が可能である
・複数のBLSMのモデルの出力の組み合わせにランダムフォレストを利用することで，検出時の閾値設定が容易になった．

3. 技術や手法のキモはどこ？

Bidirectional-LSTMBLSTM

4. どうやって有効だと検証した？

データ：リクルートが保有するゼクシィの校閲済みの原稿(OK文)とNGパターンを元に作成したNG文
2015年1月から2018年1月に掲載された原稿

対戦相手：LSTM言語モデル，BLSTM言語モデル，BLSTM OK/NG確率モデルⅠ・Ⅱ，アンサンブルモデル
評価指標：TP,FP，ROC曲線

5. 議論はある？

脱字のような単純に文字置き換えでは対応できないパターンでの候補文字提案手法の確立や検出精度向上のためのネットワーク構造の見直し．
余分な文字が入っている，または脱字のようなNG文は，誤字脱字箇所を候補文字で置き換えるだけでは文の* 修正ができない点い注意が必要であり，今後の課題．
傘下=参加とするような二文字が間違っている場合は正解率が低い．

6. 次に読むべき論文は？

RNNを異常検知の文脈で利用した研究
・BBenjamin J. RadfordLeonardo M. Apolonio, Antonio J. Trias, Jim A. Simpson. Network Traffic Anomaly Detection Using Recurrent Neural Networks. 2018.
・Pankaj Malhotra1, Lovekesh Vig2, Gautam Shroff1, Puneet Agarwal. Long Short Term Memory Networks for Anomaly Detection in Time Series. 2015.

Bidirectional-LSTMBLSTM
・Mike Schuster and Kuldip K Paliwal. Bidirectional recurrent neural networks. IEEE Transactions on Signal Processing, Vol. 45, No. 11, pp. 2673–2681, 1997.

7. メモ

レインズのニューラルネットワークを用いた不動産価格査定について

0. 論文

福井光, 阪井一仁, 南村忠敬, 三尾順一, 木下明弘, & 髙田司郎. (2018). レインズのニューラルネットワークを用いた不動産価格査定について. In 人工知能学会全国大会論文集第 32 回全国大会 (2018) (pp. 4A203-4A203). 一般社団法人人工知能学会.
https://www.jstage.jst.go.jp/article/pjsai/JSAI2018/0/JSAI2018_4A203/_pdf/-char/ja

1. どんなもの？

ニューラルネットワークを用いた不動産価格を査定する学習方式を提案した

2. 先行研究と比べてどこがすごい？

・不動産の持つ個別性や歪みを考慮している
・線形的なアプローチではない
・

3. 技術や手法のキモはどこ？

ニューラルネットワーク

4. どうやって有効だと検証した？

データ：レインズ
説明変数：所在地，沿線，駅，方角，用途地域，建物構造，占有面積，所在階，築年数，最寄駅からの距離，
対戦相手：
評価指標：

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

Anomaly Detection with Robust Deep Autoencoders

0. 論文

Anomaly Detection with Robust Deep Autoencoders
https://www.eecs.yorku.ca/course_archive/2018-19/F/6412/reading/kdd17p665.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごい？

isolation Forestよりも異常検知精度が高い．

3. 技術や手法のキモはどこ？

PCAからrobust PCAへの拡張の流れをAutoEncoserにも流用

4. どうやって有効だと検証した？

データ：MNIST
対戦手法：iForest
評価指標： F-score

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

abst

多くの現実の問題では、大きな異常値と広範囲のノイズが一般的である．
これは，標準的なAutoEncoderではノイズ除去ができないかもしれない．

入力データXを2つの部分 X=LD+Sに分割する．
LDはdeep AutoEncoderによって効果的に復元できる．
Sは元のデータの元データと外れ値を含む．

5.背景

Application of the bootstrap method for change points analysis in generalized linear models

0. 論文

一般化線形モデルにおける変化点解析へのブートストラップ法の適用
Application of the bootstrap method for change points analysis in generalized linear models
https://link.springer.com/article/10.1007/s42081-018-0023-5

1. どんなもの？

変化点の位置を誤って推定すると、最終的に得られるモデルの予測精度が低下することが予想される．
この問題に対処するために、ブートストラップ法によるHSアルゴリズムの適用して従来手法より予測精度の点で優れた論文．

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

ブートストラップ法によるHSアルゴリズム

4. どうやって有効だと検証した？

バギングによる予測精度が向上したこと
変化点の推定量の標準誤差のが低減したこと
変化点の信頼区間の構築できたこと

推定量の信頼区間を比較している．
信頼区間の構築方法については、主に2つの方法を比較している。
1)推定量の漸近正規性を仮定する方法
2)経験分布に基づく方法

5. 議論はある？

・論文ではHSアルゴリズムとバギングアルゴリズムを比較しているが，ノンパラメトリックアプローチまたはベイジアンアプローチによって構築されたモデルとも比較が必要．
・変数選択、相互作用の検出、感度分析、線形予測子における説明変数の線形性の確認

6. 次に読むべき論文は？

HSアルゴリズムの論文
DPアルゴリズムの論文

##メモ

1
一般化線形モデルを考えるとき，データがうまくモデルで説明できないときがある．
それはブレークポイント(変化点)があるときである．

変化点分析の歴史
・Hawkins（1977）、Worsley（1979）、Inclán（1993）、およびChen and Gupta（1997）
正規分布に従う一連の確率変数における変化点の位置の検出
・Hawkins（1977年）およびWorsley（1979年）
尤度手続き検定に基づく方法
・Inclán（1993）
ベイジアンベースのアプローチ
・Chen and Gupta（1997）
ベイジアン情報基準に基づくアプローチ
・Hawkins（2001)
変化点の数に従って変化点の位置の決定を変えることができる動的計画法（DP）アルゴリズム
・Chen and Gupta 2012
変化点の数が未知である場合
・CsörgőandHorváth（1997）Chen and Gupta（2012）
一連の確率変数に対する変化点分析の研究

通常の線形モデル(OLM)

・Quandt（1958、1960）、KimとSiegmund（1989）金（1994）
尤度比に基づく方法
・Broen（1975）James
回帰残差ベースの方法，再帰的残差ベースの方法
・（Smith 1979）
回帰スプラインベースのアプローチ
・（Holbert）
ベイジアンベースのアプローチ
・(Wu2008)
変化点分析と変数選択を同時に行う方法

OLMの変化点分析に関する研究は、Chen and Gupta（ 2012）によってまとめられている．

・Stasinopoulos and Rigby（1992）
一変量GLMにおける変化点の検出方法
・Ulm（1991）およびGurevich and Vexler（2005）
疫学的データ分析のためのロジスティック回帰モデルにおける変化点の検出方法

・キュッヘンホフとキャロル（1997）
測定誤差を伴うセグメント化GLMにおける変化点の推定方法

HSアルゴリズムの欠点1
変化点の推定位置はアルゴリズムの終わりまで固定されているため、変化点の最適な組み合わせが見つからない
→ブートストラップ法によるHSアルゴリズムの適用

HSアルゴリズムの欠点2
変化点の推定量の分布は明らかではない
→推定量の信頼区間を比較する。信頼区間の構築方法は、推定量の漸近正規性を仮定する方法と経験分布に基づく方法を用いた．

7まとめ
HSアルゴリズムは、複数の変化点分析があるある場合のアプローチとして広く使われている．
アルゴリズムは実行が簡単で計算効率が良い
推定変化点がMLEにならない．
そのため，一貫性と漸近正規性を持たないというリスクがある．

そのリスクに対して，ＧＬＭにおけるＨＳアルゴリズムに基づくブートストラップ法の適用に焦点を合わせた．

バギングによる予測精度の向上
変化点の推定量の標準誤差の低減
変化点の信頼区間の構築

さらに議論が必要なタスク
・HSアルゴリズムとバギングアルゴリズムを比較したが，ノンパラメトリックアプローチまたはベイジアンアプローチによって構築されたモデルとも比較が必要．
・変数選択、相互作用の検出、感度分析、線形予測子における説明変数の線形性の確認

多変量外れ値の検出～繰返し加重最小二乗（IRLS）法による欠測値の補定方法～

0. 論文

Detection of Multivariate Outliers
– Regression Imputation by the Iteratively Reweighted Least Squares –
WADA, Kazumi
多変量外れ値の検出～繰返し加重最小二乗（IRLS）法による欠測値の補定方法～
和田かず美
https://www.stat.go.jp/training/2kenkyu/ihou/69/pdf/2-2-692.pdf

1. どんなもの？

データに大きな外れ値がある場合，パラメータの妥当性に問題が生じる問題に対して，果汁最小二乗法を用いることにより，自動的に外れ値の影響を抑えて安定した補定値を得られることを示した論文．

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

Isolation_Based_Anomaly_Detection

0. 論文

March 2012ACM Transactions on Knowledge Discovery from Data 6(1):1-39
DOI: 10.1145/2133360.2133363
https://www.researchgate.net/publication/239761771_Isolation-Based_Anomaly_Detection

1. どんなもの？

2007年に出したIsolation Forestの論文の改訂版．
密度，距離に頼らない新たな異常検知の手法を提案した．

2. 先行研究と比べてどこがすごい？

低い定数と低いメモリ容量だけで機能する．
高効率で異常を検知できる．
検知にかかる時間が短い．

・大規模なデータセットにおける実行時間、検出精度、およびメモリ要件
・マスキングとスワッピングへの効果
・クラスター化された異常を含む堅牢性
・無関係な属性を持つ高次元データを処理する機能。

3. 技術や手法のキモはどこ？

元のデータセットからサブサンプリングしたデータセットに対して，iTreeも用いること．
平均経路長h(x)を用いたこと．

4. どうやって有効だと検証した？

5. 議論はある？

7章今後の取り組みで取り上げられている，カテゴリデータとオンラインデータと高次元データを取り扱うことができるモデルはもう出されたのか？

付録，カタラン数とは？

6. 次に読むべき論文は？

・iForestのローカルな異常にも対応できている．
SCiForest [Liu et al. 2010b]
・距離，密度，モデルに基づく手法
・カテゴリカルデータに対する分割方法
[Quin- lan 1993]

7. メモ

Extended Isolation Forest

0. 論文

Extended Isolation Forest
Sahand Hariri, Matias Carrasco Kind, Robert J. Brunner
(Submitted on 6 Nov 2018)
https://arxiv.org/abs/1811.02141

1. どんなもの？

Isolation Forestの拡張手法
Isolation Forestの2つの状況を改善する為に2つのアプローチを提案している．

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

Unsupervised Learning for Physical Interaction through Video Prediction

0. 論文

https://arxiv.org/pdf/1605.07157.pdf

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

データ
対戦相手：
評価指標：

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

大規模災害後の人間の緊急行動とその移動性の予測

0. 論文

Prediction of Human Emergency Behavior and their Mobility following Large-scale Disaster (大規模災害後の人間の緊急行動とその移動性の予測
https://dl.acm.org/citation.cfm?id=2623628

1. どんなもの？

　自然災害の頻度と激しさは過去数十年で著しく増加しており，この傾向は続くと予測されている．これらの予期しない災害に対する人間の緊急行動とその機動性を正確に予測することは，効果的な救済，災害管理，そして長期にわたる社会の再建に重要な問題である．
　大規模災害後の人間の緊急行動及びそれらの移動性を正確に予測するために，社会的関係、災害の激しさ、被害の度合い、政府指定の避難所、ニュース報道、大人口の流れの要因を考慮に入れた人間行動のモデルを開発している．
　災害時の人間の行動とその動きが以前に考えられていたよりもかなり予測可能であるかもしれないことを示唆している．

2. 先行研究と比べてどこがすごい？

東日本大震災と福島原発事故後の人間の緊急行動とその移動性を捉えて分析している．

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

データ：大規模な人の移動性データベース（1年間で160万人のユーザーのGPS記録）
対戦相手：
評価指標：

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

Deep Autoencoder-like Nonnegative Matrix Factorization for Community Detection

0. 論文

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

データ：
対戦相手：
評価指標：

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

係り受け構造に着目した専門用語自動抽出手法に関する研究

0. 論文

係り受け構造に着目した専門用語自動抽出手法に関する研究

1. どんなもの？

新湯つ統計量を調査した上で適用していないという問題点を専門用語に関するあらゆる統計量を用いた手法を提案することで解決する．

2. 先行研究と比べてどこがすごい？

FLR法

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

3種類の数値例を実行
各クラスに対するF-measureと全体でのmacro F-measureで評価
比較する手法ネスティッドロジットモデルと比較

5. 議論はある？

どんな時に使うの？
専門用語だったらなんでもいいの？
具体的に何に使われるの？
なぜ，後方修飾を示す係り受け構造から明らかにできると考えたのか？
予測のために精度はデータを分割する必要はないんですか？
専門用語が形態素解析の辞書に入っていない場合，専門用語を抽出できなくないですか？

6. 次に読むべき論文は？

佐藤ウェブを利用した関連用語の自動抽出

7. メモ

ユニット性：複合名詞の出現頻度
ターム性：

FLR法の特異な点

使用したデータ
用語抽出
専門用語か否かを専門家がラベルづけしたデータを用いた．

今回，日本にはこれしかない．

ガンマpがわからなかった．

全体的に提案手法が低かった．

FLR法は複合名詞には強いことがわかった．

スコアづけは強かった

異常検知技術の概要と応用動向について

0. 論文

異常検知技術の概要と応用動向について
吉澤，橋本 2016
https://www.intec.co.jp/company/itj/itj17/contents/itj17_42-47.pdf

1. どんなもの？

異常検知技術をルール学習，クラスタリング，クラシフィケーション，回帰に分類して紹介されている．
外れ値検知の技術について距離に基づく，密度に基づく，統計的分布に基づく，角度に基づく検知手法について紹介されている．
どのようなデータにどの手法を使われるのか応用事例を交えて紹介されている．

2. 先行研究と比べてどこがすごい？

先行研究を調査しまとめたものなので，新規部分はない．

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

時系列を考慮しない異常検知はクラスタリング，クラシフィケーション，回帰．
PN-rule，CREDOSについて考慮する．

6. 次に読むべき論文は？

[PN-rule]Arindam Banerjee, Varun Chandola, Vipin Kumar, Jaideep
　 Srivastava,Aleksandar Lazarevic：Anomaly Detection: A
　 Tutrial, https://www.siam.org/meetings/sdm08/TS2.ppt
[iForest]Fei Tony Liu,Kai Ming Ting, Zhi-hua Zhou：Isolation-
　 Based Anomaly Detection, TKDD Homepage archive,
　 Volume 6 Issue 1, March 2012, Article No. 3, (2012)

7. メモ

テキストマイニングによる金融レポートの自動生成支援Generation Support of Financial Reports by Textmining

0. 論文

丸澤英将1 和泉潔1 坂地泰紀1∗ 田村浩道2
本廣守 2
Hidemasa Maruzawa1 Kiyoshi Izumi1 Hiroki Sakaji1 Hiromichi Tamura2 Mamoru Motohiro2
1 東京大学大学院工学系研究科
1 Graduate School of Engineering, The University of Tokyo 2 野村證券株式会社
2 Nomura Securities Co.,Ltd.

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

データ
対戦相手：
評価指標：

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

新聞記事からのテキストマイニングによる因果関係を考慮したアナリストレポートの自動要約文生成Automatic Summarization of Analyst Reports Based on Causal Relationship Text-Mined from News Reports

0. 論文

新聞記事からのテキストマイニングによる因果関係を考慮したアナリストレポートの自動要約文生成
高嶺航, 坂地泰紀, 和泉潔, 松島裕康, 島田尚(東京大学), 清水康弘(野村證券)
https://sigfin.org/?plugin=attach&refer=022-11&openfile=SIG-FIN-022-11.pdf

1. どんなもの？

機関投資家は時間の制約上，膨大なレポートの全てを熟読するのは難しく，レポートの内容を十分に把握できない場合も想定される．
投資判断材料に必要な情報を要約することで，レポートを読む負担が減り，時間の制約があ
る中でもレポートの内容の要点を把握することができるようにした論文
因果関係を考慮しながら別の媒体から補填的に情報を抽出し，要約文を自動生成する手法を提案した論文

2. 先行研究と比べてどこがすごい？

二つの異なる媒体から一つの要約文を生成する手法はまだ確立されていない．

3. 技術や手法のキモはどこ？

話題性：トピックモデル (LDA[7]) による単語の分散表現を用いた文章の話題の類似度を算出
文の表層：Word2vec(Skip-gram[8][9]) による単語の分散表現を用いた文章の表層的な類似度を算出
極性の一致度：金融極性辞書 [10] を用いた単語の極性を計算し，文章間の極性がどれだけ一致するかを判定
文脈の類似性：アナリストレポートの根拠情報と新聞記事の結果表現の類似度を算出するだけではなく，新聞記事の原因表現との類似度も算出．より根拠情報の文意に沿った文章を抽出する．
形態素解析器としては Mecab
係り受け解析器としては Cabocha[11]

4. どうやって有効だと検証した？

データ：2011 年から 2016 年までの間に発行された 7927 件のアナリストレポートのうち文章内で因果関係表現が抽出できた 7716 件
対戦相手：
評価指標：Precision(精度)

5. 議論はある？

今後の課題として，要約文の評価データセットの作成，表現類似度計算の精度向上に関する手法の考案，因果関係抽出の精度向上に寄与する手がかり表現の語義曖昧性解消手法の考案
どれを正解にしているのかがわかりずらい．

6. 次に読むべき論文は？

7. メモ

酒井浩之, 西沢裕子, 松並祥吾, 坂地泰紀. 企業の決算短信 pdf からの業績要因の抽出. 人工知能学会論文誌, Vol. 30, No. 1, pp. 172–182, 2015

有価証券報告書からの事業セグメントごとの業績要因文・業績結果文の抽出

0. 論文

有価証券報告書からの事業セグメントごとの
業績要因文・業績結果文の抽出
Extraction of causal and result information belong to business segments
from securities reports
高野海斗 1
酒井浩之 1
北島良三 1
1 成蹊大学〒180-8633 東京都武蔵野市吉祥寺北町３－３－１

1. どんなもの？

有価証券報告書から事業セグメントごとの業績要因文と業績結果文の抽出を行った

2. 先行研究と比べてどこがすごい？

事業セグメントごとの業績要因文，業績結果文を抽出できている．

3. 技術や手法のキモはどこ？

酒井らの手法[5]を用いて，決算短信から業績要因文，手がかり表現
最近傍法

4. どうやって有効だと検証した？

データ：選択した10社の有価証券報告書
対戦相手：なし
評価指標：

5. 議論はある？

10社だけでいいのか？

6. 次に読むべき論文は？

7. メモ

コスト考慮型ネスティッドロジットモデルについて

0. 論文

コスト考慮型ネスティッドロジットモデルについて

1. どんなもの？

階層構造を持つ持っているときに
人口データからあつクラスに属するで０たが著しく少ない時に提案手法が有効であるを示した．

やりたいこと　個人が他校ロジットモデル

不均衡データの判別

2. 先行研究と比べてどこがすごい？

ネスティッドロジットモデル

3. 技術や手法のキモはどこ？

不均衡なデータに対応できる

4. どうやって有効だと検証した？

3種類の数値例を実行
各クラスに対するF-measureと全体でのmacro F-measureで評価
比較する手法ネスティッドロジットモデルと比較

5. 議論はある？

ネストさせることの意味とは？
普通のロジットではネストを考えられないの？
ネストっていうのは単純にイメージがつかめていない．
順序ロジットがライバルになりませんか？
なんでネストにしようと思ったモチベーションは？
不均衡とはなんですか？
mleの方がいい

6. 次に読むべき論文は？

東京都における流動人口データの有効性の検証

0. 論文

東京都における流動人口データの有効性の検証
http://www.soumu.go.jp/main_content/000630006.pdf

1. どんなもの？

東京都におけるメッシュ型の流動人口データを基地局データと比較し，統計的に分析した結果をまとめたもの．
GPSデータの信頼性や有効性の評価を行った論文．

2. 先行研究と比べてどこがすごい？

・時間帯別のGPSデータを国勢調査では把握対象外である通勤・通学以外の勤務中の移動や余暇・消費活動による人の動きを、ビジネス街や住宅地などの地域の特性と整合する形で捉えている。
・GPS データは解像度が高いため、大量の人の動線のハブとなる都心ターミナル駅や海岸沿い等、隣接するメッシュ間の人口差が大きいエリアにおいて、より強みを発揮できる。

3. 技術や手法のキモはどこ？

相関分析
外れ値分析
差率分析

4. どうやって有効だと検証した？

GPSデータから得られた結果と国勢データとの比較をして考察を行っている．

GPSデータとは...
スマートフォン向けアプリケーションにおいて許諾を得たユーザーから GPS 位置情報を取得し、地域メッシュ単位に推計した人口を収録したもの．地理的な誤差は約 10m であり、高い解像度を保有している．少ないユーザーの属性に依存することから、標本の偏りが発生しやすいという特性がある．

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

都心ターミナル駅は外れ値

大規模人口流動データの利活用について

0. 論文

Emergence of large-scale data capturing mass population movement and its applications
https://www.jstage.jst.go.jp/article/jsprs/52/6/52_327/_article

1. どんなもの？

データチャレンジコンテストからの事例、および交通機関、公衆衛生、災害管理などの公共サービス向上への取り組み、アプリケーションにおける課題を紹介している．

2. 先行研究と比べてどこがすごい？

携帯電話通信履歴データの利点
・短期的な人口流動の変化を捉えることができる．
・データ収集のための新たな予算を必要としない．
・これまで行ってきた大規模調査の予算削減につながる
・通常の統計では把握できない人口(スラム人口)を捉えることができる
・これまで実態が明らかになっていなかった人口層を含めた，市場開拓のニーズに応えることができる情報を得ることができる

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

データ
人の動きを継続的に追うことのできる携帯電話を介して蓄積されるデータ

5. 議論はある？

・携帯通信履歴データは匿名化されているので1次的な解析のみしか行えない．
・携帯電話を使っていない高齢者や幼児などのデータが含まれない

6. 次に読むべき論文は？

・アンケート調査の結果に，交通網のデータや滞在時間等を考慮して時空間内挿することで，データを可視化する試み
・アルゴリズムを用いて，行動に制約をもたらす要因となっている自宅や職場など）を個人レベルで推計する手法
・Mobile Data Challenge2012(スイスのある地区に関する人々が移動する場所を予測する手法の提案，大規模人口を対象に意味のある場所を予測する手法の提案，人々の属性を推計する手法の提案)
・D4D Challenge(コートジボワール50万人の携帯電話通信データの利活用に関する大会)
・D 4 D精密解像度データの多視点分析
・携帯電話データセット分析に関する結果のサーベイ(2015)
・人間の移動軌跡からの場所の意味論のスケーラブルでプライバシーに配慮した対話型発見

7. メモ

防災分野では，災害の起きた時間に応じて人口分布をタイムリーに把握できることが当該データの強みである．

BioBERT: a pre-trained biomedical language representation model for biomedical text mining

0. 論文

https://arxiv.org/abs/1901.08746

1. 要約

問題：NLPを生物医学文書に直接適用すると，一般的なドメインコーパスから生物医学コーパスへの単語分布のシフトによって，満足のいく結果が得られない
対処法：pretrainされたBERTによってドメイン適応させる
結果：biomedical named entity recognition1，biomedical relation extraction，biomedical question answering3

2. 先行研究との差異

BERTを生物医学コーパスのドメイン適応させた点

3. 技術や手法のポイント

生物医学コーパスでpre-training

4. 有効性の検証方法

使用データ：生物医学コーパス
対戦相手：BERT (Devlin et al., 2019)，BioBERT (þPubMed) ，BioBERT (þPMC)，BioBERT (þPubMed þ PMC)
評価指標：F1スコア，MRR

5. 議論

6. 次に読む論文

7. メモ

*1 biomedical named entity recognition・・・文章の中から生物医学専門用語を認識して文章を分類するタスク
https://medium.com/@Hironsan/biomedical-named-entity-recognition-5404c4d15c61
*2 biomedical relation extraction・・・生物医学関係を可視化するタスク
https://www.sciencedirect.com/science/article/pii/S1532046418300534
*3 biomedical question answering・・・医学質問への応答を作成するタスク．
https://www.aclweb.org/anthology/W18-5308/

不動産の価格とリスクの評価モデルとその応用

0. 論文

石島博, 前田章, & 谷山智彦. (2011). 不動産の価格とリスクの評価モデルとその応用. 情報処理学会論文誌数理モデル化と応用 (TOM), 4(2), 1-12.

https://ipsj.ixsq.nii.ac.jp/ej/?action=pages_view_main&active_action=repository_view_main_item_detail&item_id=73752&item_no=1&page_id=13&block_id=8

1. どんなもの？

不動産価格を適切に評価するモデルを提案した論文

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

線形回帰モデル

4. どうやって有効だと検証した？

データ：リクルート「スマッチ！」より取得した，2010 年 7 月における全国のマンションの募集価格と属性に関するデータ
対戦相手：
評価指標：
目的変数：不動産価格
説明変数：延べ床面積,築年数,駅徒歩,地方ダミー変数

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

日本の住宅資産価値に関する研究～その現状と課題について～

0. 論文

日本の住宅資産価値に関する研究～その現状と課題について～
早稲田大学理工学部建築学科北見卓也
http://www.waseda.jp/sem-ykom/kitami0902.pdf

1. どんなもの？

日本の住宅資産価値の現状とその課題を知るために、データ分析を行った研究

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

重回帰分析

4. どうやって有効だと検証した？

データ：不動産情報公開サイト
「REINS MARKET INFORMATION」で公開されている２００８年１月から
９月の９ヶ月間分のもの
対戦相手：
評価指標：決定係数
説明変数：成約価格，土地面積，占有面積，築年数，間取り(ダミー)，地域，駅までの距離

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

A Survey of Outlier Detection Methodologies 外れ値検出方法論の調査

0. 論文

外れ値検出方法論の調査
A Survey of Outlier Detection Methodologies
https://link.springer.com/article/10.1023/B:AIRE.0000045502.10941.a9

1. どんなもの？

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

4. どうやって有効だと検証した？

5. 議論はある？

6. 次に読むべき論文は？

7. メモ

異常値の問題には基本的な3つのアプローチがある．

1，データに関する予備知識なしに外れ値を決定する．教師なし学習に似たアプローチ
2，正常性と異常性両方をモデル化する．教師付き分類と似たアプローチ
3，モデルのみの正規性，またはごく少数のケースでのモデル異常．半教師付きに似ている．

Density power divergenceを用いたロバスト能動学習

0. 論文

Density power divergenceを用いたロバスト能動学習
Robust Active Learning via Density power divergence
http://2012.conf.ai-gakkai.or.jp/webprogram/2012/pdf/455.pdf

1. どんなもの？

ラベル付けが常に正しいという仮定を緩和し，オラクル((専門家や追加実験) )がラベル付けを誤る場合を想定した能動学習手法の提案を行った．
外れ値を含むデータからロバスト推定を行うことができる．

2. 先行研究と比べてどこがすごい？

ダイバージェンスを取り入れた点

3. 技術や手法のキモはどこ？

ロバストなダイバージェンス(β-ダイバージェンス[Basu98],γダイバージェンス[Fujisawa08])を用いている．

4. どうやって有効だと検証した？

提案したクエリ指標を基にした2つの提案手法と3 つの既存手法との比較実験によって有効と検証した．
手書き数字データを提案手法と比較手法にそれぞれ適用しその推定精度を AUC を用いて評価した.

5. 議論はある？

なんで主成分分析で次元を削減したのか？そのままの次元ではできないのか？
ロジスティック回帰に適応しているが，ラベルは多値の場合は考慮しないのか？これでは，1と7の識別しかできないのではないか？

6. 次に読むべき論文は？

Expected error reduction approach[Roy 01]
β-ダイバージェンス[Basu98]
γダイバージェンス[Fujisawa08]
KLダイバージェンス
漸近解析[Vaart 00]
貪欲法

Clustering preference data in the presence of response‐style bias

高岸先輩公聴会

0. 論文

Clustering preference data in the presence of response‐style bias
https://onlinelibrary.wiley.com/doi/full/10.1111/bmsp.12170

1. どんなもの？

カテゴリカルデータの解釈の結果がある程度限定されている
順序カテゴリカルデータへのクラスタリング
CCRSモデル
→問題点
質問内容に関係ないカテゴリの使用傾向
日本人は**，アメリカ人は極端になる傾向

MSCCAモデル

2. 先行研究と比べてどこがすごい？

回答スタイルを検知補正する既存手法
Schoonees 2015
回答スタイルバイアスを補正できる

CDS tandemに問題点がある
CDSによる補正の際に1次元削減してしまうから
回答者の意図した内容に関する情報が失われてしまう．

提案手法
内容ベースのクラスタ寝具に必要な情報をできる限り残した上で補正アンド，内容ベースクラスタリングができる
→回答者ごとに異なる補正ができるようような補正のためのモデルを定義する

3. 技術や手法のキモはどこ？

2段階のアプローチを踏むことで達成可能

CDSをそのまま拡張することでは達成できないから
CCRS補正値
CDS補正値
を定義してしまう．

4. どうやって有効だと検証した？

実データ分析
国ごとに偏りがあるデータをこのままk-meansすると回答クラスタリングになってしまう

比較手法
kmeans(補正なし)
CDS tandem
CCRS(提案手法)
を比較して，回答スタイルベースのクラスターと似ていない回答スタイルクラスターを

5. 議論はある？

補正そのものの精度は検証してないので，本当に結果が妥当なものなのか知りたい．
内容ベースクラスターは主観的
回答スタイルを補正できる手法は他にないのか．この手法を使う必要性は？
→他の手法だと対象数が必要だが提案手法は少なくてもいい手法
→IRtreeは対象数が少なくてもいいのでは？

補正の定義は？
精度の検証は可能だったんじゃないか？CDSとの比較はテーマが変わってしまう．
補正ができるのが評価できるのであれば，局所解に対応できる

川崎先生
回答者に聞いてる質問が極大か極小をひっくり返したらどうなる？
回答項目を1~~5を5~~1にしたらどうなる？
それを混ぜて回答スタイルを作っていいの？

6. 次に読むべき論文は？

7. メモ

enhancing intertpre

intro

カテゴリカルデータについて
名義尺度
順序尺度

カテゴリカルデータの分析上の扱い
~~順序尺度~~
データ分析の際に数値データに変換する
問題点：多くの場合，全対象にとって各カテゴリの解釈が同じという仮定が必要．対象により同意するの程度が異なる．

~~名義尺度~~
問題点：割合の時点で既にデータを要約した値になっていてデータ内の目立つ特徴の解釈には強いが，それ以外の特徴の解釈は難しい

カテゴリカルデータの解釈への過程があったり，解釈できる結果が...
博士論文でこれについて扱う．

回答スタイルとは，
1社会的に良いと思われている答えを回答することなど．
2ある特定のカテゴリを選ぶ傾向にあるなど
3その他(不注意など)

博士論文では2に着目する．

回答スタイルのあるデータへのクラスタリングの問題
回答スタイルのあるデータに対しクラスタリングを行うと，内容ベースでなく

この問題を2段階のアプローチを踏むことで達成可能．
Constraide Dual Scaling(Schoonees et al., 2015)

CDS tandem
補正の際にデータの一次元削減を行うため回答者の意図した内容に関する情報が失われてしまう．

提案手法：CCRS

目的：内容ベースのクラスタリングに必要な情報をできる限り残す．
特徴1：回答者ごとに異なる補正ができるような，補正のためのモデルを定義する．

回答スタイルバイアスとは...
回答スタイルを補正する関数(回答関数)とは...
CCRSの目的関数とは

補正値に対してクラスタリング？

CCRSの局所解の問題
k-meansを用いるから局所解の問題がある．
CCRSにおいてはλが大きい．

実データの適用例
アジア間の国際比較調査

比較手法
k-means
CDS tandem
CCRS

評価指標

カテゴリカルデータのクラスタリング
カテゴリカルデータの分析上の扱い

Robust, Deep and Inductive Anomaly Detection

0. 論文

Robust, Deep and Inductive Anomaly Detection
April 2017
Raghavendra ChalapathyRaghavendra ChalapathyAditya Krishna MenonSanjay ChawlaSanjay Chawla
https://www.researchgate.net/publication/316452084_Robust_Deep_and_Inductive_Anomaly_Detection

1. どんなもの？

RobustPCAからRobust sutoencoderへの拡張

2. 先行研究と比べてどこがすごい？

3. 技術や手法のキモはどこ？

Robust PCA
AutoEncoder

4. どうやって有効だと検証した？

評価指標：AUPRC，AUROC，P@10で比較した．
データ：CIFAR-10の5000枚の犬の画像と50枚の猫の画像を用いて猫の画像
方法：猫の画像に異常フラグを立てるようにする

5. 議論はある？

PCA以外の次元削減の方法ではできないか？
オートエンコーダーはデータ表現が強力なメカニズムだが，ブラックボックス化する性質がある．

6. 次に読むべき論文は？

1
PCAは異常検知をする際に制限をもつ．
極端なデータが射影の方向を完全に変えてしまう．

マスキング
平均値や標準偏差が外れ値の影響を受けやすく、正常値の範囲を決めるためにこれらを使
用する場合に極端な値が存在すれば正常値とみなされる範囲が広がり、検出すべき外れ値を
見逃してしまう現象が起きる。この現象はマスキングと呼ばれる（Wilcox, 2012）。

外れ値
データの大部分の傾向と異なるもので、必ずしも誤りとは限らな
いが、データ集計や分析の際にその存在が結果の精度を悪化させる可能性があるもの

https://www.stat.go.jp/training/2kenkyu/ihou/72/pdf/2-2-723.pdf