2022-04-01から1ヶ月間の記事一覧

pytorchでデータ数を増やすとやけに学習時間が増えるバグ

pytorchで学習する処理を書いた際、データセット内のデータ数の増加により学習時間が増えた。 データ数増加で学習時間が増えるのは当然だろうと思うかもしれないが、今回書いていた処理はデータセットのすべてを学習に使わないもので、指定したbatch数分だけ…

kedroで01_rawのディレクトリ構造に合わせて各フェーズのデータを出力する

以前kedroのドキュメントを見たときに推奨されるデータ管理用のディレクトリ構造が定義されているのを見つけた。 https://kedro.readthedocs.io/en/stable/12_faq/01_faq.html#what-is-data-engineering-convention 整理しやすそうだと思ったため自前のスク…

pandasインストール時にエラー(pip 1.20.1)

以下の実行時にnumpyのインストールでエラーとなった。 pip install pandas==1.3.4 1.3.4は別の環境にて最近インストールした記憶があり、そちらは普通に成功していたはずだったので違いを調べてみたところpipのversionが違った。 失敗したのはpip1.20.1で、…