gooブログをStarServerへお引越し！－その4　データを落とす

2019-07-142021-02-26ブログ関係

続いて、gooブログからデータを落とすが滅茶滅茶面倒！というお話。

***後から思うと、この前に　https化　をここでやっておくべきだったと後悔しています***
HTTPS化する！　その1/2　、　HTTPS化する！　その2/2　　を参照ください

そもそも、gooブログのデータは、無料会員だと落とせない。アドバンス以上じゃないとダメ。私はアドバンス会員なのでOK。入会してすぐ脱会すればなんとかなるらしいけど。

管理ページの、

バックアップ・書籍化をクリック。

作成するを押して、しばらく待つと、データがダウンロードできるようになる。私の場合1時間位。

ここからは、ネット情報を活用します！アジアン　ライフさんやもじぐみさんありがとうございます！

まずエディタがいる。DreamWeaverというのが紹介されてるけど、無料のエディタで済ませたい(^^;)

サクラエディタというのをダウンロードしてみた。

こんな感じ。

これにgooブログからダウンロードしたファイルを入れると、

こんな感じになる。ふと、右下隅を見ると、

あれ？！　元々UTF-8なんじゃないか？何もしなくていいのでは・・・

そう思いつつ名前を替えて保存しようとしたら、

こんな画面が出た。BOMにチェックが入っていないのを見つつ保存した。

後でさらに色々やってみたら、Windows10のメモ帳で開いてから保存しようとすると、

こんな感じでUTF-8と出るので、メモ帳でも対応できるようだが、メモ帳で保存したものを　サクラエディタで開くと、BOM付と出る？！なんだこれ？

調べると、BOM付だと色々トラブル発生するらしく、次のメモ帳ではBOM無しが標準になるらしい。

たぶん、今のところエディタでBOM無しのUTF-8にした方がいいんじゃないかな。（メモ帳では試していません）

面倒なのは、この変換済みデータの　例えば、

<p><img src=”https://blogimg.goo.ne.jp/user_image/51/cc/42c105c0181fc90cf0eae035843c0002.jpg”

の「https://blogimag.goo.ne.jp/user_image/51/cc/」の部分を引っ越し先の保管場所に変更する必要あるはずだが、なんちゅうところに保管されるんだろう？まだ調べていませんm(_ _)m

なのでこのデータはまだ未完成！です・・・その６に続きがあります

■ワードプレスにgooと同じカテゴリを作成する

ここを参考にさせて頂きました！ありがとうございます！

ワードプレスの管理画面から、カテゴリーを選択し、名前を付けていく。

こんな感じ。

ホントはこれを機会に階層分けとかしたらいいのかも知れないが、とりあえずgooブログと同じに。

スラッグというのは、カテゴリーのある場所のことらしく、漢字かなは不可らしい。

カテゴリー：文具　で　スラッグ：goods　と設定すると、

https://mmhtohoho.com/category/goods

というところに保存されることになるらしいので、それなりに大事だ。

とりあえず21カテゴリー・・・一通り作ってみた。

次に、

absurlをダウンロード。Vectorからいただきましたm(_ _)m

これにgooからダウンロードしたテキストファイルを入れて、画像のURLを抽出する。

出力HTMLファイルは適当な名前を付ける。入力ファイルはgooブログからダウンロードして解凍したtxtファイル。抽出を押して終了を押して完了のようだ。素晴らしい！

そうしたら、サクラエディタを起動し、出来たファイル（上の例ではaaaa）をエディタにドラッグ&ドロップ。

こんな感じです。いらないヤツも結構残るので、チマチマ30分位かけて消したら、残りは１８００行！大変だ・・・

最後が　jpg　とか　png　だけを残して他は消しました。でも・・・2重なんだなぁ。これでいいのか？

（2重なのは、gooブログが小さい画像（サムネイル）と大きな画像を用意している為でした）

（今回は、ほぼほぼ小さい画像を無視しました）

更に皆さんの通り、IrvineというソフトをVectorからダウンロードm(_ _)m

上で作ったURLから画像を一括でダウンロードするものらしい。上のファイルをインポートする。

ところが、これが全然上手くいきません！タイムアウトで全然だめ。最初は分からなかったけど、

どうやらHTLMタグがあるとダメみたいで、

しかも、

<li><a href=”https://blogimg.goo.ne.jp/user…‥.jpg”>https://blogimg.goone.jp/user‥…</a></li>

のようにダブっているのもダメみたい。これをサクラエディタでどうやって取り除くのかわからず・・・

そこで、サクラエディタでテキストファイルにして、

エクセルで読み込んでみた。この際、　＞　を区分けに利用する設定にしたら、

<li と　<a href=….jpg”　と　https://blog・・・・</a 　と　</li　に分かれた！

要らないA、B、D列を消し、

LEFT関数を使い　=LEFT(A221,LEN(A221)-3)　として、右側3文字を消去。　</a　の3文字を抜いて、　https://blog・・・　だけを抜き出すことに成功！

ここで、B列をコピーして新しいエクセルに「値」として貼り付け、さらにコピー＆ペーストでサクラエディタに戻し、テキストで保存する。

それをIrvineのインポート→URLリスト　から読み込むと・・・いきなりダウンロードが始まりました！！

これ、エクセル上でちょっと弄ると上手く変換できないみたい。3文字消したやつを新しいエクセルシートにテキストでペーストし、更にコピーしてエディタに貼り、これをテキストで保存したやつをIrvineに読み込むと上手く行きました！とても不思議です。

なぜか読み込めないファイルもあるけど、細かいことは気にしない。時間がすごくかかって、１５９０個の画像ファイルを1時間くらいかな。

１５９０ファイルで読み込めないものが１３個。理由は不明。もともと無かったのか・・・

とりあえず、テキストデータと画像ファイルがパソコンにダウンロードできました。

疲れます・・・

https://www.star.ne.jp?ref=NAj4g5p2

https://www.star-domain.jp?ref=NAj4g5p2

ブログ関係

Posted by mmhトホホ

spark のケース

gooブログをStarServerへお引越し！－その3　WordPress

ディスカッション

コメント一覧

まだ、コメントがありません

コメントをどうぞコメントをキャンセル

このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください。