言語処理100本ノック第2章 解答と解説 Q12~Q13まで

こんにちは。福田直起です。

前回に引き続き、言語処理100本ノック2020を解いているアウトプットとして、「第2章 : UNIXコマンド」の10問のうち、Q12とQ13の2問を解説していきます。
他の問題の回答は、まとめページにリンクを貼ってあります。

解答・解説の前に

この記事の

  • 主な対象者と目的
  • 実行環境
  • 解答・解説を読む際の注意

は、以前の記事で説明していますので、解答・解説を読む前にこれらを知っておきたい、という方はそちらを参照していただくようお願いします。

また、長い解説は折りたたんであります。折りたたんである解説は「解説を読む」をクリックすると見ることができます。

解答・解説

Q12. 1列目をcol1.txtに,2列目をcol2.txtに保存

各行の1列目だけを抜き出したものをcol1.txtに,2列目だけを抜き出したものをcol2.txtとしてファイルに保存せよ.確認にはcutコマンドを用いよ.

Python

解答コード

(別解があるため、指定されたファイル名のあとに連番をつけています)

# 以降の解答でも使用
PATH_COL1_1 = "data/col1-1.txt"
PATH_COL2_1 = "data/col2-1.txt"

with open("popular-names.txt") as input_file:
    lines = input_file.readlines()
    
with open(PATH_COL1_1, mode="w") as col1, open(PATH_COL2_1, mode="w") as col2:
    for line in lines:
        split = line.split()
        col1.write(split[0] + "\n")
        col2.write(split[1] + "\n")
        
print("ファイルの書き出しが完了しました")

実行結果

ファイルの書き出しが完了しました

解説

解説を読む

Pythonで複数のファイルを同時に開く方法

with open(ファイルまでのパス) as 変数名, open(ファイルまでのパス) as 変数名:
のようにすることで、一行で複数のファイルを同時に開くことができ、ネストが深くなるのを防ぐことができます。

使用例:

with open(PATH_COL1_1, mode="w") as col1, open(PATH_COL2_1, mode="w") as col2:
    for line in lines:
        split = line.split()
        col1.write(split[0] + "\n")
        col2.write(split[1] + "\n")

また、以下にこの問題をtry finallyを使って解いた別解も載せておきます。

PATH_COL1_2 = "data/col1-2.txt"
PATH_COL2_2 = "data/col2-2.txt"

input_file = None
col1 = None
col2 = None

# try finallyを使う例
try:
    input_file = open("popular-names.txt")
    
    col1 = open(PATH_COL1_2, mode="w")
    col2 = open(PATH_COL2_2, mode="w")
    
    for line in input_file:
        split = line.split()
        col1.write(split[0] + "\n")
        col2.write(split[1] + "\n")
        
finally:
    if input_file is not None:
        input_file.close()
    
    input_file = None
    
    if col1 is not None:
        col1.close()
        
    col1 = None
    
    if col2 is not None:
        col2.close()
    
    col2 = None
    
print("ファイルの書き出しが完了しました")

withだとネストが深くなるか、一行が長くなるかのどちらかの問題を抱えることになってしまうので、今回のように複数のファイルを同時に開きたい場合は、try finallyを使うほうがわかりやすいかもしれません。 このtry finallyでファイルを開く方法は、以前の記事で詳しく解説しています。

解答コードに戻る

UNIXコマンド

解答コード

!echo "Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:"
!echo "diff <(cut -f 1 popular-names.txt)" $PATH_COL1_1
!diff <(cut -f 1 popular-names.txt) $PATH_COL1_1

!echo
!echo "diff <(cut -f 2 popular-names.txt)" $PATH_COL2_1
!diff <(cut -f 2 popular-names.txt) $PATH_COL2_1

実行結果

Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:
diff <(cut -f 1 popular-names.txt) data/col1-1.txt

diff <(cut -f 2 popular-names.txt) data/col2-1.txt

解説

解説を読む

UNIXcutコマンドについて

cut -f 列番号 対象ファイル
のように指定することで、タブ区切りのファイルから指定した列を切り出すことができるコマンドです。 Pythonなどのプログラミング言語に慣れている方は、列番号で一列目を指定したいなら0、二列目なら1……のように指定するものだと思うかもしれませんが、cutコマンドでは一列目なら1、二列目なら2を指定する必要があることに注意しましょう。のちの問題で使うsortコマンドなど、他のUNIXコマンドも同じような仕様のものがあります。

使用例:

cut -f 2 popular-names.txt

参考: 【 cut 】コマンド――行から固定長またはフィールド単位で切り出す:Linux基本コマンドTips(60) - @IT

解答コードに戻る

Q13. col1.txtとcol2.txtをマージ

12で作ったcol1.txtとcol2.txtを結合し,元のファイルの1列目と2列目をタブ区切りで並べたテキストファイルを作成せよ.確認にはpasteコマンドを用いよ.

Python

解答コード

# 以降の解答でも使用
PATH_Q13 = "data/q13.txt"

# Q12で定義した定数を使用
with open(PATH_COL1_1) as col1:
    lines_col1 = col1.readlines()
    
with open(PATH_COL2_1) as col2:
    lines_col2 = col2.readlines()

with open(PATH_Q13, mode="w") as q13:
    for line1, line2 in zip(lines_col1, lines_col2):
        # 1列目のファイルの改行をタブ文字に置換することで、タブ区切りとしている
        q13.write(line1.replace("\n", "\t") + line2)
        
print("ファイルの書き出しが完了しました")

実行結果

ファイルの書き出しが完了しました

解説

コード中にもコメントしていますが、1列目のファイルの改行をタブ文字に置換することで、タブ区切りで並べたテキストファイルを出力するという工夫をしています。

UNIXコマンド

解答コード

!echo "Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:"
!echo "diff <(paste" $PATH_COL1_1 $PATH_COL2_1")" $PATH_Q13_1
!diff <(paste $PATH_COL1_1 $PATH_COL2_1) $PATH_Q13_1

実行結果

Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:
diff <(paste data/col1-1.txt data/col2-1.txt) data/q13-1.txt

解説

解説を読む

UNIXpasteコマンドについて

paste 結合したいファイル1 結合したいファイル2 のようにすることで、ファイル2つを行単位で結合した結果を出力することができるコマンドです。

使用例:

paste fileA.csv fileB.csv

行数の異なるファイルを結合した場合、以下のように一方だけにある行は片方だけのまま出力されます。

# 2行あるファイルと1行しかないファイルをpasteした例
paste paste_test.csv paste_test2.csv 
John    M 50000 2000    John    M 50000 2000
John    M 50000 2000

参考: 【 paste 】コマンド――複数のファイルを行単位で連結する:Linux基本コマンドTips(101) - @IT

解答コードに戻る

おわりに

以上、言語処理100本ノックの第2章のQ12とQ13について解説しました。
今回紹介したcutpasteは、データが保存されたテキストファイルを扱う際に覚えておくと役に立つと思います。

他の問題の回答は、まとめページにリンクを貼ってあります。

また、ブレインズコンサルティングでは一緒に働いてくれる仲間を募集しています。 ご興味のある方は、ぜひ一度採用サイトをご覧ください。

言語処理100本ノック第2章 解答と解説のまとめ

こんにちは。福田直起です。

この記事では、言語処理100本ノック2020の「第2章 : UNIXコマンド」の10問をPythonUNIXコマンドで解き、複数回に分けて解説したものをまとめています。

各記事へのリンクと内容の概要

今回は読みやすさを考慮して、出題意図を推察しながら以下の図のように記事を分割しました。

1. データのダウンロードと整形

前編

(前文、Q10、Q11) blog.brains-consulting.tech

UNIXコマンドを使って課題ファイルをダウンロードし、Pythonでファイルを読み書きする方法や、Q11の問題文で言及されている3つのコマンドについて解説しています。

後編

(Q12、Q13)
blog.brains-consulting.tech

PythonUNIXコマンドを使って、データがタブ区切りで格納されている課題ファイルを分割したり結合したりする方法を解説しています。

2. データ内容の確認とデータの分割

(Q14、Q15、Q16)
(近日公開予定)

これらの問題ではコマンドライン引数を受け取るアプリケーションを作ることを要求されています。今回私はPythonのライブラリであるtyperを使って解いたので、それについて解説しています。
また、Q16で扱うUNIXsplitコマンドについては、オプションを詳しく解説しています。

3. 複数プロセスが必要なデータ処理

(Q17、Q18、Q19)
(近日公開予定)

Pythonでこれらの問題を解く際に外部ライブラリを使う方法、使わない方法の速度比較を含めたメリット・デメリットを解説しています。
UNIXコマンドでは、複数のコマンドをパイプでつなげてより複雑な処理を行う方法について解説しています。

Appendix. 厳格でないソートが行われる可能性についての検証

(近日公開予定)

Q17~Q19を解いていて見つけたUbuntusortコマンドと、Pandasのsort_values()の厳格でない挙動についての検証のAppendixとなります。

おわりに

以上、言語処理100本ノックの第2章について解説しました。
複数記事にわたってかなり長い記事を執筆することになりましたが、お役に立てたなら幸いです。

また、ブレインズコンサルティングでは一緒に働いてくれる仲間を募集しています。 ご興味のある方は、ぜひ一度採用サイトをご覧ください。

言語処理100本ノック第2章 解答と解説 前文~Q11まで

こんにちは。福田直起です。

前回に引き続き、言語処理100本ノック2020を解いているアウトプットとして、「第2章 : UNIXコマンド」の前文~Q11までを解説していきます。
他の問題の回答は、まとめページにリンクを貼ってあります。

この記事の主な対象者と目的

  • Pythonについてif文やfor文などの基本的な使い方なら知っている人が、言語処理におけるPythonの強みが理解できるようになる
  • UNIXコマンドのpwdcdlsを駆使して目的のディレクトリにたどり着くことができる人が、言語処理100本ノックの解答に必要なUNIXコマンドについて理解できるようになる

UNIXコマンドを扱うのが初めてという方には、以下の資料がおすすめです。
2018-04-Ubuntu Linux基礎 / 2018-04 Ubuntu - Speaker Deck
資料のリンク元:
開発・運用本部向け新人研修2018の講義資料を公開しました - Cybozu Inside Out | サイボウズエンジニアのブログ

なお、この章で解説していないことは、他の章で解説していることが多いので、わからないことがあった場合は他の章の記事も参考になると思います。

実行環境

  • Ubuntu 20.04.4 LTS
  • Jupyter Notebook 4.10.0
    • IPython 8.3.0
  • Python 3.8.13
  • pandas 1.4.3

第2章の解答と解説

解答・解説を読む際の注意

Jupyter Notebookでは、1つのファイルに複数のセルというセクションのようなものを持つことができます。 今回はわかりやすさのために、Jupyter NotebookのセルをPythonコードのセルとUNIXコマンドのセルに分けています。
そして、 DRY原則に従うために「一度宣言した変数や定数、関数などはあとのセルでも使える」というJupyter Notebookの仕様を活用しています。
逆に言うと、同じ名前の変数や定数を複数のセルで使うとどんどん上書きしてしまい、セルを実行する順番によっては変数や定数の値が意図しない値になってしまうことがあります。これを防ぐために、複数のセルで同じような名前を変数や定数に使いたい場合はPATH_Q11のように名前のあとに問題番号をつけています。

また、解答でファイルを出力する場合はdataというフォルダ内に出力するようにしています。
コードをコピーして実行する場合は、先にフォルダを作っておくことを推奨します。

前文――課題データのダウンロードと確認

popular-names.txtは,アメリカで生まれた赤ちゃんの「名前」「性別」「人数」「年」をタブ区切り形式で格納したファイルである.以下の処理を行うプログラムを作成し,popular-names.txtを入力ファイルとして実行せよ.さらに,同様の処理をUNIXコマンドでも実行し,プログラムの実行結果を確認せよ.

問題ページをブラウザで開いて、右クリックしてダウンロードするといった他の方法もありますが、ここでは問題のテーマがUNIXコマンドであることと、Jupyter Notebookの機能を紹介することを目的として、Jupyter Notebook上でUNIXコマンドを実行してダウンロードする方法を解説します。

解答コード(UNIXコマンド)

!wget https://nlp100.github.io/data/popular-names.txt -O popular-names.txt

!echo "ダウンロードしたファイルの行数を確認:"
!wc -l popular-names.txt

解答コードの実行結果

--2022-07-21 17:54:55--  https://nlp100.github.io/data/popular-names.txt
nlp100.github.io (nlp100.github.io) をDNSに問いあわせています... 185.199.108.153, 185.199.109.153, 185.199.110.153, ...
nlp100.github.io (nlp100.github.io)|185.199.108.153|:443 に接続しています... 接続しました。
HTTP による接続要求を送信しました、応答を待っています... 200 OK
長さ: 55026 (54K) [text/plain]
`popular-names.txt' に保存中

popular-names.txt   100%[===================>]  53.74K  --.-KB/s 時間 0.005s     

2022-07-21 17:54:56 (10.2 MB/s) - `popular-names.txt' へ保存完了 [55026/55026]

ダウンロードしたファイルの行数を確認:
2780 popular-names.txt

解説

Jupyter Notebook上でのUNIXコマンドの実行について

解答コードのように、!を行頭に記述することによって、その行をUNIXコマンドとして実行することができます。

ただし、この方法はOSのコマンドを実行しているという点に注意しましょう。
具体的に言うと、私はUNIX系OSUbuntu)でJupyter Notebookを動かしているのでUNIXコマンドが実行できるのですが、Windows上で動かしている場合は、WindowsUNIXではないのでUNIXコマンドは実行できません。

UNIXwgetコマンドについて

wget ダウンロードしたいファイルのURL とすることで、現在のディレクトリにファイルをダウンロードすることができます。

デフォルトでは同名のファイルがあった場合popular-names.txt.1のように連番が付きます。
つまり、複数回実行されてしまったときにファイルが増えていってしまうので注意してください。
ここでは-O ファイル名というオプションをつけることで、上書きしてファイルを増やさないように設定しています。

使用例:

wget https://nlp100.github.io/data/popular-names.txt
wget https://nlp100.github.io/data/popular-names.txt -O popular-names.txt

参考: 【 wget 】コマンド――URLを指定してファイルをダウンロードする:Linux基本コマンドTips(24) - @IT

UNIXwcコマンドについて

wc -l ファイルまでのパス
とすることで、ファイルの行数を確認できます。
ここでは、正常にダウンロードできたことを確認するために行数を表示しています。

使用例:

wc -l popular-names.txt

また、wcコマンドには他にもファイルの文字数などを表示する機能もあります。
詳しく知りたい方は、以下のサイトが参考になります。

参考: 【 wc 】コマンド――テキストファイルの文字数や行数を数える:Linux基本コマンドTips(62) - @IT

Q10. 行数のカウント

行数をカウントせよ.確認にはwcコマンドを用いよ.

解答コード(Python

with open("popular-names.txt") as input_file:
    lines_q10_1 = input_file.readlines()
    
print("行数:")
print(len(lines_q10_1))

解答コード(Python)の実行結果

行数:
2780

解答コード(UNIXコマンド)

print("Pythonで計算した行数:")
print(len(lines_q10_1))

!echo
!echo "UNIXコマンド\"cat ./popular-names.txt | wc -l\"で確認した行数:"
!cat ./popular-names.txt | wc -l

解答コード(UNIXコマンド)の実行結果

Pythonで計算した行数:
2780

UNIXコマンド"cat ./popular-names.txt | wc -l"で確認した行数:
2780

解説

ダウンロードの際にも使ったwcコマンドを使って、行数を確認しています。

withを使ってPythonでファイルを読み込む方法について

Pythonでは
with open(開きたいファイルまでのパス) as ファイルに割り当てたい変数名:
という記述をしたあと、解答のようにインデントして処理を書いていくことで、ファイルを読み込んで処理を行うことができます。 どこからどこまでの処理の間、どのファイルを開いているかがインデントによりわかりやすくなっていることと、withのあとのインデントした部分を抜ける際に、自動でファイルを閉じてくれることがメリットです。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

ファイルを閉じないと、Pythonで書き込んだつもりの内容がファイルに反映されない、常駐アプリケーションとして運用した場合に他のアプリケーションの動作を妨害してしまったり、OSの制限を超えてファイルを開いてしまってエラー落ちする、といったリスクがあるので、注意が必要です。
詳しく知りたい方は以下のPythonの公式ドキュメントを読んでみてください。
7. 入力と出力 — Python 3.8.10 ドキュメント

今回の回答では、readlines()というメソッドを使って、開いたファイルを一行ごとに区切ったリストに変換してから、そのリストに対して処理を行っています。

使用例:

with open("popular-names.txt") as input_file:
    lines_q10_1 = input_file.readlines()

# ここでファイルが閉じられる

print(lines_q10_1[0:10])

参考: 7. 入力と出力 — Python 3.8.10 ドキュメント

UNIX|(パイプ)について

UNIXコマンドでは、
cat ./popular-names.txt | wc -l のように|(パイプ)でコマンドをつなぐことで、左のコマンドの結果を、右のコマンドの入力として処理をすることができます。 今回の問題は、wc -l ./popular-names.txtとしても解けるのですが、それだと結果が
2780 popular-names.txt
のように表示されてしまい、ぱっと見で比較しづらいと思いました。
なので、行数だけを表示できるように一旦catコマンドで開いてから、その結果の行数を表示するような処理の流れにしています。

参考: Linuxコマンドで使われるパイプ(|)の使い方を詳しくご紹介!

別解:withを使わずにファイルを開く方法

先程紹介したwithはやや応用的な方法で、Pythonにおけるファイルの最もシンプルな扱いは次のような書き方になります。

# ファイルを読み込んで変数に割り当てる
input_file = open(開きたいファイルまでのパス)

# ファイルを使った処理を書く
lines = input_file.readlines()

# ファイルを閉じる
input_file.close()

しかし、この方法だとclose()を通らない、つまりファイルが閉じないまま処理が終わってしまう場合があるというリスクがあります。

このリスクを回避する方法の一つは、先ほどのwithを使うことですが、もう一つ方法があります。
それが、例外処理に用いるtry finallyを用いる方法です。
例として、このQ10try finallyで解いた別解を以下に示します。

try:
    input_file = open("popular-names.txt")
    lines_q10_2 = input_file.readlines()
    
finally:
    if "input_file" in globals():
        input_file.close()

print("行数:")
print(len(lines_q10_2))

実行結果

行数:
2780

tryした処理の後は必ずfinallyの処理に進むため、このように書いておけばファイルを閉じ忘れる心配がありません。
ただし、この方法だと今度はファイルを開けないなどのエラーが起きた際に開いていないファイルを閉じてしまうことになってしまいエラーの原因になるため、そうならないように以下のglobals()を使っています。

Pythonglobals()について

Pythonglobals()グローバル変数の辞書を返す関数です。
変数が定義されているかどうか確認する場合に使うことが多いです。
以下の例のように変数名と値が入っています。

{'sample_list': [1, 2, 3, 4, 5, 1, 3, 1], 'sample_str': 'Hello, World'}

(実際には、システム変数など他の値も入っています)

今回は以下のように使って、ファイルを開けなくてエラーになった際にclose()を通らないようにしています。

if "input_file" in globals():
    input_file.close()

この関数を使う際の注意点としては、変数名を単なる文字列として扱わなければならないので、あとで変数名を変えたくなった際にIDEリファクタリング機能を使ってもカバーされるとは限らず、修正漏れが発生してしまう可能性があることです。こうなると、ファイルがclose()されなくなるという問題が発生してしまいます。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

Pythonglobals()locals()について

globals()に近い働きをする関数として、ローカル変数の辞書を返すlocals()という関数もあります。
Pythonの変数は関数内でしかローカル変数としてみなされないので、関数を定義していない今回の解答では、正確さを重視してglobals()を使っています。
ただ、実際に業務でのプログラミングをする際は関数を定義してその中に処理を書くことが多いので、locals()を使ったほうがコードの再利用性が高まると思います。
今回の解答に関しては、私の環境ではglobals()locals()に置き換えても期待した動作をすることを確認できています。

Pythonでどういう場合にグローバル変数とローカル変数のどちらになるかについて知りたい方は、公式ドキュメントの以下の部分が参考になります。
プログラミング FAQ — Python 3.8.10 ドキュメント

globals()ではなくNoneを用いる方法

globals()を使った方法はリファクタリングの妨げになる可能性があるので、他のやり方も考えてみました。

input_file = None

try:
    input_file = open("popular-names.txt")
    lines_q10_2 = input_file.readlines()
    
finally:
    if input_file is not None:
        input_file.close()
    
    input_file = None
    
print("行数:")
print(len(lines_q10_2))

input_fileの初期値としてNoneをあらかじめ宣言しておくことで、ファイルを正常に開けなかった場合にはinput_fileNoneのままになるため、input_fileNoneかどうかをファイルを閉じる処理をするかどうかの判定基準にすることができます。 また、finally節の最後でinput_fileNoneを代入することで、あとの処理でもしinput_fileという変数名を使った場合でも安全に処理できるようにもなっています。

参考(Noneについて): 組み込み定数 — Python 3.8.10 ドキュメント

Q11. タブをスペースに置換

タブ1文字につきスペース1文字に置換せよ.確認にはsedコマンド,trコマンド,もしくはexpandコマンドを用いよ.

解答コード(Python

with open("popular-names.txt") as input_file:
    lines = input_file.readlines()

# 以降の解答でも使用
PATH_Q11 = "data/q11.txt"

with open(PATH_Q11, mode="w") as output_file:
    for line in lines:
        output_file.write(line.replace("\t", " "))

print("ファイルの書き出しが完了しました")

解答コード(Python)の実行結果

ファイルの書き出しが完了しました

解答コード(UNIXコマンド)

!echo "Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:"
!echo "diff <(sed -e "s/\t/ /g" ./popular-names.txt)" $PATH_Q11
!diff <(sed -e "s/\t/ /g" ./popular-names.txt) $PATH_Q11

解答コード(UNIXコマンド)の実行結果

Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:
diff <(sed -e s/t/ /g ./popular-names.txt) data/q11.txt

解説

Pythonでのファイルの書き込みについて

open(書き込みたいファイルまでのパス, mode="w")
のように、オプションmode="w"を追加することでファイルを書き込みモードで開きます。 書き込みたいファイルが存在しない場合は、新規に作成します。
すでに存在する場合は元々存在していたファイルを上書きする、つまり元のファイルの内容は消えてしまうので注意が必要です。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

書き込み内容の指定は、
output_file.write(書き込みたい内容)
のように行います。
自動で改行が入らないので注意しましょう(今回はすでに改行が入っているデータを置換しているだけなので、そのままループさせて書き込んでいます)。

使用例:

with open(PATH_Q11, mode="w") as output_file:
    for line in lines:
        output_file.write(line.replace("\t", " "))
        # 改行が入っていないデータの場合は、以下のような行を入れる
        output_file.write("\n")

参考: 7. 入力と出力 — Python 3.8.10 ドキュメント

Jupyter NotebookにおいてUNIXコマンドのためにPythonの変数を呼び出す方法

Jupyter Notebookにおいては、
$変数名
のように記述することで、Pythonで定義した変数をUNIXコマンドで使用するために呼び出すことができます。

使用例:

HELLO_WORLD = "Hello World!"

!echo $HELLO_WORLD

UNIXdiffコマンドについて

UNIXコマンドでは、
diff 比較したいファイル1 比較したいファイル2
を実行することで、2つのファイルを比較することができます。

使用例:

diff fileA.txt fileB.txt

差分がない場合は何も出力しないので、今回はその仕様を「PythonUNIXコマンドによる処理結果が一致している」ということを示すために利用しています。
差分がある場合の出力の見方は、以下のサイトが参考になります。

参考: 【 diff 】コマンド(基本編)――テキストファイルの差分を出力する:Linux基本コマンドTips(102) - @IT 

ここでは、UNIXのプロセス置換という仕組みを使って、コマンドの結果をファイルであるかのようにdiffコマンドに読み込ませています。 プロセス置換は、<(コマンド)のように書くことで使うことができます。

使用例:

diff <(sed -e s/t/ /g ./popular-names.txt) data/q11.txt

参考: Linuxでのプロセス置換 - Qiita

また、UNIXではコマンド >書き込みたいファイルまでのパスのように記述することで、コマンドの結果をファイルに出力することもできます。
これを「リダイレクト」と呼びます。
今回は以後の問題でも上記のプロセス置換を主に使って解いていきますが、Q11をUNIXコマンドで解いた結果をリダイレクトしてファイル出力し、Pythonの結果と比較する方法も別解として載せておきます。

!echo "以下のコマンドで一旦ファイルに出力:"
!echo "sed -e "s/\t/ /g" ./popular-names.txt"
!sed -e "s/\t/ /g" ./popular-names.txt > data/q11-bash.txt

!echo
!echo "Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:"
!echo "diff data/q11-bash.txt" $PATH_Q11
!diff data/q11-bash.txt $PATH_Q11

実行結果

以下のコマンドで一旦ファイルに出力:
sed -e s/t/ /g ./popular-names.txt

Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:
diff  data/q11-bash.txt data/q11.txt

UNIXsedコマンドについて

指定したファイルに対して様々な処理ができるコマンドですが、ここでは
sed -e "s/置換前の文字列/置換後の文字列/g" 置換したいファイル のように指定することで、文字置換に用いています。
使用例:

sed -e s/t/ /g ./popular-names.txt

他にどのようなことができるか知りたい方は、以下のサイトが参考になります。

参考: 【 sed 】コマンド(基礎編その4)――文字列を置き換える/置換した行を出力する:Linux基本コマンドTips(56) - @IT

別解:trコマンドとexpandコマンド

今回は提示されている中で最も使える場面が多いと考えてsedコマンドを使いましたが、問題文で提示されている他の2つのコマンドの使い方と、それを使った別解も載せておきます。
どちらも用途が合えばsedコマンドよりシンプルに書けるので、覚えておくとターミナル上で直接コマンドを打ち込んで作業する場合などに役立つと思います。

trコマンド

tr 置換前の文字列 置換後の文字列
のように使って、文字を置換するコマンドです。 以下のような形で使うことが多いです。

# リダイレクトを用いる
tr "\t" " "  <./popular-names.txt

# catコマンドからパイプで繋ぐ
cat ./popular-names.txt | tr "\t" " "

今回は問題ありませんが、1文字を1文字に置き換えることしかできないことに注意が必要です。
例えば、tr "abc" "def"のように指定すると、

  • "abc"は"def"
  • "a"も"d"
  • よって"ab"も"de"

のように置換されてしまいます。

また、

  • tr "abc" "defg"のように指定すると、"abc"は"defg"ではなく"def"
  • tr "abc" "xy"のように指定すると、"abc"は"xy"ではなく"xyy"
    • つまり、"bc"は"yy"
    • "c"も"y"

と置換されてしまいます。

解答

!echo "Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:"
!echo "diff <(tr \"\t\" \" \"  <./popular-names.txt)" $PATH_Q11
!diff <(tr "\t" " "  <./popular-names.txt) $PATH_Q11

実行結果

Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:
diff <(tr "\t" " "  <./popular-names.txt) data/q11.txt

参考: 【 tr 】コマンド――テキストファイルの文字を置換する/削除する:Linux基本コマンドTips(52) - @IT

expandコマンド

expand 置換対象のファイル
のように使うことで、指定したいファイルのタブ文字をスペースに置換するコマンドです。 ただし、デフォルトだとタブ1文字につきスペース8文字で置換されてしまいます。
今回の問題では、「タブ1文字につきスペース1文字」という指定があるので、
expand -t 1 置換対象のファイル
のように-tオプションでスペース1文字であることを明示する必要があります。

使用例:

expand -t 1 ./popular-names.txt

解答

!echo "Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:"
!echo "diff <(expand -t 1 ./popular-names.txt)" $PATH_Q11
!diff <(expand -t 1 ./popular-names.txt) $PATH_Q11

実行結果

Pythonの出力ファイルとUNIXコマンドで同様の処理をした結果を比較:
diff <(expand -t 1 ./popular-names.txt) data/q11.txt

参考: 【 expand 】コマンド/【 unexpand 】コマンド――タブと空白を変換する:Linux基本コマンドTips(61) - @IT

おわりに

以上、言語処理100本ノックの第2章の前文~Q11について解説しました。
この記事で解説した技法はのちの問題でも多用するので、しっかりと覚えておくとスムーズに解けると思います。

他の問題の回答は、まとめページからリンクを貼ってあります。

また、ブレインズコンサルティングでは一緒に働いてくれる仲間を募集しています。 ご興味のある方は、ぜひ一度採用サイトをご覧ください。

言語処理100本ノック第1章 解答と解説

初めまして。今年度からブレインズコンサルティングに入社した福田直起です。

私は今、Pythonを使った言語処理を学ぶために、言語処理100本ノック2020に取り組んでいます。
そのアウトプットとして、これからこのテックブログに回答と解説を発表していきます。
今回は「第1章 : 準備運動」の10問を解説していきます。

この記事のレベル感

Pythonについてif文やfor文などの基本的な使い方なら知っている初心者が、記事を通して言語処理におけるPythonの強みがある程度理解できるようになる」
というレベル感で解説していきます。

実行環境

  • Ubuntu 20.04.4 LTS
  • Jupyter Notebook 4.10.0
    • IPython 8.3.0
  • Python 3.8.13

問題を解くための前提知識

文字列の抽出

pythonでは文字列をリストのように扱うことができます。
これを利用すると、以下のように文字列の一部をリストのインデックスのように指定して、抽出することができます。

str = "abcde"
# 最初の文字を抽出
print(str[0])
# 実行結果:"a"

# -(マイナス)を指定すると、文字列を末尾から参照できる。最後の文字が-1
print(str[-1])
# 実行結果:"e"

参考: 組み込み型 — Python 3.8.10 ドキュメント

第1章の解答と解説

Q0. 文字列の逆順

文字列”stressed”の文字を逆に(末尾から先頭に向かって)並べた文字列を得よ.

解答コード

word = "stressed"
print(word[::-1])

解答コードの実行結果

desserts

解説

Pythonでは、リストに対するループ処理、すなわち文字列に対する連続した抽出処理を、
list[start:stop:step]

  • start: 開始位置
  • stop: 終了位置
  • step: 処理のステップ(何文字ごとに抽出するか)

のように書くことができます。

この問題では、stepに負の数である-1を指定することで、指定された文字列を末尾から順番に一文字ずつ抽出して並べています。

これを利用すれば、他にも以下のようなことができます。

str = "abcde"

# step部分は省略可(stepには1が自動的に指定される)
print(str[1:3])
# 実行結果:"bcd"

# startやstopも省略可
# startなら0、stopなら文字列の末尾が自動的に指定される
print(str[:3])
# 実行結果:"abc"

print(str[1:])
# 実行結果:"bcde"

# stepを指定して一文字飛ばしで文字列を抽出する例
print(str[1:4:2])
# 実行結果:"bd"

この書き方を使わずに、この問題をwhile文を使って解こうとすると、以下のようにかなり長いコードを書く必要があります。
言語処理にPythonを使う大きな強みと言える構文だと思います。

word = "stressed"

result = ""
count = len(word) - 1

while count >= 0:
    result += word[count]
    count -= 1
    
print(result)

参考: 組み込み型 — Python 3.8.10 ドキュメント

Q1. 「パタトクカシーー」

「パタトクカシーー」という文字列の1,3,5,7文字目を取り出して連結した文字列を得よ.

解答コード

word = "パタトクカシーー"

# 1,3,5,7文字目なので、1文字目から2文字ごとに取り出せばよい
print(word[::2])

解答コードの実行結果

パトカー

解説

指定されている文字の位置が2文字ごとであることから、一つ前の問題と同様、stepで1文字飛ばしを指定して必要な部分を抽出しています。

この問題をfor文を使って解いてみて、この構文の便利さを実感するのもいいかもしれません。

Q2. 「パトカー」+「タクシー」=「パタトクカシーー」

「パトカー」+「タクシー」の文字を先頭から交互に連結して文字列「パタトクカシーー」を得よ.

解答の前に

新しい用語が出てくるので、解答より前に解説しておきます。
marged_words = [char1 + char2 for char1, char2 in zip(word1, word2)]
解答でこのような式が出てきますが、この式の右辺のような書き方を「リスト内包表記」と言います。
詳しい使い方は、解答コードの後で解説します。

解答コード

word1 = "パトカー"
word2 = "タクシー"

# リスト内包表記を使って2つの単語を先頭から交互に結合する
marged_words = [char1 + char2 for char1, char2 in zip(word1, word2)]

# 結合したリストを出力用に文字列に変換する
result = "".join(marged_words)

print(result)

解答コードの実行結果

パタトクカシーー

解説

Python命名規則について

Pythonで変数名や関数名に複数の単語を使いたい場合、
marged_words
のようにアンダーバー区切りの小文字(スネークケースと呼ばれます)を使うのが一般的です。

zip()について

Pythonでは、
for item1, item2 in zip(list1, list2)
のように記述することで、一行のfor文で複数のリストを同時にループさせることができます。
もちろん、この問題の解答で実際に使用したように、文字列にも使えます。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

リスト内包表記について

Pythonでは、リスト内包表記という書き方によって、一行でリストを定義することができます。
例として、以下のような場合に力を発揮します。

  1. この問題のように、zip()と併用して複数のリストを互い違いに結合する
  2. 単語のリストから、各単語の先頭の文字を抜き出す

リスト内包表記は、
list = [各項目に適用する式 for文]
のように書くことで使うことができます。

分かりやすいように、上の「2.単語のリストから、各単語の先頭の文字を抜き出す」をリスト内包表記を用いてコード化したものを、以下に例示しておきます。

コード
words = ["When", "Where", "Who", "What", "Why", "How"]

first_chars = [word[0] for word in words]

print(first_chars)
実行結果
['W', 'W', 'W', 'W', 'W', 'H']

参考: 組み込み型 — Python 3.8.10 ドキュメント

join()について

Pythonでは、
"".join(list)
のように記述することで、リストを文字列として結合することができます。

参考: 組み込み型 — Python 3.8.10 ドキュメント

リスト内包表記を使わない別解

リスト内包表記の便利さを実感してもらうために、以下にリスト内包表記を使わない別解を提示しておきます。

word1 = "パトカー"
word2 = "タクシー"

marged_words = []

for char1, char2 in zip(word1, word2):
    marged_words.append(char1 + char2)

result_str = "".join(marged_words)

print("リスト内包表記を使わない方法の結果:")
print(result_str)

一行で書く別解

今回は分かりやすさを重視して避けましたが、この問題はほぼ一行で解答することもできます。

word1 = "パトカー"
word2 = "タクシー"

print("リスト内包表記を使って一行で書く方法の結果:")
print("".join([char1 + char2 for char1, char2 in zip(word1, word2)]))

Q3. 円周率

“Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics.”という文を単語に分解し,各単語の(アルファベットの)文字数を先頭から出現順に並べたリストを作成せよ.

解答コード

sentence = "Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics."

# 文字数カウントにはカンマとピリオドが不要なので取り除く
sentence = sentence.replace(",", "").replace(".", "")

# 文を単語に分割する
splits = sentence.split()

ans = [len(split) for split in splits]
print(ans)

解答コードの実行結果

[3, 1, 4, 1, 5, 9, 2, 6, 5, 3, 5, 8, 9, 7, 9]

解説

replace()について

Pythonでは、
str.replace("置換元の文字列", "置換後の文字列")
のように記述することで、変数str内の文字列を置換することができます。
今回は不要な文字を空文字に置換することで削除しています。

また、この構文は返り値が置換処理した後の文字列なので、解答コードのように
replace().replace()
とメソッドを一行に連続で書くことで、一行で複数の置換処理をさせることもできます。

参考: 組み込み型 — Python 3.8.10 ドキュメント

split()について

Pythonでは、
list = str.split("区切り文字")
のように記述することで、変数str文字列を区切り文字で区切ったリストに変換することができます。
区切り文字を指定しない場合、スペースなどの空白文字で区切られるため、今回はそれを利用しています。

参考: 組み込み型 — Python 3.8.10 ドキュメント

正規表現を用いる別解

今回はreplace()を使いましたが、正規表現を用いた別解を残しておきます。
正規表現については、第2章で詳しく扱う予定です。

import re

sentence = "Now I need a drink, alcoholic of course, after the heavy lectures involving quantum mechanics."

# 文字数カウントにはカンマとピリオドが不要なので取り除く
sentence = re.sub("[,.]", "", sentence)

# 文を単語に分割する
splits = sentence.split()

ans = [len(split) for split in splits]
print(ans)

Q4. 元素記号

“Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can.”という文を単語に分解し,1, 5, 6, 7, 8, 9, 15, 16, 19番目の単語は先頭の1文字,それ以外の単語は先頭に2文字を取り出し,取り出した文字列から単語の位置(先頭から何番目の単語か)への連想配列(辞書型もしくはマップ型)を作成せよ.

解答コード

sentence = "Hi He Lied Because Boron Could Not Oxidize Fluorine. New Nations Might Also Sign Peace Security Clause. Arthur King Can."

# 文を単語に分割する
splits = sentence.split()

result = {}
special_numbers = [1, 5, 6, 7, 8, 9, 15, 16, 19]

# iの初期値を1に設定する
for i, split in enumerate(splits, 1):
    
    # 問題文で指定された番号の単語の際は先頭1文字
    if i in special_numbers:
        result[split[0]] = i
        
    # 問題文で指定されていない番号の単語の際は先頭2文字
    else:
        result[split[:2]] = i

print(result)

解答コードの実行結果

{'H': 1, 'He': 2, 'Li': 3, 'Be': 4, 'B': 5, 'C': 6, 'N': 7, 'O': 8, 'F': 9, 'Ne': 10, 'Na': 11, 'Mi': 12, 'Al': 13, 'Si': 14, 'P': 15, 'S': 16, 'Cl': 17, 'Ar': 18, 'K': 19, 'Ca': 20}

解説

enumerate()について

Pythonfor文のインデックス(現在位置)が必要な場合、
for インデックスを入れる変数名, リストの各アイテムを入れる変数名 in enumerate(list, インデックスの初期値):
のようにすればインデックスをループ内で使うことができます。
解答では、インデックスの初期値を1にしていますが、インデックスの初期値は省略可能で、その場合の初期値は0になります。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

Q5. n-gram

与えられたシーケンス(文字列やリストなど)からn-gramを作る関数を作成せよ.この関数を用い,”I am an NLPer”という文から単語bi-gram,文字bi-gramを得よ.

n-gramとは?

解答を提示する前に、n-gramという新しい用語が出てきたので、それを解説します。

任意の文字列や文書を連続したn個の文字で分割するテキスト分割方法.特に,nが1の場合をユニグラム(uni-gram),2の場合をバイグラム(bi-gram),3の場合をトライグラム(tri-gram)と呼ぶ.

引用元:コトバンク

定義だけだとわかりにくいので、
I work in BCI
という文章をN-gramにして例示します。

uni-gram(N=1)

文字:
[('I',), (' ',), ('w',), ('o',), ('r',), ('k',), (' ',), ('i',), ('n',), (' ',), ('B',), ('C',), ('I',)]

単語:
[('I',), ('work',), ('in',), ('BCI',)]

bi-gram(N=2)

文字:
[('I', ' '), (' ', 'w'), ('w', 'o'), ('o', 'r'), ('r', 'k'), ('k', ' '), (' ', 'i'), ('i', 'n'), ('n', ' '), (' ', 'B'), ('B', 'C'), ('C', 'I')]

単語:
[('I', 'work'), ('work', 'in'), ('in', 'BCI')]

tri-gram(N=3)

文字:
[('I', ' ', 'w'), (' ', 'w', 'o'), ('w', 'o', 'r'), ('o', 'r', 'k'), ('r', 'k', ' '), ('k', ' ', 'i'), (' ', 'i', 'n'), ('i', 'n', ' '), ('n', ' ', 'B'), (' ', 'B', 'C'), ('B', 'C', 'I')]

単語:
[('I', 'work', 'in'), ('work', 'in', 'BCI')]

N-gramについて理解していただけたでしょうか。
それでは、解答と解説に入ります。

解答コード

# 以降の問題でも使用する
def n_gram(target: list, n: int) -> list:
    result = []
    
    # 最後の文字や単語の(1-n)つ前までループを回す
    for i, item in enumerate(target[:len(target) + 1 - n]):
        # n-gramの一部として、連続したn個の文字のリストを作成する
        list = target[i : i + n]
        
        # 結果表示の際に見やすいのでタプルに変換する
        result.append(tuple(list))
    
    return result

target = "I am an NLPer"

print("文字bi-gram:")
print(n_gram(target, 2))
print()

# 単語ごとのリストに分割
words = target.split()

print("単語bi-gram:")
print(n_gram(words, 2))

解答コードの実行結果

文字bi-gram:
[('I', ' '), (' ', 'a'), ('a', 'm'), ('m', ' '), (' ', 'a'), ('a', 'n'), ('n', ' '), (' ', 'N'), ('N', 'L'), ('L', 'P'), ('P', 'e'), ('e', 'r')]

単語bi-gram:
[('I', 'am'), ('am', 'an'), ('an', 'NLPer')]

解説

Q1で解説したとおり、文字列をリストとして扱えるというPythonの特徴と、list[start:stop]を使うことで、「最後の文字や単語の(1-n)つ前までループを回す」という処理を簡潔に書くことができています。

while文を使った別解

この問題で指定されている関数はwhile文を使って定義することもできます。

def n_gram(target: str, n: int) -> list:
    result = []
    count = 0
    
    while count + n - 1 < len(target):
        # n-gramの一部として、連続したn個の文字のリストを作成する
        list = target[count : count + n]
        
        # 結果表示の際に見やすいのでタプルに変換する
        result.append(tuple(list))
        
        count += 1
    
    return result

Q6. 集合

paraparaparadise”と”paragraph”に含まれる文字bi-gramの集合を,それぞれ, XとYとして求め,XとYの和集合,積集合,差集合を求めよ.さらに,’se’というbi-gramがXおよびYに含まれるかどうかを調べよ.

解答コード

target1 = "paraparaparadise"
target2 = "paragraph"

# Q5で作った関数を使用する
X = set(n_gram(target1, 2))
Y = set(n_gram(target2, 2))

print("X:")
print(X)
print()

print("Y:")
print(Y)
print()


print("XとYの和集合:")
print(X | Y)
print()

print("XとYの積集合:")
intersection = X & Y
print(intersection)
print()

print("XとYの差集合:")
print(X - Y)
print()

print("XおよびYに’se’というbi-gramが含まれるか:")
print("se" in intersection)

解答コードの実行結果

X:
{('r', 'a'), ('d', 'i'), ('p', 'a'), ('s', 'e'), ('a', 'p'), ('a', 'r'), ('a', 'd'), ('i', 's')}

Y:
{('r', 'a'), ('a', 'g'), ('g', 'r'), ('p', 'a'), ('p', 'h'), ('a', 'p'), ('a', 'r')}

XとYの和集合:
{('r', 'a'), ('a', 'g'), ('g', 'r'), ('d', 'i'), ('p', 'a'), ('s', 'e'), ('p', 'h'), ('a', 'p'), ('a', 'r'), ('a', 'd'), ('i', 's')}

XとYの積集合:
{('a', 'p'), ('r', 'a'), ('a', 'r'), ('p', 'a')}

XとYの差集合:
{('d', 'i'), ('a', 'd'), ('s', 'e'), ('i', 's')}

XおよびYに’se’というbi-gramが含まれるか:
False

解説

問題文の「XおよびY」という言葉が少し曖昧で、「XとYの積集合」と「XとYの和集合」のどちらともとれるように感じました。
ここでは、「XとYの和集合」なら「XおよびY」ではなく「XまたはY」や「XかY」と書くだろうという理由から、「XとYの積集合」と解釈して解いています。

Pythonsetについて

Pythonではsetを使うことで、集合を定義することができます。
setは順番を保持しませんが、同じ項目を重複して持たないので、listより便利な場合があります。
example_set = set(example_list)
とすることで、リストを集合に変換できます。

またPythonでは、解説コードのように和集合や積集合なども簡単に求めることができます。

この問題では使っていませんが、集合を宣言する場合は
empty_set = set()
のように宣言する必要があります。
リストを
empty_list = []
と宣言するように
empty_set = {}
と宣言してしまうと、集合ではなく辞書型の宣言になってしまうので注意が必要です。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

Pythonで変数などを宣言する際の注意

Pythonで変数やsetlistを宣言する際に、気をつけたいことがあります。
例があったほうがわかりやすいので、以下にサンプルコードを提示します。

list = []
set = list(list)
# 以下のようなエラーが出る
# TypeError: 'list' object is not callable

PythonJavaなどに比べると、予約語(そのままで変数名にされてしまうと、プログラムがうまく処理できなくなるので、エラーになる語)の範囲が狭めに設定されており、setlistといった語をそのまま変数名にすることができてしまいます。
しかし、これらはset()list()といった組み込みメソッドで使う語であり、これらの語をそのまま変数名にしてしまうと、組み込みメソッドの方が使えなくなってしまいます。
エラー内容からミスした内容ががわかりにくいタイプのエラーの出方をするので、気をつけてください。

Pythonの組み込みメソッド(組み込み関数)について知りたい方は、以下の公式ドキュメントの該当ページを参考にしてください。
組み込み関数 — Python 3.8.10 ドキュメント

また、予約語について詳しく知りたい方は、以下のサイトを参考にしてください。
Javaを例に出したので、そちらの予約語も載せておきます。
Pythonのキーワード(予約語)一覧を確認するkeyword | note.nkmk.me
Java | Javaの予約語

Q7. テンプレートによる文生成

引数x, y, zを受け取り「x時のyはz」という文字列を返す関数を実装せよ.さらに,x=12, y=”気温”, z=22.4として,実行結果を確認せよ.

解答コード

def time_syntax(x: str, y: str, z: str) -> str:
    return f'{x}時の{y}は{z}'

print(time_syntax(12, "気温", 22.4))

解答コードの実行結果

12時の気温は22.4

解説

Pythonf文字列について

簡素な記法で変数入りの文字列をフォーマットできるため、この問題のように変数混じりの文字列を使いたい場合に便利です。
以下のように、変数名を{}でくくって使います。
f'私の名前は{name}です。'

比較的最近(Python3.6以降)でのみ使用可能なので、古い環境では使えないことには注意が必要です。

参考: 7. 入力と出力 — Python 3.8.10 ドキュメント

Q8. 暗号文

与えられた文字列の各文字を,以下の仕様で変換する関数cipherを実装せよ.
・英小文字ならば(219 - 文字コード)の文字に置換
・その他の文字はそのまま出力

この関数を用い,英語のメッセージを暗号化・復号化せよ.

文字コードとは

文字コードという単語が初めて出てきたので、解説しておきます。

コンピュータ上では、文字はデジタル符号で表される。この符号を文字コードという。キャラクターコードともいう。アルファベットのように字種の数が少ない場合は符号として必要なビット数が少なくてすみ、1バイト(8ビット)が1文字に割り当てられているが、字種の多い漢字を使う日本語などでは1文字に数バイト必要である。 引用元:コトバンク

つまり文字コードは数値なので、この問題では文字列の暗号化のために、文字を一旦文字コード化して引き算しようとしているわけですね。

文字コードは複数の種類がありますが、この問題ではPythonで扱いやすいUnicodeが入力されることを想定して解答します。

解答コード

def cipher(target: str) -> list:
    encrypted_list = []
    
    # for文で処理するために入力文字列をリスト化
    target_list = list(target)
    
    for target in target_list:
        
        # 英小文字ならば(219 - 文字コード)の文字に置換
        if target.islower():
            encrypted_list.append(chr(219 - ord(target)))
        
        # その他の文字はそのまま出力
        else:
            encrypted_list.append(target)
    
    return "".join(encrypted_list)

target1 = "para2para1para3dise"
print("入力文:")
print(target1)

encrypted_target1 = cipher(target1)
print()
print("暗号化した文:")
print(encrypted_target1)

print()
print("復号化した文:")
print(cipher(encrypted_target1))

解答コードの実行結果

入力文:
para2para1para3dise

暗号化した文:
kziz2kziz1kziz3wrhv

復号化した文:
para2para1para3dise

解説

Pythonにおける大文字・小文字の判定

Pythonには、以下のように標準で大文字・小文字を判定するメソッドがあります。

# 大文字かを判定
str1 = "A"
print(str1.isupper())
# 実行結果:"True"

# 小文字かを判定
str2 = "a"
print(str2.islower())
# 実行結果:"True"

Pythonでの文字コードの使い方

Pythonでは、
ord("文字コードに変換したい文字")
とすることで、文字をUnicode文字コードに変換できます。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

逆に、Unicode文字コードを文字列に戻したい場合は
chr(文字コード)
を使います。

参考: 組み込み関数 — Python 3.8.10 ドキュメント

Q9. Typoglycemia

スペースで区切られた単語列に対して,各単語の先頭と末尾の文字は残し,それ以外の文字の順序をランダムに並び替えるプログラムを作成せよ.ただし,長さが4以下の単語は並び替えないこととする.

適当な英語の文(例えば”I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind .”)を与え,その実行結果を確認せよ.

解答コード

import random

# 結果が毎回同じになるように、乱数シードを固定する
random.seed(314) 

target = "I couldn’t believe that I could actually understand what I was reading : the phenomenal power of the human mind ."

# 文章を単語に分割する
splits = target.split()
result_list = []

for split in splits:
    # 長さが4を超える単語のみ順序をランダムに並び替える
    if len(split) >= 5:
        
        # 並び替え対象の部分をリスト化
        randomize_target_split = split[1:-1]
        
        # ランダムに並び替える
        randomized_split = random.sample(randomize_target_split, len(randomize_target_split))
        
        # 先頭や末尾と結合する
        result_list.append(split[0] + "".join(randomized_split) + split[-1])

    else:
        result_list.append(split)

result = " ".join(result_list)
print(result)

解答コードの実行結果

I cudonl’t bleevie that I colud actlaluy urdetsnnad what I was rineadg : the pamnneohel pewor of the hamun mind .

解説

Pythonrandomライブラリの使い方

Pythonでランダムな処理を行いたい場合に使うライブラリです。 以下に、解答コードで使用したものを中心に、コードを例示しながらrandomライブラリのメソッドについて解説します。

import random

# 結果が毎回同じになるように、乱数シードを固定するrandom.seed()
random.seed(314) 

example_list = [1, 2, 3, 4, 5, 6, 7]

# 重複なしでリストから要素を取り出すrandom.sample()
print(random.sample(example_list, len(example_list)))
# 結果:[2, 4, 1, 7, 5, 6, 3]

# 重複ありでリストから要素を取り出すrandom.choices()
print(random.choices(example_list, k=len(example_list)))
# 結果:[3, 3, 7, 1, 5, 1, 6]
# random.sample()と違い、重複ありなので、同じ要素が複数回取り出される

コードの再現性を担保するために、random.seed()で結果を固定しています。

参考: random --- 擬似乱数を生成する — Python 3.8.10 ドキュメント

join()で区切り文字を入れる

Q2でも解説したjoin()ですが、区切り文字を入れてリストを文字列として結合することもできます。
"区切り文字".join(list)

参考: 組み込み型 — Python 3.8.10 ドキュメント

Google Colaboratoryによる解答の公開

Google Colaboratoryを利用してJupyter Notebookを共有する形式でも解答を公開しています。 https://colab.research.google.com/drive/1QbWjJJgoeL53udr3gKtOV0_NZsXDR9cb?usp=sharing

おわりに

以上、言語処理100本ノックの第1章について解説しました。
私が本格的にPythonに取り組んだのは今回の言語処理100本ノックが初めてだったのですが、Pythonで言語処理をする際に便利な記法を多数学ぶことができたと感じています。 この章で解説した技法はのちの章でも多用するので、しっかりと覚えておくとスムーズに解けると思います。

あの論文を検証してみた! - シリーズ第6回 - Structual Probe 論文

こんにちは!ブレインズコンサルティングの大下です。

今回は、「あの論文を検証してみた!」のシリーズ第6回、A Structural Probe for Finding Syntax in Word Representationsを検証していきます。 BERT、ELMo で埋め込んだ空間表現の中に、パースツリー情報が埋め込まれているらしいことを示した論文です。 本当に埋め込まれていると言ってよいのか、具体的にどのようにして構造を復元しているのかが疑問になるところです。

続きを読む

あの論文を検証してみた! - シリーズ第5回 - Neural Processes 論文(実験編)

こんにちは!ブレインズコンサルティングの大下です。

今回は、「あの論文を検証してみた!」のシリーズ第5回、前回理論的(数学的・確率論的)な側面を解説したNeural Processes の論文の実験編です。 DeepMind社のTensorflow による実装を参考に、PyTorch 版を作成しました。 意外と、DeepMind社の実装のように、ある程度抽象化したりモジュール構成を整理したPyTorch版Neural Processesの実装がない印象だったので、独自作成しました。

今回の実験編では、Few-Shot Leaning をテーマに、いくつかのデータセット(※)で検証していきます。

(※)使ったデータセットは、Toy Dataset、MNIST、Fashion-MNIST、Kuzushiji-MNIST です。

続きを読む

あの論文を検証してみた! - シリーズ第4回 - Neural Processes 論文(解説編)

こんにちは!ブレインズコンサルティングの大下です。

今回は、「あの論文を検証してみた!」のシリーズ第4回、Neural Processes の論文について解説します。 Neural Processes の論文を選んだモチベーションは、もともと確率とニューラルネットワークの合わせ技のモデルに興味があったところ、 Deepmind 社が、ICMLでガウス過程の深層学習版として提案した当論文が目に入って来たというところです。

続きを読む