ラテン語碑文解析AI「アエネーアス」始動。課題はあるがかなりの精度、研究速度が上がるか…?

考古学xテクノロジーのトレンドの一つ、AIによる古代語の解析AIにラテン語を専門とする「Aeneas」が登場。先行するモデル「Ithaca(イタカ)」の後継で、さらにグレードアップしたものらしい。

「Aeneas」という名前はもちろん、ギリシャ神話の英雄アエネーアス(アイネイアース)から来ている。この英雄の、放浪の旅の果てにイタリアにたどり着くという「見識の深さ」が命名の由来だという。なおギリシャ神話ではあるが物語が記されたのはラテン語なのでネーミングとしてはなかなかいいセンスだと思う。

Contextualizing ancient texts with generative neural networks
https://www.nature.com/articles/s41586-025-09292-5

fgh7.png

まずAI知らない人むけに前提を説明しておく。
文章内に出てくる「ニューラルネットワーク」とは、AIの機械学習のひとつ「ディープラーニング」に使われる代表的なアルゴリズム(学習方法)である。
ニューラルは人間の脳の脳細胞のつながり「ニューロン」をイメージした構造で、学習したデータを何層かの処理フィルタを通して出力する。

AIは特定の報告に従ってデータを学習してはじめて動くようになる。学習させるデータと学習方法によって「何に使えるか」が決まる。
今回の場合はラテン語碑文の解読がしたいので、言語処理に適したモデルを使用し、ラテン語のサンプル141,000点と、メタデータとしてそれぞれの碑文の時代/場所を学習させている。
人間の専門家でも、ここまで大量の碑文を読み込んでいる人はそうそういないはずなので、いわば即席の専門家を作り上げているに等しい。


できることは、欠損した文章の修復と、既に出来上がっているテキストに使われている単語や文章のクセから時代・所属する地理(ローマ領内のどの地域の碑文なのか)まで、ある程度の精度で特定できるらしい。
文章修復は、人間の専門家とAIでペアになり、専門家がAIに提案された修復案から適切なものを選ぶことで効率化が見込めるし、時代・地理の特定は文章内に埋め込まれた日付に惑われることなく単語などから正しい答えを選択できる精度があるという。

以下は、 Senatus populusque Romanus (‘The Senate and the people of Rome’ =元老院とローマ市民)という提携フレーズが欠けている場合にどう修復しているかというアルゴリズム。欠けている Senat の部分は、データベース内の似た文字列から候補を出し、前後の文脈と照らし合わせて復元する。
このプロセスは、文字が欠けている場合に似た文章や定型文から類推するという人間の思考とほぼ同じだが、そこが「ニューラルネットワーク」という名前の由縁でもある。

sdfg25.png

これは上手く使えば、専門家の育成教材にもなるし、専門家の解読作業の効率化も見込めるし、これまでのデータをぜんぶおさらいしてハズレ値を探し出すことで過去の解読誤りなどを見つけることも出来そう。特化型AIとしては上手いこと組み込んだなーという感じ。

今後、さらに精度が上がっていくといろんな研究に使えそうな予感。


*********
関連する研究としては以下。これらは言語解析というよりは画像解析モデルのAIを使っている。
言語と画像だとデータの処理方法が違ってたりするんですが、そのへんはディープラーニングに関する本が腐るほど出てるので興味ある人は探してみてください…。

AIで楔形文字解読、バビロニアの「ユーフラテス川讃歌」が見つかる
https://55096962.seesaa.net/article/516688886.html

炭化した巻物に書かれた文字の痕跡をAIで解読する試みが進展中。これはなかなかの技術
https://55096962.seesaa.net/article/498139348.html

AI利用でナスカの地上絵をさらに発見、用途の分析なども始まる
https://55096962.seesaa.net/article/504979243.html